ค้นหาเว็บไซต์

Grok 3 ของ xAI ดีกว่าที่คาดไว้ วิธีทดลองใช้ฟรี (ก่อนสมัครสมาชิก)


โมเดล AI ที่เขย่าโลกเป็นส่วนหนึ่งของแนวโน้มกว้างในการบีบชิปให้มากขึ้น นี่คือวิธีการทํางาน

ตลาดปัญญาประดิษฐ์ (AI) และตลาดหุ้นทั้งหมดถูกเขย่าเมื่อเดือนที่แล้วด้วยความ นิยมอย่างกะทันหันของ DeepSeek ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพ่นซอร์สที่พัฒนาโดยกองทุนเฮดจ์ฟันด์ในจีนที่เอาชนะ OpenAI ที่ดีที่สุดในงานบางอย่างในขณะที่มีค่าใช้จ่ายน้อยกว่ามาก

ตามรายละเอียดของ Radhika Rajkumar จาก ZDNET ความสําเร็จของ R1 เน้นย้ําถึงการเปลี่ยนแปลงครั้งใหญ่ใน AI ที่สามารถช่วยให้ห้องปฏิบัติการและนักวิจัยขนาดเล็กสามารถสร้างแบบจําลองการแข่งขันและกระจายตัวเลือกที่มีอยู่

ทําไม DeepSeek ถึงทํางานได้ดี?

ความสําเร็จเกิดจากแนวทางที่กว้างขวางภายใน AI ในรูปแบบการเรียนรู้เชิงลึกเพื่อบีบชิปคอมพิวเตอร์ให้มากขึ้นโดยใช้ประโยชน์จากปรากฏการณ์ที่เรียกว่า "ความผอมบาง"

ความผอมเพรียวมีหลายรูปแบบ บางครั้ง มันเกี่ยวข้องกับการกําจัดบางส่วนของข้อมูลที่ AI ใช้เมื่อข้อมูลนั้นไม่ส่งผลกระทบอย่างมีนัยสําคัญต่อผลลัพธ์ของโมเดล

ในบางครั้งความผอมแพ้เกี่ยวข้องกับการตัดส่วนทั้งหมดของโครงข่ายประสาทเทียมหากการทําเช่นนั้นไม่ส่งผลต่อผลลัพธ์

DeepSeek เป็นตัวอย่างของอย่างหลัง: การใช้โครงข่ายประสาทเทียมอย่างประหยัด

ความก้าวหน้าหลักที่คนส่วนใหญ่ระบุใน DeepSeek คือสามารถเปิดและปิด "น้ําหนัก" หรือ "พารามิเตอร์" ของโครงข่ายประสาทเทียมส่วนใหญ่ได้ พารามิเตอร์กําหนดวิธีที่โครงข่ายประสาทเทียมสามารถแปลงอินพุต -- ข้อความแจ้งที่คุณพิมพ์ -- เป็นข้อความหรือรูปภาพที่สร้างขึ้น พารามิเตอร์มีผลกระทบโดยตรงต่อระยะเวลาที่ใช้ในการคํานวณ พารามิเตอร์ที่มากขึ้นมักหมายถึงความพยายามในการประมวลผลที่มากขึ้น

ความผอมบางและบทบาทใน AI

ความสามารถในการใช้พารามิเตอร์ทั้งหมดบางส่วนของ LLM และปิดส่วนที่เหลือเป็นตัวอย่างของความผอมบาง ความเบาบางนั้นอาจส่งผลกระทบอย่างมากต่องบประมาณการประมวลผลสําหรับโมเดล AI มากหรือน้อยเพียงใด

นักวิจัย AI ของ Apple ในรายงานที่ตีพิมพ์เมื่อวันที่ 21 มกราคมอธิบายว่า DeepSeek และแนวทางที่คล้ายคลึงกันใช้ความบางเบาเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นสําหรับพลังการประมวลผลที่กําหนดได้อย่างไร

Apple ไม่มีส่วนเกี่ยวข้องกับ DeepSeek แต่ยักษ์ใหญ่ด้านเทคโนโลยีทําการวิจัย AI ของตัวเอง ดังนั้นการพัฒนาของบริษัทภายนอกเช่น DeepSeek จึงเป็นส่วนหนึ่งของการมีส่วนร่วมอย่างต่อเนื่องของ Apple ในการวิจัย AI

ในบทความชื่อ "Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models" ซึ่ง โพสต์บนเซิร์ฟเวอร์ก่อนพิมพ์ arXiv Samir Abnar ผู้เขียนหลักและนักวิจัย Apple คนอื่นๆ พร้อมด้วยผู้ร่วมงาน Harshay Shah จาก MIT ได้ศึกษาว่าประสิทธิภาพแตกต่างกันอย่างไรเมื่อพวกเขาใช้ประโยชน์จากความเบาบางโดยการปิดส่วนต่างๆ ของโครงข่ายประสาทเทียม

Abnar และทีมงานทําการศึกษาโดยใช้ไลบรารี โค้ดที่เผยแพร่ในปี 2023 โดยนักวิจัย AI ที่ Microsoft, Google และ Stanford ที่เรียกว่า MegaBlocks อย่างไรก็ตาม พวกเขาชี้แจงอย่างชัดเจนว่างานของพวกเขาสามารถนําไปใช้กับ DeepSeek และนวัตกรรมล่าสุดอื่นๆ ได้

Abnar และทีมงานถามว่ามีระดับ "ที่เหมาะสมที่สุด" สําหรับความผอมบางใน DeepSeek และโมเดลที่คล้ายกันหรือไม่: สําหรับพลังการประมวลผลจํานวนที่กําหนด มีจํานวนน้ําหนักประสาทที่เหมาะสมที่จะเปิดหรือปิดหรือไม่

การวิจัยชี้ให้เห็นว่าคุณสามารถหาปริมาณความผอมบางได้อย่างเต็มที่เป็นเปอร์เซ็นต์ของน้ําหนักประสาททั้งหมดที่คุณสามารถปิดได้ โดยเปอร์เซ็นต์นั้นเข้าใกล้ แต่ไม่เคยเท่ากับ 100% ของโครงข่ายประสาทเทียมที่ "ไม่ได้ใช้งาน"

กราฟแสดงให้เห็นว่าสําหรับโครงข่ายประสาทเทียมที่กําหนด ด้วยงบประมาณการประมวลผลที่กําหนด จะมีโครงข่ายประสาทส่วนกลางในปริมาณที่เหมาะสมที่สุดที่สามารถปิดได้เพื่อให้ได้ระดับความแม่นยํา หลักการง่ายๆ ทางเศรษฐกิจเดียวกันนี้เป็นจริงสําหรับคอมพิวเตอร์ส่วนบุคคลรุ่นใหม่ทุกรุ่น: ไม่ว่าจะเป็นผลลัพธ์ที่ดีกว่าสําหรับเงินเท่ากันหรือผลลัพธ์เดียวกันด้วยเงินที่น้อยลง

สําหรับโครงข่ายประสาทเทียมที่มีขนาดที่กําหนดในพารามิเตอร์ทั้งหมดด้วยจํานวนการประมวลผลที่กําหนดคุณต้องมีพารามิเตอร์น้อยลงเรื่อย ๆ เพื่อให้ได้ความแม่นยําเท่ากันหรือดีขึ้นในการทดสอบเกณฑ์มาตรฐาน AI ที่กําหนดเช่นคณิตศาสตร์หรือการตอบคําถาม

กล่าวอีกนัยหนึ่งไม่ว่าพลังการประมวลผลของคุณจะเป็นอย่างไรคุณสามารถปิดส่วนต่างๆของโครงข่ายประสาทเทียมได้มากขึ้นและได้ผลลัพธ์ที่เหมือนกันหรือดีกว่า

เพิ่มประสิทธิภาพ AI ด้วยพารามิเตอร์ที่น้อยลง

ดังที่ Abnar และทีมงานระบุในแง่ทางเทคนิค: "การเพิ่มความผอมแพ้ในขณะที่ขยายจํานวนพารามิเตอร์ทั้งหมดตามสัดส่วนอย่างสม่ําเสมอจะนําไปสู่การสูญเสียก่อนการฝึกอบรมที่ลดลง แม้ว่าจะถูกจํากัดโดยงบประมาณการประมวลผลการฝึกอบรมคงที่ก็ตาม" คําว่า "การสูญเสียก่อนการฝึกอบรม" เป็นคําศัพท์ AI สําหรับความแม่นยําของโครงข่ายประสาทเทียม การสูญเสียการฝึกซ้อมที่ลดลงหมายถึงผลลัพธ์ที่แม่นยํายิ่งขึ้น

การค้นพบดังกล่าวอธิบายว่า DeepSeek อาจมีพลังการประมวลผลน้อยลงได้อย่างไร แต่ได้ผลลัพธ์ที่เหมือนกันหรือดีกว่าเพียงแค่ปิดส่วนเครือข่ายให้มากขึ้น

ความเพรียวบางเป็นเหมือนหน้าปัดวิเศษที่ค้นหาการจับคู่ที่ดีที่สุดสําหรับโมเดล AI ของคุณและการประมวลผลที่มีอยู่

หลักการง่ายๆ ทางเศรษฐกิจเดียวกันนี้เป็นจริงสําหรับคอมพิวเตอร์ส่วนบุคคลรุ่นใหม่ทุกรุ่น: ไม่ว่าจะเป็นผลลัพธ์ที่ดีกว่าสําหรับเงินเท่ากันหรือผลลัพธ์เดียวกันด้วยเงินที่น้อยลง

มีรายละเอียดอื่นๆ ที่ต้องพิจารณาเกี่ยวกับ DeepSeek ตัวอย่างเช่น นวัตกรรม DeepSeek อีกอย่างหนึ่ง ตามที่อธิบาย โดย Ege Erdil จาก Epoch AI คือเคล็ดลับทางคณิตศาสตร์ที่เรียกว่า "ความสนใจแฝงหลายหัว" โดยไม่ต้องลงไปลึกเกินไปความสนใจแฝงหลายหัวจะถูกใช้เพื่อบีบอัดหนึ่งในผู้บริโภคหน่วยความจําและแบนด์วิดท์รายใหญ่ที่สุดแคชหน่วยความจําที่เก็บข้อความป้อนล่าสุดของพรอมต์

อนาคตของการวิจัยความผอมบาง

นอกเหนือจากรายละเอียดแล้ว ประเด็นที่ลึกซึ้งที่สุดเกี่ยวกับความพยายามทั้งหมดนี้คือความผอมเพรียวในฐานะปรากฏการณ์ไม่ใช่เรื่องใหม่ในการวิจัย AI และไม่ใช่แนวทางใหม่ในด้านวิศวกรรม

นักวิจัย AI ได้แสดงให้เห็นมาหลายปี แล้วว่าการกําจัดชิ้นส่วนของโครงข่ายประสาทเทียมสามารถบรรลุความแม่นยําที่เทียบเคียงได้หรือดีกว่าโดยใช้ความพยายามน้อยลง

Intel คู่แข่งของ Nvidia ได้ระบุว่าความเบา บางเป็นช่องทางสําคัญในการวิจัยเพื่อเปลี่ยนความล้ําสมัยในสาขานี้มาหลายปี แนวทางจากสตาร์ทอัพที่อิงจากความเบา บางยังทําคะแนนสูงในเกณฑ์มาตรฐานของอุตสาหกรรมในช่วงไม่กี่ปีที่ผ่านมา

หน้าปัดวิเศษของความเบาบางไม่เพียงแต่ลดต้นทุนการประมวลผลเหมือนในกรณีของ DeepSeek เท่านั้น ความผอมบางยังทํางานในทิศทางอื่น: มันสามารถสร้างคอมพิวเตอร์ AI ที่มีประสิทธิภาพมากขึ้น

หน้าปัดวิเศษของความผอมแผ่นั้นลึกซึ้งเพราะไม่เพียงแต่ปรับปรุงเศรษฐกิจด้วยงบประมาณเพียงเล็กน้อย เช่นเดียวกับในกรณีของ DeepSeek แต่ยังทํางานในทิศทางอื่น: ใช้จ่ายมากขึ้น และคุณจะได้รับผลประโยชน์ที่ดียิ่งขึ้นผ่านความผอมบาง เมื่อคุณเพิ่มพลังการประมวลผล ความแม่นยําของโมเดล AI จะดีขึ้น Abnar และทีมงานพบ

พวกเขาแนะนําว่า: "เมื่อความเบาบางเพิ่มขึ้นการสูญเสียการตรวจสอบจะลดลงสําหรับงบประมาณการประมวลผลทั้งหมดโดยงบประมาณที่ใหญ่ขึ้นจะบรรลุการสูญเสียที่ต่ํากว่าในแต่ละระดับความเบาบาง"

ในทางทฤษฎี คุณสามารถสร้างโมเดลที่ใหญ่ขึ้นเรื่อย ๆ บนคอมพิวเตอร์ที่ใหญ่ขึ้นเรื่อยๆ และได้รับผลตอบแทนที่ดีขึ้น

งานที่เบาบางทั้งหมดนั้นหมายความว่า DeepSeek เป็นเพียงตัวอย่างหนึ่งของการวิจัยในวงกว้างที่ห้องปฏิบัติการหลายแห่งกําลังติดตามอยู่แล้ว และอีกหลายแห่งจะกระโดดขึ้นมาเพื่อจําลองความสําเร็จของ DeepSeek