Grok 3 ของ xAI ดีกว่าที่คาดไว้ วิธีทดลองใช้ฟรี (ก่อนสมัครสมาชิก)
โมเดล AI ที่เขย่าโลกเป็นส่วนหนึ่งของแนวโน้มกว้างในการบีบชิปให้มากขึ้น นี่คือวิธีการทํางาน
ตลาดปัญญาประดิษฐ์ (AI) และตลาดหุ้นทั้งหมดถูกเขย่าเมื่อเดือนที่แล้วด้วยความ นิยมอย่างกะทันหันของ DeepSeek ซึ่งเป็นโมเดลภาษาขนาดใหญ่ (LLM) แบบโอเพ่นซอร์สที่พัฒนาโดยกองทุนเฮดจ์ฟันด์ในจีนที่เอาชนะ OpenAI ที่ดีที่สุดในงานบางอย่างในขณะที่มีค่าใช้จ่ายน้อยกว่ามาก
ตามรายละเอียดของ Radhika Rajkumar จาก ZDNET ความสําเร็จของ R1 เน้นย้ําถึงการเปลี่ยนแปลงครั้งใหญ่ใน AI ที่สามารถช่วยให้ห้องปฏิบัติการและนักวิจัยขนาดเล็กสามารถสร้างแบบจําลองการแข่งขันและกระจายตัวเลือกที่มีอยู่
ทําไม DeepSeek ถึงทํางานได้ดี?
ความสําเร็จเกิดจากแนวทางที่กว้างขวางภายใน AI ในรูปแบบการเรียนรู้เชิงลึกเพื่อบีบชิปคอมพิวเตอร์ให้มากขึ้นโดยใช้ประโยชน์จากปรากฏการณ์ที่เรียกว่า "ความผอมบาง"
ความผอมเพรียวมีหลายรูปแบบ บางครั้ง มันเกี่ยวข้องกับการกําจัดบางส่วนของข้อมูลที่ AI ใช้เมื่อข้อมูลนั้นไม่ส่งผลกระทบอย่างมีนัยสําคัญต่อผลลัพธ์ของโมเดล
ในบางครั้งความผอมแพ้เกี่ยวข้องกับการตัดส่วนทั้งหมดของโครงข่ายประสาทเทียมหากการทําเช่นนั้นไม่ส่งผลต่อผลลัพธ์
DeepSeek เป็นตัวอย่างของอย่างหลัง: การใช้โครงข่ายประสาทเทียมอย่างประหยัด
ความก้าวหน้าหลักที่คนส่วนใหญ่ระบุใน DeepSeek คือสามารถเปิดและปิด "น้ําหนัก" หรือ "พารามิเตอร์" ของโครงข่ายประสาทเทียมส่วนใหญ่ได้ พารามิเตอร์กําหนดวิธีที่โครงข่ายประสาทเทียมสามารถแปลงอินพุต -- ข้อความแจ้งที่คุณพิมพ์ -- เป็นข้อความหรือรูปภาพที่สร้างขึ้น พารามิเตอร์มีผลกระทบโดยตรงต่อระยะเวลาที่ใช้ในการคํานวณ พารามิเตอร์ที่มากขึ้นมักหมายถึงความพยายามในการประมวลผลที่มากขึ้น
ความผอมบางและบทบาทใน AI
ความสามารถในการใช้พารามิเตอร์ทั้งหมดบางส่วนของ LLM และปิดส่วนที่เหลือเป็นตัวอย่างของความผอมบาง ความเบาบางนั้นอาจส่งผลกระทบอย่างมากต่องบประมาณการประมวลผลสําหรับโมเดล AI มากหรือน้อยเพียงใด
นักวิจัย AI ของ Apple ในรายงานที่ตีพิมพ์เมื่อวันที่ 21 มกราคมอธิบายว่า DeepSeek และแนวทางที่คล้ายคลึงกันใช้ความบางเบาเพื่อให้ได้ผลลัพธ์ที่ดีขึ้นสําหรับพลังการประมวลผลที่กําหนดได้อย่างไร
Apple ไม่มีส่วนเกี่ยวข้องกับ DeepSeek แต่ยักษ์ใหญ่ด้านเทคโนโลยีทําการวิจัย AI ของตัวเอง ดังนั้นการพัฒนาของบริษัทภายนอกเช่น DeepSeek จึงเป็นส่วนหนึ่งของการมีส่วนร่วมอย่างต่อเนื่องของ Apple ในการวิจัย AI
ในบทความชื่อ "Parameters vs FLOPs: Scaling Laws for Optimal Sparsity for Mixture-of-Experts Language Models" ซึ่ง โพสต์บนเซิร์ฟเวอร์ก่อนพิมพ์ arXiv Samir Abnar ผู้เขียนหลักและนักวิจัย Apple คนอื่นๆ พร้อมด้วยผู้ร่วมงาน Harshay Shah จาก MIT ได้ศึกษาว่าประสิทธิภาพแตกต่างกันอย่างไรเมื่อพวกเขาใช้ประโยชน์จากความเบาบางโดยการปิดส่วนต่างๆ ของโครงข่ายประสาทเทียม
Abnar และทีมงานทําการศึกษาโดยใช้ไลบรารี โค้ดที่เผยแพร่ในปี 2023 โดยนักวิจัย AI ที่ Microsoft, Google และ Stanford ที่เรียกว่า MegaBlocks อย่างไรก็ตาม พวกเขาชี้แจงอย่างชัดเจนว่างานของพวกเขาสามารถนําไปใช้กับ DeepSeek และนวัตกรรมล่าสุดอื่นๆ ได้
Abnar และทีมงานถามว่ามีระดับ "ที่เหมาะสมที่สุด" สําหรับความผอมบางใน DeepSeek และโมเดลที่คล้ายกันหรือไม่: สําหรับพลังการประมวลผลจํานวนที่กําหนด มีจํานวนน้ําหนักประสาทที่เหมาะสมที่จะเปิดหรือปิดหรือไม่
การวิจัยชี้ให้เห็นว่าคุณสามารถหาปริมาณความผอมบางได้อย่างเต็มที่เป็นเปอร์เซ็นต์ของน้ําหนักประสาททั้งหมดที่คุณสามารถปิดได้ โดยเปอร์เซ็นต์นั้นเข้าใกล้ แต่ไม่เคยเท่ากับ 100% ของโครงข่ายประสาทเทียมที่ "ไม่ได้ใช้งาน"
กราฟแสดงให้เห็นว่าสําหรับโครงข่ายประสาทเทียมที่กําหนด ด้วยงบประมาณการประมวลผลที่กําหนด จะมีโครงข่ายประสาทส่วนกลางในปริมาณที่เหมาะสมที่สุดที่สามารถปิดได้เพื่อให้ได้ระดับความแม่นยํา หลักการง่ายๆ ทางเศรษฐกิจเดียวกันนี้เป็นจริงสําหรับคอมพิวเตอร์ส่วนบุคคลรุ่นใหม่ทุกรุ่น: ไม่ว่าจะเป็นผลลัพธ์ที่ดีกว่าสําหรับเงินเท่ากันหรือผลลัพธ์เดียวกันด้วยเงินที่น้อยลง
สําหรับโครงข่ายประสาทเทียมที่มีขนาดที่กําหนดในพารามิเตอร์ทั้งหมดด้วยจํานวนการประมวลผลที่กําหนดคุณต้องมีพารามิเตอร์น้อยลงเรื่อย ๆ เพื่อให้ได้ความแม่นยําเท่ากันหรือดีขึ้นในการทดสอบเกณฑ์มาตรฐาน AI ที่กําหนดเช่นคณิตศาสตร์หรือการตอบคําถาม
กล่าวอีกนัยหนึ่งไม่ว่าพลังการประมวลผลของคุณจะเป็นอย่างไรคุณสามารถปิดส่วนต่างๆของโครงข่ายประสาทเทียมได้มากขึ้นและได้ผลลัพธ์ที่เหมือนกันหรือดีกว่า
เพิ่มประสิทธิภาพ AI ด้วยพารามิเตอร์ที่น้อยลง
ดังที่ Abnar และทีมงานระบุในแง่ทางเทคนิค: "การเพิ่มความผอมแพ้ในขณะที่ขยายจํานวนพารามิเตอร์ทั้งหมดตามสัดส่วนอย่างสม่ําเสมอจะนําไปสู่การสูญเสียก่อนการฝึกอบรมที่ลดลง แม้ว่าจะถูกจํากัดโดยงบประมาณการประมวลผลการฝึกอบรมคงที่ก็ตาม" คําว่า "การสูญเสียก่อนการฝึกอบรม" เป็นคําศัพท์ AI สําหรับความแม่นยําของโครงข่ายประสาทเทียม การสูญเสียการฝึกซ้อมที่ลดลงหมายถึงผลลัพธ์ที่แม่นยํายิ่งขึ้น
การค้นพบดังกล่าวอธิบายว่า DeepSeek อาจมีพลังการประมวลผลน้อยลงได้อย่างไร แต่ได้ผลลัพธ์ที่เหมือนกันหรือดีกว่าเพียงแค่ปิดส่วนเครือข่ายให้มากขึ้น
ความเพรียวบางเป็นเหมือนหน้าปัดวิเศษที่ค้นหาการจับคู่ที่ดีที่สุดสําหรับโมเดล AI ของคุณและการประมวลผลที่มีอยู่
หลักการง่ายๆ ทางเศรษฐกิจเดียวกันนี้เป็นจริงสําหรับคอมพิวเตอร์ส่วนบุคคลรุ่นใหม่ทุกรุ่น: ไม่ว่าจะเป็นผลลัพธ์ที่ดีกว่าสําหรับเงินเท่ากันหรือผลลัพธ์เดียวกันด้วยเงินที่น้อยลง
มีรายละเอียดอื่นๆ ที่ต้องพิจารณาเกี่ยวกับ DeepSeek ตัวอย่างเช่น นวัตกรรม DeepSeek อีกอย่างหนึ่ง ตามที่อธิบาย โดย Ege Erdil จาก Epoch AI คือเคล็ดลับทางคณิตศาสตร์ที่เรียกว่า "ความสนใจแฝงหลายหัว" โดยไม่ต้องลงไปลึกเกินไปความสนใจแฝงหลายหัวจะถูกใช้เพื่อบีบอัดหนึ่งในผู้บริโภคหน่วยความจําและแบนด์วิดท์รายใหญ่ที่สุดแคชหน่วยความจําที่เก็บข้อความป้อนล่าสุดของพรอมต์
อนาคตของการวิจัยความผอมบาง
นอกเหนือจากรายละเอียดแล้ว ประเด็นที่ลึกซึ้งที่สุดเกี่ยวกับความพยายามทั้งหมดนี้คือความผอมเพรียวในฐานะปรากฏการณ์ไม่ใช่เรื่องใหม่ในการวิจัย AI และไม่ใช่แนวทางใหม่ในด้านวิศวกรรม
นักวิจัย AI ได้แสดงให้เห็นมาหลายปี แล้วว่าการกําจัดชิ้นส่วนของโครงข่ายประสาทเทียมสามารถบรรลุความแม่นยําที่เทียบเคียงได้หรือดีกว่าโดยใช้ความพยายามน้อยลง
Intel คู่แข่งของ Nvidia ได้ระบุว่าความเบา บางเป็นช่องทางสําคัญในการวิจัยเพื่อเปลี่ยนความล้ําสมัยในสาขานี้มาหลายปี แนวทางจากสตาร์ทอัพที่อิงจากความเบา บางยังทําคะแนนสูงในเกณฑ์มาตรฐานของอุตสาหกรรมในช่วงไม่กี่ปีที่ผ่านมา
หน้าปัดวิเศษของความเบาบางไม่เพียงแต่ลดต้นทุนการประมวลผลเหมือนในกรณีของ DeepSeek เท่านั้น ความผอมบางยังทํางานในทิศทางอื่น: มันสามารถสร้างคอมพิวเตอร์ AI ที่มีประสิทธิภาพมากขึ้น
หน้าปัดวิเศษของความผอมแผ่นั้นลึกซึ้งเพราะไม่เพียงแต่ปรับปรุงเศรษฐกิจด้วยงบประมาณเพียงเล็กน้อย เช่นเดียวกับในกรณีของ DeepSeek แต่ยังทํางานในทิศทางอื่น: ใช้จ่ายมากขึ้น และคุณจะได้รับผลประโยชน์ที่ดียิ่งขึ้นผ่านความผอมบาง เมื่อคุณเพิ่มพลังการประมวลผล ความแม่นยําของโมเดล AI จะดีขึ้น Abnar และทีมงานพบ
พวกเขาแนะนําว่า: "เมื่อความเบาบางเพิ่มขึ้นการสูญเสียการตรวจสอบจะลดลงสําหรับงบประมาณการประมวลผลทั้งหมดโดยงบประมาณที่ใหญ่ขึ้นจะบรรลุการสูญเสียที่ต่ํากว่าในแต่ละระดับความเบาบาง"
ในทางทฤษฎี คุณสามารถสร้างโมเดลที่ใหญ่ขึ้นเรื่อย ๆ บนคอมพิวเตอร์ที่ใหญ่ขึ้นเรื่อยๆ และได้รับผลตอบแทนที่ดีขึ้น
งานที่เบาบางทั้งหมดนั้นหมายความว่า DeepSeek เป็นเพียงตัวอย่างหนึ่งของการวิจัยในวงกว้างที่ห้องปฏิบัติการหลายแห่งกําลังติดตามอยู่แล้ว และอีกหลายแห่งจะกระโดดขึ้นมาเพื่อจําลองความสําเร็จของ DeepSeek