เปิดตัว Claude 3.5 Sonnet สุดยอดโมเดล AI เก่งกว่า GPT-4o เจ๋งสุดของโลกตอนนี้

June 21, 2024

Anthropic เพิ่งเปิดตัว Claude 3.5 Sonnet ซึ่งเป็นโมเดล AI รุ่นล่าสุดในตระกูล Claude 3.5 โดยทาง Anthropic เคลมว่ามีความสามารถทางปัญญาเหนือกว่าคู่แข่งตัวท็อป ๆ ทุกตัวในหลายด้าน ชนะคู่แข่งยังไม่พอแถมชนะตัวท็อปของตัวเองอย่าง Claude 3 Opus แต่ยังคงรักษาความเร็วและต้นทุนในระดับเดียวกับรุ่นกลางอย่าง Claude 3 Sonnet ไว้ดังเดิม

จุดเด่นของ Claude 3.5 Sonnet

Claude 3.5 Sonnet มาพร้อมกับความสามารถที่โดดเด่นหลายด้านดังต่อไปนี้ครับ

  • ประสิทธิภาพสูงในการให้เหตุผลระดับบัณฑิตศึกษา ความรู้ระดับปริญญาตรี และความสามารถด้านการเขียนโค้ด
  • เข้าใจนัยยะ มีอารมณ์ขัน และคำสั่งที่ซับซ้อนได้ดีขึ้น
  • สร้างเนื้อหาคุณภาพสูงด้วยโทนที่เป็นธรรมชาติและเข้าถึงง่าย
  • ทำงานเร็วกว่า Claude 3 Opus 2 ถึงเท่า!
  • ความสามารถด้านการมองเห็นที่ล้ำหน้า สามารถตีความแผนภูมิและกราฟได้ดีขึ้น


ผลการทดสอบประสิทธิภาพ

จากข้อมูลเปรียบเทียบประสิทธิภาพ Claude 3.5 Sonnet แสดงให้เห็นถึงความก้าวหน้าอย่างมีนัยสำคัญในหลายด้านเลยทีเดียวครับ


benchmark แสดง performance ชี้ให้เห็นว่า Claude คือ AI โมเดลที่ประสิทธิภาพสูงสุดในตอนนี้ (Image source: Anthropic)


1. ด้านการให้เหตุผลและความรู้

  • การให้เหตุผลระดับบัณฑิตศึกษา (GPQA): 59.4% ซึ่งสูงกว่า Claude 3 Opus (50.4%) และ GPT-4o (53.6%)
  • ความรู้ระดับปริญญาตรี (MMLU): 88.7% ในโหมด 5-shot ซึ่งสูงกว่าคู่แข่งทั้งหมด
  • การให้เหตุผลจากข้อความ (DROP): คะแนน 87.1 ซึ่งสูงกว่าทุกโมเดลที่มีการเปรียบเทียบ


2. ด้านการเขียนโค้ดและคณิตศาสตร์

  • ความสามารถในการเขียนโค้ด (HumanEval): 92.0% ซึ่งสูงกว่า GPT-4o (90.2%) และโมเดลอื่น ๆ ทุกตัว
  • คณิตศาสตร์หลายภาษา (MGSM): 91.6% ซึ่งสูงกว่าทุกโมเดลที่เปรียบเทียบ
  • คณิตศาสตร์ระดับประถมศึกษา (GSM8K): 96.4% ซึ่งสูงกว่าทุกโมเดลที่เปรียบเทียบ


3. ด้านการมองเห็นและการตีความภาพ

  • การให้เหตุผลทางคณิตศาสตร์จากภาพ (MathVista): 67.7% ซึ่งสูงกว่าทุกโมเดลที่เปรียบเทียบอย่างมีนัยสำคัญ
  • การตีความแผนภาพทางวิทยาศาสตร์ (AI2D): 94.7% ซึ่งสูงกว่าทุกโมเดลที่เปรียบเทียบ
  • การตอบคำถามจากแผนภูมิ (Chart Q&A): 90.8% ซึ่งสูงกว่าทุกโมเดลที่เปรียบเทียบอย่างมีนัยสำคัญ



ตอนนี้ทุก ๆ user สามารถใช้งาน Sonnet 3.5 ได้ฟรีเลยนะครับ แต่สำหรับ user ที่ใช้แบบ Pro (Opus) อยู่ จะได้ใช้มากกว่า free user ถึง 5 เท่า


ฟีเจอร์ใหม่ที่ชื่อ Artifacts

Anthropic ได้แนะนำฟีเจอร์ใหม่ชื่อ Artifacts บน Claude.ai ที่ช่วยให้ผู้ใช้สามารถโต้ตอบกับ Claude ได้หลากหลายขึ้น โดยสามารถเห็น แก้ไข และต่อยอดเนื้อหาที่ Claude สร้างขึ้นได้แบบเรียลไทม์ ซึ่งเป็นก้าวสำคัญในการพัฒนา AI ให้เป็นเครื่องมือทำงานร่วมกับมนุษย์อย่างมีประสิทธิภาพ


ความปลอดภัยและความเป็นส่วนตัว

Anthropic เน้นย้ำถึงความสำคัญของความปลอดภัยและความเป็นส่วนตัว โดยได้ดำเนินการดังนี้

  • ทำการทดสอบอย่างเข้มงวดและร่วมมือกับผู้เชี่ยวชาญภายนอกเพื่อปรับปรุงกลไกความปลอดภัย
  • ยืนยันว่าไม่ได้ใช้ข้อมูลที่ผู้ใช้ส่งมาในการเทรนโมเดล เว้นแต่จะได้รับอนุญาตอย่างชัดเจน
  • ทำงานร่วมกับหน่วยงานด้านความปลอดภัย AI ของสหราชอาณาจักรและสหรัฐอเมริกา


แผนการพัฒนาในอนาคต

Anthropic มีแผนพัฒนา Claude 3.5 และฟีเจอร์ใหม่ๆ ดังนี้

  • เปิดตัว Claude 3.5 Haiku และ Claude 3.5 Opus ในอนาคตอันใกล้
  • พัฒนาฟีเจอร์ Memory ที่จะช่วยให้ Claude จดจำการโต้ตอบกับผู้ใช้ได้
  • เพิ่มการรองรับรูปแบบข้อมูลใหม่ ๆ และฟีเจอร์สำหรับการใช้งานในองค์กร


สรุป

Claude 3.5 Sonnet ได้แสดงให้เห็นถึงความก้าวหน้าอย่างรวดเร็วในเทคโนโลยี AI โดยเฉพาะในด้านความสามารถทางปัญญาและประสิทธิภาพการทำงาน การที่มีความเร็วสูงขึ้นพร้อมกับต้นทุนที่ต่ำลงอาจส่งผลให้การใช้งาน AI ในองค์กรต่าง ๆ แพร่หลายมากขึ้นอย่างมีนัยสำคัญ 

ด้วยประสิทธิภาพที่โดดเด่นในหลายด้าน (เป็นรอง GPT-4o ด้านเดียวเท่านั้นคือ Math & Problem-solving แพ้แค่เล็กน้อยในส่วนนี้) ส่วนด้านอื่น ๆ นั้นไม่ว่าจะเป็นการให้เหตุผล ความรู้ การเขียนโค้ด และการมองเห็น ชนะคู่แข่งตัวท็อปของวงการเกือบทุกด้านเลยครับ 

ดังนั้นเรียกได้ว่า Claude 3.5 Sonnet มีศักยภาพที่จะเปลี่ยนแปลงวิธีการทำงานและการใช้ AI ในชีวิตประจำวัน แต่ยังคงต้องติดตามผลกระทบในระยะยาวและการพัฒนาต่อไปในอนาคตครับ เช่น คู่แข่งอย่าง OpenAI เห็นแบบนี้แล้ว การปล่อยโมเดลตัวใหม่ของ GPT จะเป็นอย่างไร ต้องจับตามองในการปล่อยครั้งต่อไปครับ และที่สำคัญตัว Sonnet 3.5 ยังสุดขนาดนี้ ไม่อยากจินตนาการเลยครับว่า ตัว Opus 3.5 จะสุดขนาดไหน!!


ที่มา

DH

DH Team

Programming Resources for Thai Programmers

มาแล้วคลาสที่ฮอตสุดตอนนี้ สร้าง AI App ขั้นสูงด้วย Agent & Vector Databases & RAG

May 10, 2025 - 9:00 a.m.

🔥 ใช้ AI จนคล่อง แต่เคยสงสัยไหมว่าเบื้องหลัง AI เทพๆ อย่าง ChatGPT หรือ Copilot เค้าสร้าง "สมอง" ให้มันยังไง? คอร์สนี้ไม่ได้สอนแค่ใช้ แต่สอนให้คุณ "สร้าง" AI ที่รู้ลึก รู้จริง ด้วย Vector Databases, RAG และ …