OpenAI ที่มี Microsoft เป็นหุ้นส่วนใหญ่ เปิดตัวให้โลกตะลึงในศักยภาพของ Generative AI ด้วย ChatGPT เมื่อวันที่ 30-11-2022 แต่ยังไม่แน่ชัดว่าผู้เริ่มต้นซึ่งเป็นผู้นำ จะครองความยิ่งใหญ่หนึ่งเดียวได้ตลอดไป?!?
คู่แข่งที่น่าเกรงขามที่สุดของ OpenAI (Microsoft) คือ Google ในปัจจุบัน คนเก่งๆด้าน AI ของโลกส่วนใหญ่ทำงานอยู่กับ Google
Google เปลี่ยนชื่อ Generative AI ของตัวเองจาก Bard เป็น Gemini โดยตั้งใจเอามาปะทะกับ ChatGPT ของ OpenAI โดยตรง โมเดลที่เป็นรุ่นให้ใช้ฟรีทั้ง ChatGPT และ Gemini ยังคงไม่เปลี่ยนแปลง ทุกคนยังสามารถใช้งานฟรีได้
สำหรับผู้ที่ต้องการใช้งานโมเดลที่มีศักยภาพสูง ต้องสมัครเป็นสมาชิกรายเดือน โดย Google เพิ่งเริ่มมีระบบสมาชิก และตั้งราคาค่าสมาชิก Gemini Advanced $20/เดือน ซึ่งเป็นราคาเดียวกับ ChatGPT Plus
เทคโนโลยีที่อยู่เบื้องหลัง ChatGPT Plus ในปัจจุบัน คือ GPT-4
OpenAI เพิ่งเปิดตัว Sora ซึ่งเป็นโมเดล text-to-video หรือสั่งให้ AI สร้างภาพได้จากคำสั่งข้อความ มีตัวอย่างวิดีโอที่สมจริงจนแยกไม่ออกว่าเป็นวิดีโอที่สร้างโดย AI และคลิปวิดีโอยาวถึง 1 นาที หลังจากนั้นไม่กี่วัน Google ได้เปิดตัว Gemini 1.5 ซึ่งเป็นรุ่นใหม่ที่มีศักยภาพเหนือกว่า GPT-4 เกือบทุกด้าน
Gemini 1.5 เริ่มเปิดให้ทดลองใช้แบบเฉพาะกลุ่ม และใครที่ต้องการเอาไปใช้เป็น API ก็สามารถทำได้ ตัวอย่างของสิ่งที่เหนือกว่า GPT-4 ซึ่งมีอยู่ในโมเดล Gemini 1.5 เช่น
Gemini 1.5 ใช้ 1.56 ล้านล้านพารามิเตอร์ ในขณะที่ GPT-4 ใช้ 175 พันล้านพารามิเตอร์ จำนวนพารามิเตอร์ที่มีมากขึ้น ทำให้ AI เรียนรู้ได้ดีขึ้น ทำงานได้แม่นยำขึ้น ยืดหยุ่นแต่ซับซ้อน สามารถคำนวณได้ดีขึ้นอย่างมาก
Gemini 1.5 สามารถรองรับ Input ได้มากถึง 1 ล้านโทเคน ในขณะที่ GPT-4 Plus รองรับการป้อนข้อมูลคำสั่งได้เพียง 2,048 โทเคน หรือต่ำกว่า 488.28 เท่า
Gemini 1.5 ใช้สถาปัตยกรรมใหม่ที่เรียกว่า Mixture-of-Experts (MoE) ช่วยทำให้โมเดลมีประสิทธิภาพมากขึ้น
Gemini 1.5 มีความสามารถหลากหลายมากกว่า Gemini 1.0 เก่งกว่าทั้งเรื่อง ตอบคำถาม เขียนเนื้อหา แปลภาษา เขียนโค้ด
Gemini 1.5 รองรับ Input ได้ 31.25 เท่า ของ Gemini 1.0 หรือ เพิ่มขึ้น 3,062.5%
หมายความว่า เราสามารถป้อนข้อมูลที่เป็นตัวหนังสือภาษาอังกฤษให้ Gemini 1.5 อ่านเพื่อทำความเข้าใจมากถึง 700,000 คำ แล้วเราสามารถถามอะไรจาก Gemini 1.5 เกี่ยวกับเนื้อหาทั้ง 700,000 คำได้
หนังสือเล่มหนึ่งที่ยาว 300 หน้า มีเนื้อหาระหว่าง 75,000 – 90,000 คำ เราสามารถส่งลิงก์ข้อมูลหนังสือให้ Gemini 1.5 อ่านทำความเข้าใจพร้อมกัน 7-8 เล่ม แล้วถามรายละเอียดแบบเจาะลึกเป็นเรื่องๆ หรือให้มันวิเคราะห์ข้อมูลต่างๆได้
Gemini 1.5 Pro สามารถประมวลผลข้อมูลในครั้งเดียว ซึ่งรวมถึง วิดีโอ 1 ชั่วโมง, คลิปเสียง 11 ชั่วโมง, โค้ดมากกว่า 30,000 บรรทัด หรือมากกว่า 700,000 คำ
ในการสาธิตของ Google มีการทดสอบประสิทธิภาพ Gemini 1.5 โดยป้อนข้อมูลภารกิจ Apollo 11 ให้มันเรียนรู้ และมันสามรถวิเคราะห์ แยกแยะ สรุป หรือแจกแจงรายละเอียดทุกอย่างจากเอกสารทั้งหมด
Gemini 1.5 Pro สามารถทำงานด้านความเข้าใจและการให้เหตุผลที่ซับซ้อนสูงจากภาพวิดีโอ มีการทดลองให้มันดูหนังเงียบ Buster Keaton ยาว 44 นาที ปรากฎว่าโมเดลนี้สามารถวิเคราะห์จุดพล็อตและเหตุการณ์ต่างๆ ได้อย่างแม่นยำ มันจดจำและเข้าใจเหตุผลและรายละเอียดเล็กๆน้อยๆ ที่มีอยู่ในภาพยนตร์ได้อย่างไม่ผิดพลาด
ถ้าพิจารณาจากการกล่าวอ้างของ Google สรุปได้ว่า Gemini 1.5 มีประสิทธิภาพเหนือกว่า GPT-4
การเปิดตัวของ Gemini 1.5 คงเป็นแรงผลักดันให้ OpenAI ต้องรีบส่ง GPT-5 ออกมาให้เร็วขึ้น และคงไม่ยอมปล่อยออกมาเป็นโมเดลที่มีประสิทธิภาพต่ำกว่า Gemini 1.5
ปี 2024 จะได้เห็น GPT-5 เปิดตัวอย่างแน่นอน Generative AI ที่จะเป็นโมเดลหลักสำหรับคนส่วนใหญ่ทั่วโลกในอนาคต คงหนีไม่พ้น GPT หรือ Gemini!!!
แหล่งข้อมูล
https://www.facebook.com/photo/?fbid=849865267152151&set=a.687193000086046