GPT-4o Gen AI ที่ก้าวล้ำที่สุดในปัจจุบัน -

โมเดล Generative AI ใหม่ล่าสุดจาก OpenAI คือ GPT-4o (ไม่เรียกว่า GPT-5 อย่างที่คาด) โดย “o” มาจากคำว่า “omni” เป็นโมเดลรุ่นเรือธงที่มีประสิทธิภาพที่สุด และจะให้คนทั่วไปใช้ฟรี

โมเดลเดิมที่ใช้กันอยู่ในปัจจุบัน คือ GPT-3.5, GPT-4

ตัวอย่างของประสิทธิภาพที่ดีขึ้นเมื่อเทียบกับโมเดลรุ่นก่อนๆ

– Input และ Output ได้หลากหลายมิติพร้อมกัน คือ ข้อความ เสียง รูปภาพ วิดีโอ (ยกเว้น Output เฉพาะวิดีโอ)

– ความเร็วที่สามารถโต้ตอบกับ Input อยู่ที่ 232 Millisecond (232/1,000 วินาที) โดยมีค่าเฉลี่ยอยู่ที่ 320 Millisecond ซึ่งอยู่ในระดับเดียวกับการพูดโต้ตอบของมนุษย์

– การทำงานกับข้อความภาษาอังกฤษและการโค้ดดีเท่ากับโมเดล GPT-4 Turbo แต่ทำงานเร็วกว่าอย่างชัดเจน

– ค่าธรรมเนียมการติดตั้ง API โมเดล GPT-4o ต่ำกว่าเดิม 50%

– มีความสามารถเหนือกว่าโมเดลอื่นในเรื่องความเข้าใจ การมอง การฟังเสียง

– มี Latency หรือความหน่วงด้านเสียงเพียง 2.8 วินาที

– สามารถ Output เสียงที่มีอารมณ์ความรู้สึก สูงต่ำ ช้าหรือเร็ว พูดเสียงสีประชดประชันได้ ร้องเพลงได้ มันจะหยุดพูดเมื่อมีการแทรกพูดจากคน

ประสิทธิภาพใหม่ของ GPT-4o เริ่มใกล้ความเป็นมนุษย์มากขึ้น ทำได้ดีกว่าโมเดลอื่นของ OpenAI และเหนือกว่าคู่แข่งที่อยู่ในตลาด

ตัวอย่างที่มีการสาธิตการใช้งาน เช่น

เป็นเพื่อนที่มองเห็นคุณ ได้ยินเสียงคุณ รู้ว่าคุณกำลังทำอะไร สามารถโต้ตอบได้ไม่ต่างจากเพื่อนคนหนึ่ง
AI คุยกับ AI ด้วยกันเองได้
GPT-4o เข้าใจภาพและเสียงที่เกิดขึ้นรอบข้าง
คอยตรวจจับสภาพแวดล้อมในขณะที่คุณกำลังทำงานอย่างอื่น เป็นตาหลังของคุณ
มันเห็นหน้าหรือได้ยินเสียงแล้วรู้ว่าเป็นอะไร จับความรู้สึกได้ ขอความเห็นเรื่องหน้าตา ทรงผม การแต่งตัว จากมันได้
แต่งและเล่าเรื่องต่างๆได้ ใช้เสียงที่แสดงความรู้สึก
ทำหน้าที่เป็นครูหรือติวเตอร์ส่วนตัว
ฟังเรื่องตลกของคนแล้วหัวเราะได้
ทำหน้าที่เป็นตาให้กับคนตาบอด
เป็นผู้ดำเนินการประชุม เรียบเรียง สรุป แปลภาษา
แปลงคำพูดภาษาต่างๆได้แบบเรียลไทม์

สำหรับนักพัฒนา จะได้เห็นการติดตั้ง API เพื่อเอาไปเพิ่มประสิทธิภาพในการทำงานของแอพต่างๆ รวมถึงมีแอพใหม่ที่จะตามมาอีกมาก เช่น

วิเคราะห์ข้อมูลแบบเรียลไทม์สำหรับข้อมูลหลายหลายมิติ คือ ภาพ เสียง วิดีโอ ข้อมูล
เพิ่มประสิทธิภาพฝ่ายสนับสนุนลูกค้า มีระบบอัตโนมัติที่ดีขึ้น
การศึกษาเรียนรู้ที่โต้ตอบสองทาง
การสร้างเนื้อหาที่มีความคิดสร้างสรรค์มากขึ้น
แปลง Text เป็น Audio ได้อย่างรวดเร็ว
ช่วยงานด้านการแพทย์ ทำหน้าที่วินิจฉัยโรคได้
เชื่อมต่อกับระบบ Smart Home
ช่วยบริหารจัดการด้านการเงิน
ไกด์ทัวร์ที่โต้ตอบได้ การท่องเที่ยวแบบเสมือนจริง
แต่งเพลง ช่วยแต่งเพลง
สร้างเกมที่น่าสนใจ
Tracking สุขภาพและการออกกำลังกาย
สรุปรวบรวมข่าว
ทำงานด้านการรักษาความปลอดภัย ตีความภาพและเสียงที่เห็นจากวงจรปิดต่างๆ
คอยดูเด็กเล็กแทนผู้ปกครอง
ตรวจสอบคุณภาพสินค้า ตั้งแต่บนสายพานการผลิต หรือก่อนการส่งมอบให้ลูกค้า

มีแอพพลิเคชั่น AI หลายแอพที่มีการสร้างขึ้นมาสำหรับกิจกรรมเฉพาะอย่าง แต่วันนี้สามารถใช้ GPT-4o ของ OpenAI ทดแทนได้

GPT-4o มีไมค์เป็นหู มีลำโพงเป็นปาก มีกล้องเป็นตา ถ้ามันดมกลิ่นได้ รู้ร้อนรู้หนาวด้วย ก็คงไม่ต่างอะไรจากคน….

แหล่งข้อมูล

https://www.facebook.com/photo/?fbid=910054401133237&set=a.687193000086046