“หุ่นยนต์นำทางอัจฉริยะ” นวัตกรรมโดย Google ฝึกจากโมเดลภาษาขนาดใหญ่อย่าง Gemini 1.5 Pro ตอบสนองความต้องการของมนุษย์อย่างเป็นธรรมชาติยิ่งขึ้น
Google เปิดตัว “หุ่นยนต์นำทางอัจฉริยะ” ใช้ในสำนักงาน ซึ่งพัฒนาโดยทีมวิจัยปัญญาประดิษฐ์ DeepMind หุ่นยนต์ได้รับการฝึกฝนด้วย Gemini 1.5 Pro โมเดลภาษาขนาดใหญ่ ทำให้มีความสามารถในการเรียนรู้สภาพแวดล้อม เข้าใจภาษาธรรมชาติ และปฏิบัติตามคำสั่งได้อย่างหลากหลาย
จากวิดีโอสาธิต พนักงาน Google สั่งการหุ่นยนต์ด้วยการพูดหรือวาดรูปบนกระดานไวท์บอร์ด หุ่นยนต์ก็สามารถนำทางไปยังจุดต่างๆ ในสำนักงานได้อย่างแม่นยำ ตัวอย่างเช่น เมื่อพนักงานขอให้หุ่นยนต์พาไปยังสถานที่สำหรับวาดรูป หุ่นยนต์จะตอบรับและใช้เวลาคิดสักครู่ก่อนนำทางไปยังกระดานไวท์บอร์ดขนาดใหญ่
นอกจากนี้ หุ่นยนต์ยังสามารถอ่านและทำความเข้าใจแผนที่อย่างง่ายได้ด้วย ในอีกตัวอย่างหนึ่ง เมื่อพนักงานสั่งให้หุ่นยนต์ปฏิบัติตามคำแนะนำบนกระดานไวท์บอร์ด ซึ่งมีแผนที่แสดงเส้นทางไปยัง “พื้นที่สีน้ำเงิน” หุ่นยนต์สามารถวิเคราะห์และเลือกเส้นทางที่เหมาะสมไปยังพื้นที่ทดสอบหุ่นยนต์ได้อย่างถูกต้อง
ความสามารถเหล่านี้เกิดจากกระบวนการฝึกฝนที่เรียกว่า “Multimodal Instruction Navigation with demonstration Tours (MINT)” ซึ่งทำให้หุ่นยนต์คุ้นเคยกับสภาพแวดล้อมโดยการเดินสำรวจรอบสำนักงานพร้อมรับฟังคำอธิบายจากมนุษย์ ร่วมกับเทคนิค Hierarchical Vision-Language-Action (VLA) ที่ช่วยเพิ่มความเข้าใจสภาพแวดล้อมและความสามารถในการให้เหตุผลแบบสามัญสำนึก
ผลการทดสอบเบื้องต้นแสดงให้เห็นว่าหุ่นยนต์นำทางนี้มีอัตราความสำเร็จสูงถึง 90% จากการโต้ตอบกับพนักงานมากกว่า 50 ครั้ง
งานวิจัยยังได้รับการตีพิมพ์ภายใต้หัวข้อ Mobility VLA: Multimodal Instruction Navigation with Long-Context VLMs and Topological Graphs ซึ่งแสดงให้เห็นถึงศักยภาพของ Generative AI ในการพัฒนาหุ่นยนต์ให้ฉลาดและใช้งานง่ายยิ่งขึ้น เปิดโอกาสให้สามารถนำไปประยุกต์ใช้ได้หลากหลายสถานการณ์ ไม่ว่าจะเป็นในสำนักงาน โรงพยาบาล หรือสถานที่สาธารณะอื่นๆ
นวัตกรรมนี้นับเป็นก้าวสำคัญของ Google ในการผสานโมเดลภาษาขนาดใหญ่เข้ากับหุ่นยนต์ เพื่อสร้างผู้ช่วยอัจฉริยะที่สามารถเข้าใจและตอบสนองความต้องการของมนุษย์ได้อย่างเป็นธรรมชาติมากยิ่งขึ้น
แหล่งข้อมูล