Microsoft เปิดตัว VASA เอไอสร้างวิดีโอสมจริงจากไฟล์รูปภาพและเสียง -

VASA โมเดลเอไอ ‘สร้างวิดีโอเสมือนจริง’ ใช้เพียงแค่ไฟล์รูปภาพและเสียง จุดเด่นคือ สามารถทำงานได้แบบเรียลไทม์ ปรับแต่งใบหน้าได้ เทคโนโลยีที่กำลังพัฒนาของไมโครซอฟท์

ไมโครซอฟท์ รีเสิร์ช ได้เผยแพร่โมเดล VASA-1 เอไอสร้างวิดีโอสมจริง ใช้เพียงแค่รูปภาพและเสียงประกอบเพียงอย่างละ 1 ไฟล์ ซึ่งริมฝีปากของตัวละครที่เอไอสร้างสามารถขยับพูดได้แบบเรียลไทม์ สามารถปรับใบหน้าด้วยความหน่วง latency ที่ต่ำมาก

VASA ย่อมาจาก Visual Affective Skills Animator โมเดลปัญญาประดิษฐ์ตัวนี้ สามารถเรียนรู้ด้วยตนเอง (Machine Learning) กล่าวคือ เมื่อป้อน input เข้าไป เอไอจะวิเคราะห์รูปภาพใบหน้า จากนั้นจะนำไปสร้างเป็นภาพเคลื่อนไหวที่สอดคล้องกับเสียงประกอบ โดยซิงโครไนซ์การขยับปากให้ตรงกับเสียงพูด

นอกจากนี้ VASA-1 ยังสามารถจำลองการแสดงออกทางสีหน้า การเคลื่อนไหวศีรษะ และแม้กระทั่งการเคลื่อนไหวร่างกายที่มองไม่เห็นในภาพถ่ายได้อีกด้วย โดยสามารถสร้างวิดีโอด้วยความละเอียด 512×512 45fps ได้หากรันออฟไลน์แบบ batch ส่วนแบบออนไลน์สตรีมมิ่งได้สูงสุดที่ 40fps

ในงานวิจัยได้ทอดสอบใช้ VASA กับรูปวาด เช่น รูปวาดของ Mona Lisa ให้พูดภาษาอื่นที่ไม่ใช่ภาษาอังกฤษ ซึ่งทั้งหมดไม่มีในชุดข้อมูลเทรน ปรากฎว่าผลลัพธ์ออกมาดีเกินความคาดหมาย

อย่างไรก็ตาม โมเดลตัวนี้ยังอยู่ในขั้นตอนของการพัฒนา มีจุดที่ต้องปรับกันต่อ เช่น รายละเอียดยิบย่อยของนิ้วมือ ฟัน ที่ยังไม่มีความสมจริง

ไมโครซอฟท์ไม่มีแผนจะเผยแพร่เดโม่หรือเผยแพร่ API ตลอดจนข้อมูลอื่นๆ ของเทคโนโลยีนี้ เพราะกังวลเรื่องของการนำไปใช้ในทางที่ผิด จนกว่าจะมีกฎหมายกำกับดูแลด้านจริยธรรมเอไออย่างเหมาะสม

แหล่งข้อมูล

https://www.bangkokbiznews.com/tech/innovation/1123487