Microsoft เปิดตัว AI สังเคราะห์เสียงพูด เหมือนจริงทั้งน้ำเสียงและอารมณ์ -

ที่ผ่านมา การใช้เทคโนโลยีสร้างเสียงสังเคราะห์ เพื่อเลียนแบบเสียงพูดของมนุษย์ มีข้อจำกัดสำคัญ คือ ความเป็นธรรมชาติของเสียงสังเคราะห์ที่สร้างขึ้น ทั้งในด้านน้ำเสียง และอารมณ์ ที่ยังคงมีความแตกต่างจากเสียงพูดของมนุษย์จริง

แต่ล่าสุด เทคโนโลยีการสร้างเสียงสังเคราะห์ กำลังก้าวหน้าไปอีกขั้น เพราะ Microsoft เพิ่งจะประกาศเปิดตัว VALL-E เทคโนโลยีปัญญาประดิษฐ์ (AI) ที่สามารถสร้างเสียงสังเคราะห์ เลียนแบบเสียงพูดของมนุษย์ได้อย่างใกล้เคียง

เทคโนโลยี AI ที่ใช้สร้างเสียงสังเคราะห์ของ Microsoft ได้รับพัฒนาขึ้นมาจากเทคโนโลยีการบับอัด และเข้ารหัสเสียง ที่ Meta บริษัทแม่ของ Facebook เคยพัฒนาขึ้นเมื่อช่วงปลายปีที่แล้ว เพื่อใช้ในการเพิ่มคุณภาพเสียงสนทนาทางโทรศัพท์ ในพื้นที่ที่มีคุณภาพสัญญาณไม่ดี

แต่ Microsoft ได้นำเทคโนโลยีของ Meta มาต่อยอด ให้กลายเป็นเทคโนโลยี AI ที่สามารถสังเคราะห์เสียง เลียนแบบเสียงพูดของมนุษย์ ได้อย่างเป็นธรรมชาติ โดยใช้เสียงต้นแบบที่มีความยาวเพียง 3 วินาที เท่านั้น

ในการฝึก AI Microsoft ได้ใช้เสียงพูดต้นแบบ ที่เป็นภาษาอังกฤษ ความยาวกว่า 60,000 ชั่วโมง จากบุคคลที่แตกต่างกันถึง 7,000 คน โดยผลลัพธ์ที่ได้นั้น พบว่า เสียงสังเคราะห์ที่ได้จาก AI VALL-E นั้น มีความเป็นธรรมชาติ ทั้งในด้านน้ำเสียง และอารมณ์ สามารถเลียนแบบน้ำเสียง และอารมณ์ของผู้พูดได้เป็นอย่างดี แม้จะใช้เสียงต้นแบบเพียงแค่ 3 วินาทีเท่านั้น

รวมถึงยังมีสามารถในการเลียนแบบสภาพแวดล้อมของเสียงต้นฉบับไว้ได้ด้วย.. เช่น หากเสียงต้นฉบับ เป็นเสียงที่คุยผ่านโทรศัพท์ ซึ่งมีความอู้อี้ ไม่ได้ชัดเจนเหมือนเสียงพูดปกติ AI ก็จะพยายามจำลองให้เสียงที่ได้รับการสังเคราะห์ขึ้นมา ยังคงมีสภาพแวดล้อมเหล่านั้นอยู่ด้วย

นอกจากนี้ เทคโนโลยี AI VALL-E ของ Microsoft ยังสามารถสร้างเสียงสังเคราะห์อื่น ๆ เพิ่มเติมได้ โดยที่เสียงต้นแบบ ซึ่งเป็นมนุษย์จริง ๆ ไม่เคยพูดไว้เลย

อย่างไรก็ตาม ในบางครั้ง Microsoft ก็พบว่า คุณภาพเสียง ที่ AI สังเคราะห์ออกมานั้น ไม่ได้มีคุณภาพที่ดี 100% เพราะในบางครั้งเสียงที่ AI สังเคราะห์ออกมา อาจมีสำเนียงการพูด ที่แตกต่างจากเสียงพูดต้นฉบับ

ย้อนกลับไปก่อนหน้านี้ การใช้เทคโนโลยี AI เพื่อสร้างเสียงสังเคราะห์เลียนแบบการพูดของมนุษย์ มีการใช้งานกันอย่างแพร่หลาย ซึ่งหลาย ๆ คน อาจคุ้นเคยกับเสียงสังเคราะห์กันเป็นอย่างดี หรือแม้แต่ได้ยินเสียงสังเคราะห์เหล่านี้ ในชีวิตประจำวัน อย่างเช่น เสียงของผู้ช่วยส่วนตัวอัจฉริยะ ไม่ว่าจะเป็น Siri, Google Assistant หรือ Alexa

แต่ในความจริงแล้ว เสียงสังเคราะห์ของผู้ช่วยส่วนตัวเหล่านี้ จำเป็นที่จะต้องใช้การบันทึกเสียงต้นแบบ ที่มีคุณภาพในระดับสูง ใช้อุปกรณ์มืออาชีพ รวมถึงต้องบันทึกเสียงต้นแบบในสตูดิโออย่างจริงจัง ใช้เวลานานหลายสัปดาห์

ในขณะที่เทคโนโลยี AI ของ Microsoft ใช้เสียงต้นแบบความยาวเพียง 3 วินาที จึงเป็นการเปิดทางให้ใคร ๆ ก็สามารถสร้างเสียงสังเคราะห์ของตัวเองขึ้นมาได้ โดยไม่จำเป็นต้องใช้เวลา รวมถึงงบประมาณมหาศาล เหมือนอย่างที่เคยเป็นมาในอดีต

อย่างไรก็ตาม ในขณะนี้ Microsoft ยังไม่ได้เปิดให้ใคร ๆ ก็ได้ สามารถเข้าไปทดลองใช้เทคโนโลยี AI สร้างเสียงสังเคราะห์ด้วยตัวเอง เพราะตัวเทคโนโลยี AI นี้ ยังคงมีข้อบกพร่อง ที่ต้องได้รับการพัฒนา เพื่อแก้ไขเพิ่มเติมในอนาคต รวมถึงยังมีความเสี่ยง ที่อาจมีผู้ไม่หวังดี นำเทคโนโลยีสังเคราะห์เสียงด้วย AI ของ Microsoft ไปใช้ในทางที่ผิด ซึ่งอาจส่งผลเสียต่อสังคมโดยรวมได้

แหล่งข้อมูล

https://www.facebook.com/TechBite.tech/photos/a.103988409202622/130727833195346/