การสังเคราะห์เสียงพูด

วิดีโอ: Text to Speech อ่านข้อความเป็นเสียงเป็นภาษาไทย ตัวไหนดีที่สุด

เนื้อหา

คำจำกัดความ - การสังเคราะห์เสียงพูดหมายถึงอะไร
ข้อมูลเบื้องต้นเกี่ยวกับ Microsoft Azure และ Microsoft Cloud | ในคู่มือนี้คุณจะได้เรียนรู้ว่าการประมวลผลแบบคลาวด์คืออะไรและ Microsoft Azure สามารถช่วยคุณในการโยกย้ายและดำเนินธุรกิจจากคลาวด์อย่างไร
Techopedia อธิบายการสังเคราะห์เสียงพูด

คำจำกัดความ - การสังเคราะห์เสียงพูดหมายถึงอะไร

การสังเคราะห์เสียงพูดคือการจำลองการพูดของมนุษย์ด้วยคอมพิวเตอร์หรืออุปกรณ์อื่น การจดจำเสียงการสังเคราะห์เสียงพูดส่วนใหญ่จะใช้สำหรับการแปลข้อมูลเป็นข้อมูลเสียงและในแอปพลิเคชันเช่นบริการที่เปิดใช้งานเสียงและแอปพลิเคชันมือถือ นอกจากนี้ยังใช้ในเทคโนโลยีช่วยเหลือสำหรับการช่วยเหลือผู้ที่มีความบกพร่องทางการมองเห็นในการอ่านเนื้อหา

ข้อมูลเบื้องต้นเกี่ยวกับ Microsoft Azure และ Microsoft Cloud | ในคู่มือนี้คุณจะได้เรียนรู้ว่าการประมวลผลแบบคลาวด์คืออะไรและ Microsoft Azure สามารถช่วยคุณในการโยกย้ายและดำเนินธุรกิจจากคลาวด์อย่างไร

Techopedia อธิบายการสังเคราะห์เสียงพูด

Homer Dudleys VODER ซึ่งมีพื้นฐานมาจาก vocoder จาก Bell Laboratories ถือเป็นเครื่องสังเคราะห์เสียงที่ทำงานได้อย่างสมบูรณ์เครื่องแรก คอมพิวเตอร์ที่ใช้ในการสังเคราะห์เสียงพูดเรียกว่าเครื่องสังเคราะห์เสียงพูดหรือคอมพิวเตอร์พูด คุณภาพของคอมพิวเตอร์คำพูดมักถูกตัดสินโดยความคล้ายคลึงกับเสียงของมนุษย์ ระบบปฏิบัติการคอมพิวเตอร์ส่วนใหญ่มีการสังเคราะห์เสียงพูดมาตั้งแต่ต้นทศวรรษ 1990 คำพูดที่สังเคราะห์มักจะสร้างขึ้นด้วยความช่วยเหลือในการเชื่อมชิ้นส่วนของคำพูดที่บันทึกไว้ซึ่งมีอยู่ในฐานข้อมูล

ขั้นตอนแรกในการสังเคราะห์เสียงพูดคือการประมวลผลล่วงหน้าซึ่งจะกำจัดความคลุมเครือที่อยู่รอบ ๆ ลักษณะที่จำเป็นต้องอ่านคำเฉพาะและซึ่งรวมถึงการจัดการคำพ้องเสียงด้วย ในขั้นตอนต่อไปของการสังเคราะห์เสียงพูดคอมพิวเตอร์ใช้ความช่วยเหลือของหน่วยเสียงในการแปลงเสียงเป็นลำดับ ขั้นตอนสุดท้ายเกี่ยวข้องกับการใช้การบันทึกเสียงของมนุษย์หรือเทคนิคการสร้างเสียงขั้นพื้นฐานเพื่อเลียนแบบกลไกเสียงของมนุษย์และอ่านออกมาทั้งหมด หนึ่งในสาขาที่ได้รับความนิยมในการสังเคราะห์เสียงพูดคือการสังเคราะห์เสียงพูดด้วยภาพหรือการสังเคราะห์เสียงพูดต่อเนื่องหลายรูปแบบซึ่งทำให้การใช้ใบหน้าเคลื่อนไหวที่มีการซิงโครไนซ์แน่นเพื่อเสริมเสียงพูดสังเคราะห์ การสังเคราะห์เสียงพูดแบบ Multimodal ยังรวมคุณสมบัติเพิ่มเติมเช่นตัวชี้นำที่ไม่ใช่คำพูดกับคำพูดเพื่อช่วยในการสื่อสารคำของผู้ใช้ด้วยความแม่นยำมากขึ้น ระบบสังเคราะห์เสียงพูดหลายแบบให้ผู้ใช้สามารถเลือกประเภทของเสียงเช่นเสียงชายหรือหญิง

ระบบสังเคราะห์เสียงพูดส่วนใหญ่สามารถอ่านและส่งออกเสียงได้อย่างชาญฉลาดแม้ว่าบางครั้งเสียงอาจทื่อ อย่างไรก็ตามการสังเคราะห์เสียงพูดนั้นยังไม่ได้พัฒนาความสามารถในการเลียนแบบกระแสความกว้างและจังหวะของมนุษย์อย่างเต็มที่