(相關(guān)資料圖)
近日,浙江大學(xué)研究團(tuán)隊(duì)聯(lián)手字節(jié)跳動(dòng),推出全新 Zero-shot語(yǔ)音合成系統(tǒng)Mega-TTS。
據(jù)了解,針對(duì)當(dāng)前的語(yǔ)音合成系統(tǒng)通常是通過(guò)自回歸語(yǔ)言模型或擴(kuò)散模型來(lái)生成語(yǔ)音,導(dǎo)致輸出結(jié)果可能出現(xiàn)劣質(zhì)或不可控的情況。
該研究團(tuán)隊(duì)通過(guò)將語(yǔ)音分解為內(nèi)容、音色、韻律等不同的屬性,并針對(duì)每個(gè)屬性進(jìn)行建模,為此他們?cè)O(shè)計(jì)出了全新的Zero-shot語(yǔ)音合成系統(tǒng)Mega-TTS。通過(guò)使用大規(guī)模的野生數(shù)據(jù)進(jìn)行訓(xùn)練,并以不同的方式來(lái)對(duì)不同的屬性進(jìn)行建模。
關(guān)鍵詞:
責(zé)任編輯:Rex_09