人類嘗試將文字轉化為語音的研究由來已久,究竟是什麼技術,能令人類能將文字輸入化為語音?原來,之所以能將文字變成語音,靠的就是TTS技術!
什麼是TTS?TTS全稱是文字轉語音(Text To Speech),是指將輸入的文字或儲存於電腦中的文件,並模擬人聲發出語音的技術。一般而言,要完成一次Text To Speech,需要做到以下的兩個步驟:
一.處理文本
先把文本轉化成音素序列,並標出每個音素的起止時間、頻率變化等信息。
二.語音合成
將由文字轉化成的語音,按照音素序列(以及標註好的起止時間、頻率變化等信息),生成完整的語音段落。
要將語音順利合成,以供TTS之用的話,可以有以下的幾個方法:
1.頻譜參數合成方法(Articulatory Synthesis);
2.波形拼接法(Formant Synthesis)以及
3.串接合成法(Concatenated Synthesis)
TTS需要配合資料庫,用在資料庫內眾多的語音生字,配對後找出發音波頻相似的字詞連接,成為一段合成語音。目前,TTS面對的最大難題是破音字(一字多音)、發音的清晰、流暢程度以及即時處理的能力。
TTS技術的發展非常迅速,就連Microsoft亦已將TTS納入office系統內,供用戶使用。分析完TTS是什麼,接下來我們將要為大家分析另一個非常容易混熬的技術STT。究竟TTS和STT有什麼分別?按這裡看看吧!
三大編輯精選:
Amazon、Google、華為研發家用Robot,將會取代你家中的家務助理?