剛才為大家分析了什麼是TTS,現在,我們為大家分析和介紹,許多讀者都會與之混熬的STT。其實,TTS的全稱是文字轉語音(Text To Speech);而STT則是TTS的相反,是將語音轉為文字(Speech To Text,STT)。
什麼是STT?
STT是以演算法,將語音內容轉換為相對應的文字。透過聲音特徵比對、足夠的語料收集,來建立龐大的語言資料庫,系統接收語音後立即比對語料庫,並將語音內容轉換為可能的文字。過程中,電腦自動將人類的語音內容轉換為文字,當中需經過NLU、DST以及NLG三個步驟。
首先,利用NLU(自然語言辨識,Natural Language Understanding )「辨識/認識」某一種語言的文字/字型,之後再利用該語言已有的NLP技術,讓電腦進一步對該語言的語言學、語意學、詞彙等,配合DST(對話狀態追蹤,Dialogue State Tracker)進行深入解析與整合,最後再通過NLG技術(自然對話生成,Natural Language Generation),轉為有意義的資訊。
不少STT程式均採用雲端方式進行,先將所有的對話接收後,再上載到雲端進行分析運算,最後再將文字結果傳回到使用者所看到的介面,完成一次STT的轉換。
STT目前的應用範圍非常廣泛,包括Microsoft、Google Assistant、甚至Apple Siri,都有採用STT技術,STT技術因而變得普及,比TTS更廣為人知!比如說,記者採訪完畢,很多報館都會以最快的速度將新聞寫好推出,當中最常見的手法便是利用STT向手機讀出稿件內容,省卻了打字的時間。
STT vs TSS的分別,大家清楚了沒有?STT的發展已開始上了軌道,靠的,就是AI不斷壯大的NLP能力!想知道AI目前的NLP能力有多強?立即按這裡看看吧!
三大編輯精選:
Voice Search新趨勢!2020最新搜尋方式你不能不知!
Amazon、Google、華為研發家用Robot,將會取代你家中的家務助理?