【AI60問】Q50什麼是語音辨識?

by 提拔我園丁
緯育TibaMe AI小教室-Q50人什麼是語音識別?

語音辨識(speech recognition)技術,也被稱為自動語音辨識(Automatic Speech Recognition, ASR)、電腦語音識別(Computer Speech Recognition)或是語音轉文字識別(Speech To Text, STT)。

目標是以電腦自動將人類的語音內容轉換為相應的文字。與說話人辨識(Speaker recognition)及說話人確認不同,後者嘗試辨識或確認發出語音或說話的人而非其中所包含的詞彙內容。

語音辨識技術的應用包括語音撥號、語音導航、室內裝置控制、語音文件檢索、簡單的聽寫資料錄入等。語音辨識技術與其他自然語言處理技術如機器翻譯及語音合成技術相結合,可以構建出更加複雜的應用,例如語音到語音的翻譯。

語音辨識技術所涉及的領域包括:訊號處理、圖形辨識、概率論和資訊理論、發聲機理和聽覺機理、人工智慧等等模型。

目前,主流的大詞彙量語音辨識系統多採用統計圖形辨識技術。典型的基於統計圖形辨識方法的語音辨識系統由以下幾個基本模組所構成:

  • 訊號處理及特徵提取模組 : 主要任務是從輸入訊號中提取特徵,供聲學模型處理。同時,它一般也包括了一些訊號處理技術,以儘可能降低環境雜訊、通道、說話人等因素對特徵造成的影響。
  • 聲學模型 : 典型系統多採用基於一階隱馬爾科夫模型進行建模。
  • 發音詞典 : 發音詞典包含系統所能處理的詞彙集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的對映。
  • 語言模型 : 語言模型對系統所針對的語言進行建模。理論上,包括正規語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍採用的還是基於統計的N元文法及其變體。
  • 解碼器 : 它是語音辨識系統的核心之一,任務是對輸入的訊號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該訊號的詞串。

語音識別研究早在1970年代便已著手展開,歷經數十年來的蟄伏,未能普及應用,直到蘋果iPhone 4S問世,首將人工智慧助理Siri搭載其中,美國各家資訊科技大廠接連推出自家版的語音助理服務,一場虛擬助理服務大戰順勢迸發,如谷歌的Google Now(2012)、亞馬遜Alexa(2014)、微軟的Cortana(2014),就連LINE的Clova,目前雖然只會說日文、韓文,估計不久後就能開始說中文了。

例如Google Now使用自然語言使用者介面(Natural language user interface),透過一系列的Web服務來回答問題、提供建議、執行動作,擴充了Google搜尋手機應用程式的功能。又如你可以和Siri互動對話,它除了能幫忙搜尋資料、查詢天氣、設定手機日曆、設定鬧鈴、傳送電子郵件之外,有時它的趣味回應,也讓人不禁莞爾。

想成為爬蟲工程師 、資料分析師 、資料工程師 、資料分析領域專家 、人工智慧產品經理嗎?還是你的公司正需要培養此領域人才呢?

點我了解 AI資料科學家-三階段全方位學程班 👉 https://www.tibame.com/eventpage/ai_datascientist 

每日5分鐘, 提拔我園丁陪你快速添補AI/資料科學知識與技能。

若想了解更多AI/資料科學的小知識、及各產業的相關應用,歡迎訂閱TibaMe FB及部落格,或有其他想了解的主題歡迎在下方留言讓我們知道唷!

參考資料

分享這篇文章:
0 comment
3

您也許會喜歡

Leave a Comment

這個網站採用 Akismet 服務減少垃圾留言。進一步瞭解 Akismet 如何處理網站訪客的留言資料