民視新聞／綜合報導

隨著AI的技術發展日益成熟，除了為生活帶來更多便利性之外，同時也吸引不肖人士利用AI來進行詐騙。LINE日前公布2023年錯假訊息排行榜，其中「AI模擬語音詐騙」拿下排行榜第一名！AI語音技術究竟有多聰明？中研院經過多年的研發，讓人工智慧不僅能夠辨識中文語音、甚至能夠理解語意，準確度高達97%，它是如何辦到的？一塊來看看。

更多新聞：動漫開箱文被抄襲！兇手遭逮仍死不下架　作者曝恐怖影響：對原創者很傷

語言，是人類智慧的結晶、文明的起源，它奧妙而多變，同樣一句話，因為文化、區域，使用情境的不同，能變化出各種涵義。要讓AI更像人，這代表AI不僅要能辨識語音，還要理解語意。

李宏毅臺灣大學電機工程學系副教授：「要訓練一個好的語音辨識系統，今天往往需要，十萬甚至20萬個小時的聲音訊號，跟它對應的文字，對大公司而言，他們有機會為一些主流的語言，中文、英文，收集這麼大量的資料。可是假設大公司要為每一種語言，都收集這麼大量的資料，是不可能的。

高昂的資料收集成本，阻礙了少數語種辨識系統的開發，儘管目前語音辨識的應用，已相當廣泛，但都還侷限在主流語種。全世界有七千多種語言，要達到真正的無國界，還有一段距離。

李宏毅臺灣大學電機工程學系副教授：「我們期待機器未來可以做到說，它只要聽人的聲音，但是我們不需要告訴它，我們講的內容是什麼，然後它上網爬一大堆的文字，它自動就可以學會，一個語言的語音辨識了。

生成對抗網路，或許可以幫李教授完成這個任務。生成對抗網路，可以說是一種矛盾大對決，它的運作方式好比警察抓小偷，偽造者不斷製造假鈔，警察則不斷判斷真假，最後假鈔就會變得真假難辨。

李宏毅臺灣大學電機工程學系副教授：「我們有一個generator（生成者），這個生成者把聲音訊號吃進去，它吐出來的就是文字，但一開始，我們並沒有給機器訓練的目標，所以它吐出來的文字就是隨機的，因為它根本不知道，它要生成什麼東西才是對的，但沒有關係，我們有一個discriminator（鑑別者），它知道說什麼樣的詞彙，按照什麼樣的順序拼湊起來，才像是人寫的句子。

這是全世界首次有科學家，在不標注資料的情況下，成功訓練出語音辨識系統，人類幾乎隨時隨地，都在跟機器對話。語音辨識AI在不知不覺中，已逐漸深入人類的生活。

更多新聞：快新聞／可愛爆擊！日本小貓熊「未來」抵台配對　最快明年4月亮相