語言,是人類智慧的結晶、文明的起源,它奧妙而多變,同樣一句話,因為文化、區域,使用情境的不同,能變化出各種涵義。要讓AI更像人,這代表AI不僅要能辨識語音,還要理解語意。
李宏毅臺灣大學電機工程學系副教授:「要訓練一個好的語音辨識系統,今天往往需要,十萬甚至20萬個小時的聲音訊號,跟它對應的文字,對大公司而言,他們有機會為一些主流的語言,中文、英文,收集這麼大量的資料。可是假設大公司要為每一種語言,都收集這麼大量的資料,是不可能的。
高昂的資料收集成本,阻礙了少數語種辨識系統的開發,儘管目前語音辨識的應用,已相當廣泛,但都還侷限在主流語種。全世界有七千多種語言,要達到真正的無國界,還有一段距離。
李宏毅臺灣大學電機工程學系副教授:「我們期待機器未來可以做到說,它只要聽人的聲音,但是我們不需要告訴它,我們講的內容是什麼,然後它上網爬一大堆的文字,它自動就可以學會,一個語言的語音辨識了。
生成對抗網路,或許可以幫李教授完成這個任務。生成對抗網路,可以說是一種矛盾大對決,它的運作方式好比警察抓小偷,偽造者不斷製造假鈔,警察則不斷判斷真假,最後假鈔就會變得真假難辨。
李宏毅臺灣大學電機工程學系副教授:「我們有一個generator(生成者),這個生成者把聲音訊號吃進去,它吐出來的就是文字,但一開始,我們並沒有給機器訓練的目標,所以它吐出來的文字就是隨機的,因為它根本不知道,它要生成什麼東西才是對的,但沒有關係,我們有一個discriminator(鑑別者),它知道說什麼樣的詞彙,按照什麼樣的順序拼湊起來,才像是人寫的句子。
這是全世界首次有科學家,在不標注資料的情況下,成功訓練出語音辨識系統,人類幾乎隨時隨地,都在跟機器對話。語音辨識AI在不知不覺中,已逐漸深入人類的生活。
更多新聞: 快新聞/可愛爆擊!日本小貓熊「未來」抵台配對 最快明年4月亮相