OpenAI新技術「聲音引擎」:只要15秒語音 你就能被AI複製!一文揭露隱藏大危機

繼前陣子端出能以假亂真生成寫實影片的AI工具Sora後,OpenAI再次端出了新的研究成果,揭露一款只要短短15秒語音素材,就能生成任何與本人聲音極為相似音訊的新工具。這能輕鬆「幫別人說話」的技術,也讓他們決定在正式推出前,要好好思考如何避免潛在風險。

更多新聞: 快新聞/土耳其無人機隊今前往砂卡礑 建立3D立體模型助搜索

語音引擎(Voice Engine)是什麼?為什麼OpenAI小心翼翼測試?

根據OpenAI在官網上揭露的訊息,這項技術名為「語音引擎」(Voice Engine),原先主要是用於文字轉語音技術及ChatGPT朗讀功能中的預設語音,提供系統約15秒的材料後,便可以讓AI使用你想要的聲音念出輸入的各種文本。OpenAI也在官網上提供了素材與生成結果的對照音檔。

OpenAI表示,他們想要進一步了解這項技術的應用潛力,但也深知語音生成一旦遭到濫用,後果將不堪設想,於是從去年底開始,他們決定與一小部分的合作夥伴進行私下測試。目前獲得許可的開發者包括教育科技公司Age of Learning、AI影片創作平台HeyGen、醫療軟體開發商Dimagi等公司,目前只有約10間公司能夠測試這項技術。

所有獲得許可的合作夥伴都必須遵守其政策,代表不得以此技術冒用他人或組織身分,並且語音素材的提供者必須明確知道聲音用途,同時需要告知聽眾這些聲音是AI生成的,而非真人。


sora.jpg

與2月揭露的影像生成AI Sora相同,OpenAI擔心這些以假亂真的技術可能遭到濫用,正與合作夥伴積極測試並尋找對策。 圖/ OpenAI


「基於我們對AI的態度以及承諾,我們選擇提供預覽但不廣泛發布這項技術。」OpenAI表示,他們希望Voice Engine這次預覽能夠突顯其潛力,也能促進社會能夠擁有更強大的抵禦能力,面對愈來愈逼真的生成式AI技術。

語音引擎可以應用在哪裡?

至於透過與合作夥伴的測試,目前OpenAI發掘了哪些應用可能性?OpenAI也在官網上提供一些例子:

1. 語音朗讀功能: 可以用更自然、有情感的聲音為兒童或不看書的人提供語音教學內容,讓更廣泛的族群能夠用更輕鬆的方式,吸收書本內的知識。

2. 翻譯影片或Podcast: 創作者可以輸入聲音,為自己的影片生成眾多語言版本,以接觸到更多的潛在受眾, 並且在翻譯時會保留母語口音 。

3. 為偏遠地區建立溝通橋樑: 能夠為偏遠地區的人們提供各種即時的諮詢服務,甚至是使用一些當地非正式語言進行互動式的問答。

4. 協助失聲患者: 讓無法說話的障礙人士透過語音引擎,依然能夠以語音溝通,並選擇最適合自己的自然聲音。目前還有研究團隊測試如何利用這項技術為失語症患者提供協助。


延伸閱讀:Google在台灣推「Gemini學院」!首波瞄準1000名老師,還有哪些AI種子計畫?


語音引擎有哪些風險?OpenAI怎麼防範?

OpenAI表示,他們非常了解這項技術可能遭到惡意使用的可能性,正在與政府、媒體、娛樂、教育等各個領域的國內外合作夥伴一同努力,並積極接納他們提供的回饋。

根據《Wired》報導, AI生成的逼真語言甚至得以通過銀行的語音認證功能 , 詐騙集團也可能利用這項工具冒用親人聲音,誘使他人付款或轉帳 。尤其美國總統大選即將在2024年11月登場,針對政客的AI攻擊更是層出不窮。


Biden.jpg

今年初,美國總統拜登的聲音便被冒用在一通AI生成、呼籲選民不要參加投票的電話錄音中。 圖/ YouTube


例如今年初,美國政府拜登的聲音就遭到冒用,在捏造的電話語音中呼籲選民不要參加初選投票,也讓白宮團隊出面澄清這並非拜登總統的錄音,是有心人士刻意破壞選舉。

為了防範AI語音技術的濫用,OpenAI目前除了在使用政策上進行規範外,還實施了一套安全措施,包括:為所有生成內容添加浮水印,追蹤所有生成內容的使用方式,同時還會推出禁止名單,防止部分公眾人物、知名人士的聲音遭到利用。


延伸閱讀:全球首位AI工程師「Devin」誕生!5分鐘做出網站,還能debug,背後10人團隊揭秘


資料來源:The Verge、Wired、TechCrunch

責任編輯:林美欣

免責聲明:本文為合作外稿授權《民視新聞網》原文轉載,如對內文有任何疑問請逕與原作單位確認。

更多新聞: 元智大學結合AI判讀斷層影像奪冠 準確率達93%關鍵技術曝光