不讓Meta專美於前！Google也端出AI影片生成系統　厲害在哪裡？

緊接著在Meta公布的Make-A-Video之後，Google於本（10）月5日宣布了自家的Imagen Video，同樣是可以將文字轉化為影片的AI系統，雖然和Make-A-Video一樣還無法生成看不出破綻的完美影片，不過Google採取的方式為分別開發兩個專注於影像品質和影像長度的軟體，希望藉此解決問題。

更多新聞：全機改造be quiet!黑化新裝＋ARGB風扇再升級　溫度、散熱、噪音實測

Google的Imagen Video主攻影像品質

為了不讓Meta搶盡風頭，Google在Meta發布Make-A-Video，隨即介紹了Imagen Video的功能和成果。Imagen Video是建立在Google過去開發的圖像生成系統Imagen的基礎上，其中Imagen和OpenAI的DALL-E 2以及Stable Diffusion有相近的水準，系統主要透過機器學習如何「破壞」，再用學習到的方法「恢復」現有圖像以創造新的作品。

和AI生成圖像系統相比，生成影片的程式在機器訓練和執行方面的計算量又變得更大，Imagen Video不但要先從文字中先生成一幀圖片，接著還要預測下一幀畫面，並將其連結而成一個動畫。

先前已經有不少AI生成圖片或影片的技術，例如今年年初中國清華大學和北京人工智能研究院就發布了一款名為CogVideo的軟體，可以直接以文字生成解析度相當高的短片。不過，Google所研發的Imagen Video似乎又將這個技術更推進一步，這套電腦系統可以理解容易造成混淆的文字指令，並擁有生成準確成果的能力，但仍會有部分畫面會有不自然的扭曲，短期之內很難追上另外兩個AI製圖工具DALL-E 2或Midjourney的影片品質和時長。

與meta較勁，Google再公開另一個軟體Phenaki

《The Register》認為，Google主要是受到Meta在先前公開Make-A-Video的刺激，才會在這個時間點公布自家的AI生成系統，以免看起來落後對方太多。當然，也不排除是Meta因為得知Google的計畫，藉由搶先公布Make-A-Video來破壞Google原先打好的算盤。

這也是為什麼Google另外公開了一個軟體Phenaki，儘管畫面品質較低，但卻可以將細節較多的指示轉化為2分鐘以上的影片，並且著重於影片的連貫性和長度，當然Phenaki一樣也有畫面串接不太自然的地方，但該系統對篇幅不短的文字段落理解度甚高，未來或許還可以用這種AI生成軟體將一段較長的文字化作任意長度的影片。

不過就像其他AI生成系統面臨的問題一樣，Imagen Video研究人員表示，雖然這個模型放大和增強人類的創造力，帶來正向影響，但也有被濫用的可能，例如用以生成虛假、仇恨、露骨或有害的內容。目前團隊已經用了內容過濾器避免軟體生成負面的影像，可是仍然有高機率創造帶有社會偏見和刻板印象之內容。

Imagen Video團隊表示，在這些疑慮能解決之前，不會發布此軟體的模型和程式碼。

參考資料：Tech Crunch、The Verge、The Register

責任編輯：錢玉紘

延伸閱讀

更多新聞： B650E放在M-ATX會擦出什麼火花？搭配R5 7600X開箱