モナリザが喋った!どんな顔写真にも好きな音声データを話させるAIを開発! / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

中国を代表する世界的なテクノロジー企業・アリババグループはこのほど、顔画像と音声データを組み合わせてポートレート動画を生成するAIシステム「EMO(Emote Portrait Alive)」を開発したと報告しました。

EMOを使えば、静止画の中の人物に好きな音声データを違和感なく喋らせることができます。

対象とする画像は写真、絵画、アニメ、AIの生成した顔など何でもOK。音声データも会話と歌の両方に対応しています。

つまりはモナリザにラップを歌わせることだって可能なのです。

研究の詳細は2024年2月27日にプリプリントサーバー『arXiv』に公開されました。

目次

自然な表情で完璧な口パクができる!

自然な表情で完璧な口パクができる!

研究者たちはこれまで、顔の静止画を処理してアニメーションバージョンを作成するAIシステムの開発を進めてきました。

アリババのAI研究チームは今回、ここに音声データを追加することで新たなステージへと突入しています。

チームが開発したEMOは、自分の選んだ好きな顔画像にどんな内容の音声データでも喋らせることのできる画期的なAIシステムです。

しかもただ単純に喋るのではなく、発話のトーンや歌の抑揚に合わせて、首をかしげたり眉根を寄せたり、目を見開いたりと自然な表情を作り出すことができます。

ざっくり言ってしまえば、EMOは顔写真に完璧な口パクをさせるシステムといえるでしょう。


好きな顔画像に音声データを自然な表情で喋らせる / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

しかもEMOのシステムに必要なのは、たった一枚の「顔画像」と一つの「音声データ」だけです。

従来のように、顔画像のモーションピクチャーを生成するにあたって、3Dモデルやランドマーク(目や鼻の位置など顔の特徴を抽出する上で目印となるポイント)のような中間段階は要りません。

顔画像と音声データをEMOに投げ込めば、自然なポートレート動画が生成されるように訓練されているのです。

では、それを可能にするEMOのシステムはどのような仕組みになっているのでしょうか?

EMOの仕組み

EMOは2段階のプロセスを経てポートレート動画を生成する仕組みになっています。

1つ目は「フレーム・エンコーディング(Frames Encoding)」と呼ばれる段階です。

チームは映画やテレビ番組、スピーチや歌唱パフォーマンスの映像を延べ250時間以上も収集し、その動画データでAIをトレーニングすることで、人が会話したり歌うときにどんな表情や頭の動きをするのかを学ばせました。

これを元にフレーム・エンコーディングでは、参照する顔の静止画の特徴を分析して、あらゆる表情や頭の動きに対応できるようにします。

2つ目は「拡散プロセス(Diffusion Process)」と呼ばれる段階です。

ここでは対象とする音声データの波形を分析して、声の高さや強さ、抑揚などを理解し、それとシンクロするような口の開き、顔の表情、頭の動きの生成を開始します。


EMOの「フレーム・エンコーディング」と「拡散プロセス」 / Credit: HumanAIGC.GitHub – Institute for Intelligent Computing, Alibaba Group(2024)

こうして訓練されたEMOのシステムは、たった一枚の顔画像と音声データを投げ込むだけで、自然なポートレート動画を生成できるようになりました。

これを使えば、写真・映画・絵画・漫画・アニメ・CGなどから切り抜いた好きな人物に、好きな音声内容を喋らせることが可能です。

完成したポートレート動画の長さは、元の音声データの長さによって決まります。

例えば、こちらはレオナルド・ダ・ヴィンチの名画『モナ・リザ』に、シェイクスピアの戯曲『お気に召すまま』の一節を喋らせたもの。

まるでモナリザが生きている人のように自然な表情と動きで喋っています。


この他にもアニメの少女やモノクロ映画の俳優を使ったでも映像が多数紹介されています。

ぜひ、こちらのリンクからご覧ください。

https://humanaigc.github.io/emote-portrait-alive/

これまでにも、好きな音声データをアバターに喋らせるAI技術は存在していましたが、ここまで人間らしい自然な表情と完璧なリップシンクを再現したのはEMOが初めてだという。

EMOは今後、映画やゲーム内での俳優・キャラクター生成のほか、バーチャルアーティストやボーカロイドの品質向上など、エンターテインメント業界での活用が期待できます。

またAIで生成した空想の彼氏や彼女と自然な会話ができるようになるかもしれません。

その一方で、EMOは政治的な悪用や芸能界のゴシップの偽造など、危険な側面も秘めていることは確かです。

EMOのようなAIシステムは使い方次第で、善にも悪にもなるでしょう。

参考文献

EMO: Emote Portrait Alive – Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
https://humanaigc.github.io/emote-portrait-alive/

AI system can convert voice track to video of a person speaking using a still image
https://techxplore.com/news/2024-03-ai-voice-track-video-person.html

Alibaba’s new AI system ‘EMO’ creates realistic talking and singing videos from photos
https://venturebeat.com/ai/alibabas-new-ai-system-emo-creates-realistic-talking-and-singing-videos-from-photos/

元論文

EMO: Emote Portrait Alive — Generating Expressive Portrait Videos with Audio2Video Diffusion Model under Weak Conditions
https://doi.org/10.48550/arXiv.2402.17485

ライター

大石航樹: 愛媛県生まれ。大学で福岡に移り、大学院ではフランス哲学を学びました。
他に、生物学や歴史学が好きで、本サイトでは主に、動植物や歴史・考古学系の記事を担当しています。
趣味は映画鑑賞で、月に30〜40本観ることも。

編集者

海沼 賢: ナゾロジーのディレクションを担当。大学では電気電子工学、大学院では知識科学を専攻。科学進歩と共に分断されがちな分野間交流の場、一般の人々が科学知識とふれあう場の創出を目指しています。