環境音からその風景を予測するAIが登場 / Credit:Yuhao Kang(UT Austin)_Researchers Use AI To Turn Sound Recordings Into Accurate Street Images(2024)

刑事ドラマでは、犯人の電話音声でどこにいるのか特定するなんてシーンがありますが、現実では都合よく周囲の状況がわかる音が聞こえることはほとんどないでしょう。

しかし、アメリカのテキサス大学オースティン校(UT Austin)に所属するユハオ・カン氏ら研究チームは、環境音からかなり正確な周辺の風景を予測するAIを開発しました。

実際、環境音だけを手がかりに生成された画像を見ると、周囲の建物の配置から遠くのビルに至るまで、オリジナルの風景と酷似しています。

これからは音だけで捜査が行えるような時代も来るかもしれません。

研究の詳細は、2024年5月1日付の学術誌『Computers, Environment and Urban Systems』に掲載されました。

目次

人間には「環境音から風景を思い浮かべる」能力がある環境音から正確に元の風景を予測するAIが登場AIは人間の能力を理解するのに役立つか?悪用の危険性も

人間には「環境音から風景を思い浮かべる」能力がある

私たち人間には、環境音から風景を思い浮かべる能力があります。

誰かと電話している時、相手の声の後ろから聞こえる環境音だけで、相手がどこにいるのかを瞬時に想像することができるのです。


人間には電話音声から相手がいる場所を瞬時に思い描く能力がある / Credit:Canva,ナゾロジー編集

例えば、病欠した部下に電話をかけると、後ろから聞こえてくる人混みの音や楽しいメロディから、彼が仮病で遊園地に来ていることを察してしまう、なんてことがあるかもしれません。

上司の頭の中には、部下が訪れている場所の風景が瞬時に思い描かれることでしょう。

刑事ドラマでも、犯人の電話から汽笛が聞こえて港の倉庫にいると特定されるなんて場面が描かれることもあります。

こうした音からその周辺の環境を推測する能力を科学技術によって補強できれば、現実の犯罪捜査などの場面でも活躍できるかもしれません。

今回、ユハオ・カン氏ら研究チームは、AIを使ってこれを実現しようとしました。

なんと彼らは、環境音からかなり正確にその風景を予測するAIを開発したのです。

人間の脳波を元に、人間が思い浮かべている風景を画像生成するAIなども既に存在していますが、この新しく開発されたAIは、周囲の環境音を元にその音が録音された風景を予測し、画像生成することができるのです。

(広告の後にも続きます)

環境音から正確に元の風景を予測するAIが登場

「環境音から元の風景を予測するAI」を生み出すため、研究チームは最初、北米、アジア、ヨーロッパの都市のYouTube動画とその環境音を収集しました。

そして風景の静止画像とそれに対応する10秒間の環境音クリップを作成しました。

次に、これら様々な場所の「画像と環境音クリップのペア」を用いてAIをトレーニングし、環境音だけで、オリジナルの風景を正確に予測できるようにしました。

そして、このAIの性能をテストするため、録音された100個の環境音から、その風景を予測するようAIに指示し、オリジナル画像と比較しました。


環境音から生成された画像は、オリジナルの風景とかなり似ている / Credit:Yuhao Kang(UT Austin)_Researchers Use AI To Turn Sound Recordings Into Accurate Street Images(2024)

その結果、AIが生成した画像とオリジナルの風景では、空、緑、建物の割合が相関関係にあると分かりました。

実際、2つの画像を比較すると、近くに存在する建物だけでなく遠くのビル、自動車の交通量、川や海の存在、通路などの要素がかなり似ていました。

さらに生成された画像は、晴れ/曇り、昼/夜などの照明条件も反映しており、これはAIが、夜間における交通量の減少や夜行性の昆虫の鳴声などを参考にした可能性を示しています。

今回の実験では、AIがかなり正確に元の風景を予測できると分かりました。

これを利用するなら、「犯人の電話音声から居場所を特定する」なんてことも簡単に行えるようになるかもしれません。