研究の入り口はどこにある?
――今、新しい研究者がこの世界に入ってきてくれることも嬉しいとおっしゃられていましたが、研究の世界って敷居が高いと感じる人も多いでしょうし、学生さんなんかは、研究者の入り口ってどうなっているんだろうって聞いてみたいと思うんですね。
なので後藤さんの音楽情報処理研究はどのように始まったのか聞かせていただけますか。
後藤:私は1992年に大学4年生で卒論に取り組んだのですが、指導教授の村岡洋一先生は「研究テーマを学生が自分で見つけること」を重視していて、好きなテーマを提案できる機会が与えられました。そのとき、自分が高校生の頃に音楽を流すとそれを楽譜で出力してくれるシステムが欲しかったことを思い出して提案したのが始まりです。
ただ、研究室の先輩は誰もやっていない分野なので、研究テーマが本当に世界初なのか、求めるユーザーはいるのかを自分で調べて考えるように言われたんです。
――研究テーマを自分で探させるということですよね。もうすでに誰かがやっていて分かっていることなら研究する意味はないし、欲しい人がいない技術を作っても仕方ない。それを学部生の段階でちゃんとやらせる先生だったんですね。
後藤:当時はウェブサイトも検索サービスもない時代でしたから、大学の図書館に1週間くらいこもってひたすら文献調査をしました。それで、当時は一つの楽器だけが鳴っているときにそれを解析する技術はあっても、いろいろな音が同時に鳴っているドラムの演奏音を解析して、ドラムの楽譜を出力する技術を実現できれば世界初だし便利なことに気づきました。それを説明して、卒論の研究テーマにさせてもらいました。
実際に卒論の研究成果は世界初で、その後、電子情報通信学会論文誌に採択されました。
――学部のころの研究だと今とは全然違うことをやっていたという方も多いと思いますけど、後藤さんはもうそのときから方向が一貫してたんですね。今日伺ったいろんな研究に繋がっている印象がありますね。
後藤:そして1993年に大学院の修士1年生になると、村岡先生から、せっかく並列処理の研究室で最先端の並列計算機AP1000が使えるので、もっと大規模な計算で何か新しい研究テーマを考えたら?というアドバイスをもらいました。
そこで今度は、音楽のビートを見つけるビートトラッキングという研究を提案しました。卒論のようなドラム音だけが鳴っている入力ではなくて、普段耳にするポピュラー音楽みたいに沢山の音が鳴っている入力を解析する技術を実現したくて考えたテーマです。
より難易度は高かったのですが、音楽のビートって人間が聴けばすぐに分かるじゃないですか。なので、ビートを見つけることならできるんじゃないかと考えたんです。当時は高速フーリエ変換ですら計算量が多くてリアルタイムに計算するのは難しい時代で、さらにさまざまな信号処理や推定処理も駆使したので、並列計算機の64個のCPUを使ってビートの解析ができて楽しかったです。
後藤さんが学生時代に発表したシステム。画像をクリックすると実際に動作している様子が見られます。 / Credit:産業技術総合研究所
これが学生時代に実現したシステムのデモビデオですが、音楽に合わせてイチ、ニ、サン、シと、4分音符のビートを自動検出できています。さらに博士課程では、小節の先頭がどこかということも検出できるように拡張しました。
沢山の音が混ざっているポピュラー音楽の音響信号に対して、こういった情報が取り出せるというのは世界初でした。
――さきほどのSongleでも、ビート構造を取り出す技術が入っていましたけど、こんな初期の研究からビートを見つけるという事に目を付けていたんですね。
後藤:そうですね。今Songleで使っているビート推定は深層学習を利用した全然別の技術ですが、その後の音楽理解技術に発展する研究として、学生時代にビートに着目できたというのはとても幸運でした。あとからそれが研究分野の重要標準問題になったとき、先駆的な研究として沢山引用してもらえましたし。
こうして音楽からビートが取り出せるようになると、さきほども紹介したみたいに、いろんなことができるようになるわけです。ただ1990年代には、そもそもそういう技術の存在は知られていないし、その技術が何の役立つのかをわかってもらえないことがありました。なので、このビートトラッキングという技術がどういう風に役立つのかを、自分自身で応用例も実装して示そうと考えたんです。信号処理も楽しかったけど、CGのOpenGLプログラミングも大好きだったので、ちょうど一石二鳥でした。
ビートトラッキング技術を用いてCGダンサーを踊らせたデモビデオ。画像をクリックすると動いているデモビデオが視聴できます。 / Credit:産業技術総合研究所
そうして、音楽のビートに合わせて踊るCGダンサーを表示するシステムを作りました。1994年から開発して、その後もブラッシュアップしてこれは1998年に録画したデモビデオです。CGダンサーの頭上に最初「?」が浮かんでいますが、ビートと小節の先頭が見つかると自動で踊り出します。
今はチープなCGに見えますが、当時はこれが最先端の映像だったし、人手で作り込まなくても音楽のビートを解析すれば自動で作れるって示したことで、なるほどこれはすごいってわかってもらえて、テレビ番組でも取り上げられました。
――確かにCGのキャラクターが踊ってるって90年代だとかなりすごいことですよね。
後藤:この経験で、音楽理解技術の基礎研究だけやっていても、社会でどう役立つかはなかなか理解してもらえないことがあるので、技術の利用方法を可視化して示すことが重要だとわかりました。それによってより多くの人たちに面白いねと評価してもらえるんです。
あと、実はビートに合わせて照明制御できることもこのCGダンサーのビデオの中で示していて、当時は実世界の照明の制御はできなかったからCGの中で見せていたんです。それから約20年後に、さきほどのSongle WidgetやSongle Syncで実際に物理的な照明機器をビートに合わせて制御できたのは、感慨深かったです。
――それはすごいですね。じゃあほんと昔から考えていた事が次々実現しているのが、さきほどお聞かせいただいた色々なサービスなんですね。
そのあと2000年代に入ってMP3プレーヤーなどが出てきてデータで音楽を持ち歩く時代になりますけど、その頃にはもう後藤さんは未来ではみんな音楽データを持ち歩かずにネットで音楽が聴き放題の世界になるって予想されていたそうですね。
後藤:そうですね。2002年のシンポジウム発表でそのことを主張して、2004~2005年には定額制音楽配信サービスが将来普及することを前提にした研究(Musicream)を国際会議や国内学会で発表していました。当時は、未来ではすべてはインターネット経由の配信になって、ユーザーの手元には1 GBの超巨大なキャッシュがあるだけになる、って主張しても、現実離れしていてみんな信じにくかったんですが、今はスマホでも64 GB以上のストレージが普通だから、もうそんな容量は簡単に飛び越えてしまいましたね(笑)。
※2002年のシンポジウム発表のスライド紹介
2002年のシンポジウムで後藤さんが未来予想について語ったスライド。画像をクリックするとこのスライドを紹介しているプレゼン動画が視聴できます。 / Credit:産業技術総合研究所
(広告の後にも続きます)
初音ミクとの出会い「産総研P誕生秘話」
――今回記事の一番最初に「産総研P」とか「南極点のピアピア動画」の話題に触れましたが、後藤さんは初音ミクの研究をしている人って印象も強いと思うんですね。
未来を視るという意味では、後藤さんはすごい早い段階で初音ミクとかニコニコ動画を研究に取り込んでいたのも特徴的だと思います。ここに目を向けたきっかけというのはなんだったんですか?
後藤:歌声合成技術の研究発表は1990年代からいろいろと見ていて、初音ミク以前にもいろいろな製品が発売されていました。中学生のとき、店頭のPC-6601に歌わせたこともあります。だから、もちろん技術的には知っていたんですが、初音ミクが当時登場した衝撃というのは、この技術が一気に普及して人々の価値観を変えたことと、ユーザーのクリエイティビティを引き出して連鎖させたところにあると思っています。
――確かに今でこそ初音ミクのお姉さんとお兄さんという形で人気になっていますが、MEIKOとKAITOって出てきたときは私の周りでDTM(パソコンで音楽を編集すること)を趣味にしている人でも、これで歌声と呼ぶのは厳しいよねという感じで、あまり注目されていなかったですね。
なので初音ミクの登場で、機械で合成された歌声にみんなが魅了されたっていうのはかなり驚きでしたね。
後藤:まさか合成された歌声がメインボーカルの楽曲をみんなが楽しむようになるとは、予想できませんでした。それまでの常識として、人間の歌声でなければ聴く価値がないという暗黙の価値観があったので。その古い価値観が打破されました。
初音ミクの発売は2007年8月31日なんですが、私が幸運だったのはこのときヤマハのVOCALOID開発者である剣持秀紀さんと、ベルギーのアントワープの国際会議でお会いしていたことでした。
初音ミクも会場で展示されていて、こんな製品が出るんですよって見せていただいて、日本のほとんどの人が知るよりもいち早く国際会議で開発者本人からデモを交えて紹介してもらえたんです。初音ミクの発売もこの会議中でした。
それで、ちょうど目の前の剣持さんに日本から国際電話があって、電話を切った瞬間に「後藤さん、初音ミクが量販店の店頭で売り切れましたよ!」と教えてくれたんです。私もそこでなにかすごいことが起きているって認識できたんです。
2007年8月31日に発売した歌声合成ソフト「初音ミク」のヒットは世の中の価値観が変化した瞬間だった / Credit:産業技術総合研究所
――初音ミクは発売直後からすごい人気でずっと売り切れ騒動みたいなのが続いていましたよね。欲しくても全然手に入らないという人が続出して。
後藤:そこからはもうニコニコ動画に毎日のように新しい作品が投稿されていくのをチェックして、いかにすごいことが起きているのかというのを目の当たりにしながら、いろいろと考察していました。
――後藤さんは、ここまでの紹介の中でもクリエイター側の創作支援に関する技術に触れられていましたよね。こうした1つのソフトの発売で大勢の人々の創作意欲が爆発して次々に新しいコンテンツが生み出されていくというのは、もうそれだけでかなり驚くべき現象だったんですか?
後藤:そうですね。N次創作と呼ばれる創作の連鎖が次々と起きて、楽曲が作られるだけではなくて、PVを別の人が付けたり、「歌ってみた」「踊ってみた」のような派生作品がどんどん生まれていきました。
それと、初音ミクが発売されて数カ月の間に、歌声合成の声の高さや大きさのパラメータを巧みに調整して、人間らしく自然に聞こえる歌声を作り出すことに力を入れた作品が投稿されていたんです。
――ネットでは調教と呼ばれていた自然な歌声に近づけるための調整ですね。これが上手いと「神調教!」と盛り上がっていましたね。
後藤:それを見ていて、私たちの音楽理解技術を応用すればもっと自然に合成できるということに気づいて、当時は若手研究者だった中野倫靖と一緒に作ったのが「VocaListener(ぼかりす)」です。これは人間のお手本の歌い方を解析してVOCALOIDの歌声合成パラメータを作り出すことで、自然な歌声を合成できる技術です。人間が歌うだけでそれを真似て調整できたので、個性的なビブラートや、演歌のような複雑な歌い方も合成できました。
【初音ミク】 PROLOGUE 【ぼかりす】
――これほんと自然な歌声に聞こえてすごいですよね。この「ぼかりす」のデモを公開したことが「産総研P」という呼び名が誕生したきっかけですね。ただ何よりびっくりなのは、これが初音ミクが発売されて半年とかそれくらいですぐに出てきたことです。
私も当時これを見ていて、みんなが初音ミクをもっと自然に歌わせられないかって調教に苦労していたときに、いきなりポンと人間が歌えば自動で調整できますって技術デモが出てきて、なんじゃこりゃ、もうこんなのがあるのかって驚いたのをよく覚えています。
後藤:これがいち早く実現できたのは、技術の蓄積があったからです。1998年に博士の学位を取得して研究所に就職してから、私は音声認識とか音声インタフェースに関する研究も同時並行でやっていたんです。
――え、こんだけ成果があるのに、まだ他にも色々と裏で研究なさっているんですね。
後藤:一方で、音楽理解技術としては、沢山の音が混ざっている音楽の中から歌声を抜き出す世界初の技術も1998~2000年ごろに私は実現していて、その歌声を使うと、いろいろな新しい研究テーマを思いつける状態でした。それで2000年代には、次のフロンティアは歌声関連の技術だと考えて、かなり力を入れていたんです。
というのも歌声って、音楽と音声の両方の側面があってどちらの技術も必要だから、どちらの研究分野からも難しくて手が出しづらい状況だったんです。
音楽情報処理の立場から見ると、楽器音と違って、声のような音素が次々と変わっていく音響信号って、難し過ぎてなかなか上手く解析できない。一方、音声認識の立場から見ると、話し声と違って、歌声って母音が伸びたり高さが大きく変動したりするから、一番難しい種類の声で上手く認識できなかったんです。
なので歌声の研究って、まだ取り組まれていない研究テーマが沢山あることに気づいたんです。そこで私たちの音楽理解技術と音声認識技術の蓄積で、いろいろな研究に取り組んで発表していました。私はそれを2008年に振り返って、「歌声情報処理」と名付けています。
さきほどお話した剣持さんとお会いした国際会議でも、そうした歌声関連の研究成果を発表していました。
――じゃあ、「ぼかりす」はその両輪で研究を進めた成果があったからこそ、あんなにすぐ発表できたということなんですね。
後藤:そうですね。技術の蓄積がなければ不可能でした。
ぼかりすが人間の歌声をお手本にVOCALOIDの歌声合成パラメータを自動調整する流れ / Credit:産業技術総合研究所
そのため、私たちの「ぼかりす」のデモには、VOCALOIDを開発したヤマハ自身も「こんなことができるのか!?」と驚いて。そこで製品化しましょうとヤマハからご提案をいただいて、実際に発売されることになりました。
――過去の蓄積が活きているというか、基礎研究がいかに重要かってお話しですね。
後藤:その通りで、技術と知見が蓄積しているからこそ、普通は長期間かかる開発も、短期間でできることはよくあります。