音楽体験の未来を切り拓く研究者 産業技術総合研究所(産総研)首席研究員 後藤 真孝さん / Credit:産業技術総合研究所

技術系の研究は、専門的で難しい話になりそうなイメージを持つ人がいるかもしれません。

しかし新しい技術は私たちの身近なエンタテイメントの世界でも活躍しています。

例えば音楽は、昔はレコードやカセットテープ、CDなどのメディアに記録され、それらを聴くのが一般的でした。しかし、今やほぼ全ての音楽がデジタル化されて、世界中の何千万曲という音楽を定額サービスでネット上から聴き放題で楽しめるようになりました。

これ自体も技術による大きな変化ですが、そうやって膨大なデジタル音楽に誰でも触れられるようになると、そこには音楽を創る側にも聴いて楽しむ側にも、今までとは全く異なる音楽との関わり方や楽しみ方が生まれてきます。

バーチャルライブなどの仮想空間と繋がった新しい音楽ライブ、大量の音楽から好みの曲を見つける方法、手間のかかる音楽動画を簡単に創る方法、こうしたエンタテイメントに関わる技術の数々も、いきなり発展するわけではなく、SFのような未来を予想して何十年も前から準備してきた研究者たちのおかげで、私たちは利用することができるのです。

ナゾロジーと産総研マガジンのコラボ企画第二弾は、そんな音楽体験の未来を切り拓く研究者 産業技術総合研究所(産総研)首席研究員 後藤 真孝さんにお話しを伺います。

研究者たちは、一体どのように未来を捉え、どんな新しいワクワクする音楽体験を作っていくのでしょうか?

こちらの記事は、「産総研マガジン」でも同時公開されています。産総研マガジンの記事はコチラ!

目次

「もっと能動的に音楽を楽しむ」未来の音楽体験にまずは触れてみよう!コンピュータが音楽を自動解析する「音楽理解技術」の研究音楽の中身が可視化される音楽地図自分の好きな音楽に出会う技術研究の入り口はどこにある?初音ミクとの出会い「産総研P誕生秘話」技術研究に重要な未来予測の考え方

「もっと能動的に音楽を楽しむ」未来の音楽体験にまずは触れてみよう!

――後藤さんの研究チームの仕事は色々なところで紹介されていて、たぶん何かしらの形で触れたことがあるって人も多いのではないかと思います。ニコニコ動画のニコニコ大百科に「産総研P」ってボカロP(プロデューサー)が登録されていますけど、その中の人たちは後藤さんの研究チームですよね。

後藤:そうですね。「産総研P」と自分たちから名乗ったことはないんですけど、2008年にユーザーの歌い方を真似して初音ミクが自然に歌えるという技術「VocaListener(ぼかりす)」のデモ動画を、「【初音ミク】 PROLOGUE 【ぼかりす】」というタイトルでニコニコ動画に投稿したのがきっかけです。

――これ発表されたとき私も「すげぇ」って笑って見てたのを覚えています。初音ミクがすごく人間臭く演歌を歌ってる動画「【初音ミク】 大漁船 【ぼかりす】」も投稿していましたよね。これ以外にも、ボカロ楽曲やニコニコ動画と連動した研究を色々出されているので、後藤さんのことは「初音ミクの研究をしてる人」と認識している方も多いかもしれないですね。

初音ミクをモデルにした「南極点のピアピア動画」というSF小説の中にも、「産総研の後藤」というキャラクターが出てくるんですよね。

後藤:そうなんです、これは本当に嬉しくて。事前に知らされていなかったので、後から知って驚きました。


SF小説「南極点のピアピア動画」には「産総研の後藤」というキャラクターが登場する / Credit:産業技術総合研究所

――あれ、知らないうちに出てたんですね(笑)

後藤:あるとき自分がSF小説に出ているとしか思えないツイート(ツイッター上の書き込み)を見つけて。買って読んでみたら本当に「産総研の後藤」が主人公の一人として登場していてびっくりしました。著者の野尻先生とは情報処理学会でお会いしたことはあったのですが、おそらく、私は無断でも喜ぶだろうと見抜かれていたんだと思います(笑)。

――そんなユニークなお話しもある後藤さんですが、研究分野はどういうものになるんでしょうか?

後藤:いろいろと取り組んでいるんですけど、本日お話しようと思っているのは「音楽情報処理」という研究分野です。これは、コンピュータで音楽のあらゆる側面を扱う分野で、学生の頃から31年間取り組んでいて、私が非常に愛している研究分野です。

音楽配信とか楽曲の検索とか、今話題に出た歌声合成もそうですし、音楽を鑑賞する人たち、創作する人たちの支援なども含むとても幅広い分野です。

特に今回は、コンピュータが音楽を解析する「音楽理解技術」にフォーカスして、音楽情報処理の力でこんな面白い事が可能になる、ということをお話しできればと思っています。

――後藤さんたちの研究ってウェブサービスとして公開されていて、すぐに読者にも触ってもらえる面白い成果がすでにたくさんあるんですよね。

後藤:そうですね。私たちはただ論文を書くだけじゃない研究アプローチを目指しています。技術の力で未来を切り拓くって考えた場合、企業と連携するのはもちろん正攻法で私たちもやっていますけど、最新技術を皆さまにいち早く使ってもらえるように、研究者自らがウェブサービスやプラットフォームを研究開発して公開するということに挑戦しています。

――私は先にいろいろ見せていただいたんですが、そのウェブサービスっていうのは、URLに接続するだけで誰にでも触ってもらえるんですよね。なのでここはウェブ記事の強みとして、まず後藤さんたちが公開している研究成果の一部を読者の方たちに触ってもらって、「なにこれ、すごい!」って驚かせてから中身の技術や研究の話をしていきたいと思います。

私は見せていただいた中で、歌詞付きのPVが簡単に作れてしまうってサービスが非常に驚いたんですけど。

後藤:「TextAlive(テキストアライブ)」ですね。これはリリックビデオ(歌詞アニメーション)の制作支援サービスです。リリックビデオというのは音楽に合わせて歌詞が踊るように動くアニメーションが表示される動画のことで、近年、目にすることも多い人気のある演出です。

※「TextAlive」リンク こちらをクリックして体験してみてください

音量に注意

(画像下部にある「キュート」とか「グラデーション」というスタイルボタンをクリックすると歌詞アニメーションが変化します。右のメニュー(スマホはページの一番下部)では歌詞のフォントも自由に変えられます。)


「TextAlive」の画面。画像をクリックしても「TextAlive」が体験できます。 / Credit:産業技術総合研究所

後藤:ここで表示されているリリックビデオは既存の動画を見ているわけじゃなくて、ウェブブラウザ上で実行されているプログラムがリアルタイムに生成している映像なんです。なので見ながら編集もできます。YouTubeなどの動画再生とはまったく違う体験になっています。

普通はリリックビデオを作るには、歌詞の1文字1文字のタイミングを人手で設定して演出もつける必要があって大きな手間がかかります。でもTextAliveを使えば、コンピュータが音楽を解析することで歌詞の表示タイミングなどを自動で設定してくれるので、手軽にいろいろなリリックビデオが作れるんです。

――私これ見たときライブとかの演出に使えそうとか思いましたが、実際すでに初音ミクのライブとかプリキュアのライブ背景で流れているリリックビデオにこのTextAliveの技術が使われたことがあるんですよね。

後藤:そうです。例えば、初音ミクの公式ライブ「SNOW MIKU LIVE! 2018」で画面の上に流れている歌詞がそうですね。


「SNOW MIKU LIVE! 2018」の様子。画像をクリックすると実際のライブの場面が視聴できます。 / Credit:産業技術総合研究所

後藤:プリキュアはVR空間の中のバーチャルライブなんですが、最近、VRライブの演出で利用いただく事例が増えてきました。もちろん、TextAliveでPVを付けたオリジナル楽曲もいろいろなクリエイターの皆さまが公開しています。

――この時点でも驚く人は多いと思いますけど、「TextAlive」自体は結構前の成果で、ここから更に新しい試みをされているんですよね。

後藤:そうです。TextAliveでいろいろ編集はできますが、最終的にでき上がるものは動画なんです。でも未来ではインタラクティブに毎回違う体験が当たり前になると私たちは考えました。そこでリリックビデオの次世代の姿として、世界初の「リリックアプリ」という新概念を提案しました。これは音楽に合わせてタイミングよく歌詞が動く音楽アプリで、それをプログラマーの皆さまが自由に開発できるプラットフォーム(API)を開発して公開したんです。

これを使うと何ができるかって言うと、例えばマウスで画面をなぞっていくとそれに合わせて歌詞が追いかけて表示される音楽体験ができるようになります。ユーザーがマウスをどう動かすかによって歌詞の出方がぜんぜん違うので、PVと違って二度と同じ画面が表示されず、自分専用の演出を楽しめます。

――これスマホだと指でなぞって遊べるんですね。

後藤:そうです。パソコンでもスマホでも誰でも無料で試せます。これは見ているだけだとわからないかもしれませんが、自分で触ってみるとすごく面白い体験なんです。なのでぜひ実際に触って、これが未来の音楽体験かって感じてもらえればと思います。

※「リリックアプリ」のリンク こちらをクリックして体験してみてください

(リンク開くと真っ白な画面が出るので、白い画面のところをクリック(タップ)するとアプリが始まります。右下の小さい動画画面は触らないでください)


リリックアプリの画面。画像をクリックすると実際にアプリが体験できます。 / Credit:産業技術総合研究所

――これ確かに音に合わせて自分のなぞった場所に歌詞がでてきて、ただ聴くのとは全然違った体験に感じられますね。で、さらにこの技術を使ってプログラミングコンテストも開かれたとか。

後藤:私たちはあくまで裏方なので、APIを整備してみんながリリックアプリを開発できるように提供しています。その「TextAlive App API」を使ったリリックアプリのプログラミングコンテストを、初音ミクで有名なクリプトン・フューチャー・メディア株式会社が、2020~2023年に4回実施してくださいました。いろんな方に応募いただけて私たちも驚くようなアプリが次々と登場しています。

コンテストの公式サイトでは4年間の入選作品40作品(2020年、2021年、2022年、2023年)がパソコンやスマホで遊べるように公開されているので、ぜひ体験してみてください。本当に面白くって、「あ、音楽でこんな事ができるんだ」って未来を感じてもらえると思います

――ちょっといくつかピックアップしてもらおうかなと思うんですけど。

後藤:そうですね、例えばリリックビデオとはまったく違うことをわかっていただくために、2023年の入選作品の中でゲームっぽいのだと、このエントリーNo.2の「りりっくぼーる」は、簡単に遊べて、なるほど!ってわかると思います。

※「りりっくぼーる」を試す

――あ、すごい。これ歌詞がピンボールになって飛び出してくるんですね。しかもちゃんとスコアもついてて。これ、わけの分からない凄さを感じますね(笑)こう来るとは思わなかったです。

後藤:あと、最優秀賞になったのがエントリーNo.6の「Miku SNS」というもので、これはSNSの投稿画面で、歌詞が一行ずつ歌われるタイミングで表示されます。この歌詞の投稿それぞれに「いいね」ができたり、返信できたりするだけでなく、自分でも自由にメッセージを投稿できるんです。

※「Miku SNS」を試す

――楽しい!これすごいですね!

後藤:しかも、歌詞の投稿に返信をしている他のSNSユーザーにもちゃんと人物設定がされていて、クリックするとその人の過去の投稿も見れたりするんです。すごく作り込まれてます。

――これってPVの演出とかにありそうなのに、本物のSNSアプリみたいに使うことができるんですね。これはまさに触れる未来のPVですね。

後藤:あとカメラが利用できるなら、優秀賞になったエントリーNo.9の「lyric-from-mouth」を試してみてください。

ウェブブラウザでカメラを有効にすると、画面内の自分の口から歌詞が飛び出してくるんです。口を開ける大きさで飛び出す歌詞の文字サイズも変わったりして、これやってみるとわかるんですが、人生で初の音楽体験になると思います。

※「lyric-from-mouth」を試す

――ほんとにこれは面白い!確かに未来を感じます。これもうこのサイトで一日中遊べちゃいますね。

後藤:他にも素晴らしい作品がいろいろと公開されているので、ぜひ体験してみてください。

私たちは未来にリリックアプリの概念が普及することを確信していて、ここでプログラマーの皆さまが応募した斬新な作品も、形を変えて未来には当たり前の音楽体験になっているのだと思います。なので、今、リリックアプリを体験した方は、将来そのアイデアが流行ったとき、あのプログラミングコンテストの作品が世界初だったんだ!のように思い出していただけるかもしれません。

――もうこの時点で、未来の音楽体験を作る技術という研究がすごいなって分かってもらえると思うんですけど、ここまでは今回の記事の掴みにするために、後藤さんたちの研究に関してちょい見せしてもらっただけでして、ここからはなぜこんな事ができるようになったのか?という研究の中身について伺っていきたいと思います。

(広告の後にも続きます)

コンピュータが音楽を自動解析する「音楽理解技術」の研究

――音楽をコンピュータで扱うとなると比較的新しい分野なのかなという印象を抱きますけど、こういった音楽情報処理の研究っていつ頃からあるんですか?

後藤:実は音楽情報処理の研究の歴史は古くて、コンピュータの発明とほぼ同時期の1940~1950年代には取り組まれていました。

――え? そんな昔からあるんですか。その頃ってどういうことをやっていたんですか?

後藤:自動作曲をする試みが初期は多くて、その後、シンセサイザのようなデジタル楽器やデジタル録音環境といった、現代の音楽制作にはなくてはならない技術が生まれていきました。

当初は一部の音楽家が使う技術として研究されていたんですが、1980~1990年代に入って家庭にもパソコンが普及するようになると、趣味で音楽を楽しむ人たちも使う技術になっていきます。私も当時、パソコンで音楽制作をして遊んでいました。


音楽情報処理分野の歴史 / Credit:産業技術総合研究所

――ああ、その辺からデスクトップミュージック(DTM)みたいな言葉も聞くようになった感じがしますね。ただ、かなりマニアックな印象でしたね。

後藤:その後、1990年代の後半に音響圧縮技術のMP3が普及して、2000年以降にMP3プレーヤーや音楽配信が普及するとガラッと雰囲気が変わって、一般の人たちが音楽を楽しむ手段としてパソコンが当たり前のものになっていきました。

――確かに初代iPodの発売が2001年10月でしたね。もう若い人にはiPadを書き間違えてますよって言われちゃいそうですけど。

後藤:なので歴史は古いですが、音楽情報処理が社会に不可欠な技術として一般的に広く普及するようになったのは2000年以降で、それから20年の間に世界中で研究者も増えて、大きな研究プロジェクトも次々と立ち上がる分野になっていきました。

こうしてすべての音楽がデジタル化されて、創作したり、配信されたり、聴いたりすることが当たり前になったんです。

――漫画なんかもみんな手で描いていたのが、今は鳥山明もデジタルで描いてるみたいな話を聞くのと似た感じですね。

後藤:ただ、その結果、アクセスできる楽曲の数が膨大になりました。昔はCDショップの店頭に並んでいたり、テレビやラジオ、ライブで流れたりする音楽しか聴けなかったのが、過去の数十万~数千万曲をいつでもどこでも聴ける時代になったわけです。

こうして沢山聴けるのは嬉しい反面、知っている曲名やアーティスト名で検索するだけでは、好みの音楽を見つけられません。もしみんなが探すのを諦めて、ランキングに上がるヒット曲しか聴かないと、誰かの好みに合う新曲が生まれても聴いてもらえない問題が起きて、音楽の多様性も失われかねません。しかもアクセスできる楽曲は増え続けるので、未来に出る新曲ほど埋もれやすくなってしまうんです。

――確かに、音楽は映画などを探すのと違って視覚的な手がかりも乏しいですし、映画や小説と比べても数が膨大になりますよね。触れられる曲が膨大になった以上、探す方法や聴き方にも変化が起きないと新しい曲との出会いが制限されてしまうんですね。

後藤:なので、これからの時代はこの膨大な楽曲を何らかの方法で出会いやすいように変えていく必要がある。人々の音楽体験は過去も技術の力で変化して来ましたが、未来においても技術の力で助けてもらいたいわけです。

――なるほど。音楽がデジタル化されて膨大なデータになったことで、私たちの音楽との接し方はどんどん変化していくことになる。それが最初に少し見てもらった未来の音楽体験という部分にも繋がって行くんですね。

後藤:そのための音楽情報処理の研究にはいろいろな成果がありますが、特に、私が31年間取り組んでいるのが「音楽理解技術」です。

音楽というのは色々な音が混ざった音響信号で、その音楽の中身をコンピュータで自動解析して、メロディやベース、ビート、サビ、ドラム、コード進行のようないろいろな音楽的要素を取り出そうというのが、この技術の基本的な部分です。

ただ人間なら聴けばわかっても、コンピュータが自動的に求めるのは難しかったんです。


コンピュータが音楽の中身を自動解析する「音楽理解技術」 / Credit:産業技術総合研究所

――確かに私たちも「この曲サビがいいね」とか良く言いますけど、じゃあ「サビってなんだ?」って聞かれると「一番盛り上がるところ…?」とか曖昧にしか答えられないですね。そんなニュアンスは機械には当然通じないし、機械にサビを理解させようとしたらどうすればいいのかちょっと想像できないですね。

後藤:そうしたサビを自動検出して、さらにその結果で何か役立つことができないか、と考えて20年くらい前に研究開発したのが、音楽試聴のための「SmartMusicKIOSK(スマートミュージックキオスク)」というシステムです。


「SmartMusicKIOSK」の画面。画像をクリックするとデモ解説を視聴できます。 / Credit:産業技術総合研究所

これは一番上のオレンジ色の区間がサビの繰り返しを表していて、それ以外の緑色の区間はサビ以外の繰り返し構造を表しています。それぞれの区間がボタンになっていて、クリックすると再生できます。右下には「サビ出し」ボタンもあって、曲の頭からではなく、いきなりサビから聴けます。これは沢山の楽曲の中から自分好みの曲を見つけるような試し聴きをするときに非常に便利で、サビを聴いて気に入ったら、一曲を通して聴く、みたいな聴き方が可能になります。

――なるほど。さっきの膨大な音楽から好みの楽曲を見つける、みたいな話につながってきますね。

後藤:このシステムでは、ポピュラー音楽の曲中で転調したり伴奏が変化したりしても、サビの繰り返しを見つけることを世界で初めて可能にしました。これは技術的には結構すごいことで、転調して音の高さが変わったり、歌の伴奏が大きく変化したりすると音響信号的にはまったくの別物になってしまう難しさがあります。それに対処して曲の中の繰り返しを見つけ、サビを検出できているんです。

――さっきもサビって聴けば分かるけど、何なのかわからないという話をしましたが、これはどうやってコンピュータにサビを理解させたんですか?

後藤:音量が大きかったりメロディの音が高かったりすればサビ、というわけではないので、SmartMusicKIOSKでは、楽曲中の繰り返し構造に着目しています。さきほどの画面で、いろいろな緑色の区間の繰り返しがありましたが、それらをまずはサビの候補として見つけます。次に、サビは曲の中でも一番聴かせたい部分なので最も繰り返される、ということを仮定して、そういう区間のサビらしさを高く評価します。他にも、サビには構造的な特徴があって、ある繰り返し区間の中でその半分の長さでさらに2回繰り返される区間や、曲の1番2番みたいな長い繰り返し区間の最後に出てくる繰り返し区間は、サビらしさが増すという処理も入っています。

そういった要素をいろいろと考慮して、サビ区間を求めています。

――確かにこうなるとただのシークバーと違って、曲の中身が一気にわかりやすくなって聴きやすい感じがしますね。

後藤:そうですね。従来はこのように何もないシークバーが表示されるだけでした。これだと初めて聴く曲の場合、どんな構造でどの位置で何が起きているのかさっぱり分かりません。


従来のシークバーだけでは曲の構造について何もわからない。 / Credit:産業技術総合研究所

それがSmartMusicKIOSKで曲の中の繰り返し構造を可視化すると、普段あまり構造を意識せずに聴いている人でも、「ここはどうなってるんだろう?」みたいに意識が向くようになります。

例えば、この曲はまず、サビが5つあることがすぐわかります。さらに、サビの頭の歌詞に注目して聴いてみてください。


SmartMusicKIOSKを使うと曲の構造の理解が深まる。画像をクリックすると実際に曲を聴きながら解説している様子を視聴できます。 / Credit:産業技術総合研究所

※上記の楽曲をSmartMusicKIOSKで聴いている様子のリンク

サビだけをクリックして順番に聴いていくと、最初のサビは「春色はきみの色~」と歌っていて、次のサビに飛ぶと「夏色はきみの色~」と歌っているんです。そうなると先の展開も予想できます。

――そうですね。季節を歌ってますよね。だから「秋」「冬」と続きそうです。

後藤:実際にその後のサビを聴くと、「秋色は~」「冬色は~」となってます。ただ、そうなると5番目はいったい何なんだろう、と特別な関心を持って聴きたくなります。それで再生すると、「世界中にきみの色~」となっていて、ああ作詞家はそういう風にこの曲を創っているのか、と普段は歌詞にあまり注意を払っていない人であっても、曲の理解が深まるんです。

――確かに曲のストーリーみたいなものも見えてくる感じがしますね。

後藤:こうやってSmartMusicKIOSKで音楽を聴くのはとても新鮮で楽しく、私は2002年にこれを開発できたとき、もう楽しくて自分で夢中になって何時間もいろいろな曲のサビ検出結果を見ながら遊んでしまいました。

――自分で作ったもので何時間も遊んじゃうっていいですね。やっぱり技術系の研究者は自分が欲しくて、でもまだこの世に無いものを初めて自身の手で作り出すっていうお仕事でしょうから、その喜びが感じられて。

後藤:そうやってさまざまな曲で試しているうちに、技術で支援してもらいながら曲の再生位置をインタラクティブに変えて鑑賞してみると、さっきの歌詞の例みたいに、音楽を理解する力が増す、つまり、音楽の理解力が技術の力で拡張できる、ということを発見しました。沢山の楽曲の試し聴きに便利、みたいな出発点だったのが、音楽理解技術を用いた音楽鑑賞インタフェースを実現すると、他にも嬉しいことがいろいろとわかってくるわけです。

もともと音楽の鑑賞というのは受動的なだけではなく、聴きながら手拍子を打ったり声を出したりして能動的に鑑賞することを人は自然にやっていたわけです。

そこでさらに、音楽理解技術で世界初の音楽インタフェースを実現すると、もっと能動的に音楽とのインタラクションを楽しめるような新たな体験をいろいろと切り拓けることに気づき、「能動的音楽鑑賞インタフェース」という新概念を提案しました。

今紹介したのはその一例ですが、その後、さまざまな音楽理解技術と10種類以上の能動的音楽鑑賞インタフェースを実現していったんです。既存の曲を再生しながらドラム音やドラムパターンをその場で差し替えるような、より自分好みに加工するためのインタフェースも開発したりしました。沢山の楽曲に対してテキスト以外で検索するインタフェースもいろいろと開発してきています。

――こういうのは一般目線でもすごく面白いですけど、学会でも同様の反響ですか?

後藤:ええ。こういう研究成果を国際会議や国内学会で発表すると、「これは素晴らしい!」とすごく高く評価してもらえて、「家で使わせて欲しい」っていっぱい言ってもらえて嬉しかったです。でも、やっぱりなかなかそのままでは使ってもらえないわけです。あくまで研究室内の技術デモだし、高性能なコンピュータで計算していたりしたので。

――確かに個人制作のプログラムでも環境によって動かないとかしょっちゅうですから、研究中の技術ってなるとなおさら大変そうですね。

後藤:なので、こういう能動的音楽鑑賞の研究を10年くらいやっていく中で、社会にもっと直接的に技術貢献するにはどうすればいいかということを考えはじめました。それで今から10年くらい前に始めたのが、ウェブサービスの形で私たちの音楽理解技術を体験してもらえるようにしようという取り組みでした。

――なるほど、それが最初に見せてもらったような、一般の人でもすぐに触れるサービスの公開になるんですね。ではここからは最初にも少し見せてもらいましたが、後藤さんたちが公開したさまざまなウェブサービスに触りながらお話しを伺っていきたいと思います。