『僕が親ならこう育てるね』は、ショート動画でもお馴染みの「おしゃべりひろゆきメーカー」(株式会社CoeFont)を元に作成された。
『憤怒と祈りで建国だ』は、株式会社Stand Technologiesが作成。AIが副音声で番組の内容を解説する「解説放送」の音声制作や、災害時に最新情報を多言語に翻訳して発信するシステムのAI音声制作など、さまざまな分野でAI動画・音声利用に注力している企業だ。
『憤怒と祈りで建国だ』のAI本人オーディオブック制作を担当した、株式会社Stand Technologiesの梶原彩菜さんに、完成までの過程について、お話を伺った。

◆声質だけでなく、話し方の癖までも再現可能
「著者本人の声によるオーディオブック化を望む声は多くあるものの、長時間にわたる収録のスケジュール調整の難しさや、朗読には一定の技術が求められることなどから、高いハードルがありました。今回、AI音声技術を活用することで、著者本人の稼働を最小限に抑えながら、著者の声によるオーディオブック制作を実現。青山先生には、『憤怒と祈りで建国だ』の前半部分を1時間ほど朗読していただいたのですが、一定のテンポや間の取り方で朗読してくださったので、AI音声モデルの再現度も高くなったと思います」学習用の音声データの量や質にもよるが、AI音声モデルはわずか数日で作成できるのだそう。
「これまでに弊社で制作してきたAI本人オーディオブックは、プロのナレーターの朗読をAI技術で他の著名人の声に変換していました。今回は新たな取り組みとして、AI音声モデルにテキストを読み込ませ、音声データを出力しています。この作り方だと、ご本人の声質だけでなく、話し方の癖やイントネーションまで再現できますね」
こうして出力された音声データを確認し、ひとつひとつ調整していくのだという。
「自然なアクセントになるように、オーディオブック本編の5倍以上の時間にわたって、音源を繰り返し聴きました。やっぱり、最後は人の手で調整することが大切なんです」
◆「当たり前に使われる時代」へ。オーディオブック市場の新たなフェーズ

世界的に年平均20%から25%という高い成長率を維持しているオーディオブック市場。日本でもその規模は拡大し続けているが、2004年のオトバンク創業以降、市場はいくつかのフェーズを経てきたのだそう。
「2006年頃から地道に関係者の認知度を高めていった第一期。2015年以降の各社オーディオブック市場への参入や2018年のaudiobook.jp聞き放題サービス開始によって、利用者が拡大した第二期。そしてコロナ禍を経て、オーディオブックは”知る人ぞ知るもの”から、”誰もがなんとなく聞いたことがあるもの”へと移行しました」
そして今、「市場は新たなフェーズへと突入している」と、久保田さんは語る。
「すなわち、”オーディオブックが当たり前に使われる時代”になりつつあります。例えば、企業の人材育成や、図書館での導入が進んでいるほか、病院や介護施設、老人ホームなどからも利用の問い合わせが来るようになり、さまざまな場所で活用される機会が増えているんです」

