AIの進化により文字起こしが非常に便利になってきている。中でも、Nottaの文字起こしは日本語に特化しているというだけあって、日本語会話の文字起こし精度が非常に高い。また、Notta純正でNotta Memoというハードウェアを販売しており、こちらは現場の録音にも、通話、ビデオ会議の録音にも使えるようになっている。今回は2週間ほどNotta Memoを取材に使ってみた。
Notta Memo
https://shop.notta.ai/ja-jp/products/notta-memo-jp

文字起こしは非常に手間と時間のかかる作業だった
筆者はこの30年間、編集記者として活動している。その仕事の中でも、取材音声の文字起こしというのは、非常に時間と手間がかかる作業だった。

初期の頃は、多くの場合は紙のノートにメモして文章を構成していたが、長文の対談や、一字一句逃せないような長時間の取材においては、カセットテープに録音していた。それを後ほど編集部に戻ってからテキストに書き起こすことを文字起こしと言った。
時が経ち、そのカセットテープがICレコーダーになり、最近はiPhoneなどスマホで録音する人も増えている。しかし、何で録音するにしても、文字起こしに手間がかかることに変わりはなかった。編集部では若いスタッフが担当したり、場合によっては専門のフリーランスの方に依頼することもあった。

ところがここ1〜2年、大きく事情が変わってきた。いよいよAI文字起こしが実際に役に立つようになってきているのだ。特に『Notta』は日本語の文字認識に特化していると言うだけあって、非常に日本語の認識精度が高い。日本語は音の抑揚が少なく、文節の区切りが分かりにくいので、AIが認識しにくい言語なのだそうだ。それを独自技術を使って認識精度を向上させているのだという。
スマホとは別に文字起こしデバイスがある利便性
筆者のように取材が生業でなくても、会議や授業など、録音・文字起こし、さらにAIでの文字起こしが容易になると非常に便利な場面は多い。
Nottaは、パソコンやスマホでも利用は可能。ただ、Notta Memoのような独自デバイスにはアドバンテージがある。

まず、パソコンのマイクは、利用者の声を(ビデオ会議などのために)拾うようできており、対面側に座っている人の声は拾いにくい。だから、パソコンでNottaを使うと、自分の声は認識されやすいが、相手の声の音が悪い(認識精度が落ちる)という現象が起きる。
iPhoneなどスマホのマイクは非常に優れているが、途中で電話がかかってきたり、他の操作をしたりすることで録音が止まってしまう危険性もある。昨今、インタビューの途中に、確認のためにサイトを開いたり、録画したりという操作をすることもある。そんな時に、不注意で録音が止まってしまうことがあるのだ。筆者も何度か経験がある。めったに話を聞けない人物のインタビューなどの現場では、そんな失敗は絶対に許されない。
それに対して『Notta Memo』のような専用デバイスを使うことには、大きなメリットがある。まず、録音専用として安定して使用できる点だ。録音している間はデバイスをその用途だけに使えるため、スマートフォンのように操作ミスや着信で中断される心配がない。
次に、集音の柔軟性が高いことも利点だ。話している登壇者が自分のいる場所から少し遠い場合でも、Notta Memoだけを登壇者の目の前に置いておくことで、声をより拾いやすくすることもできる。文字起こしの精度は、元の音声の良し悪しによって最終的な結果が大きく左右される。そのため、なるべくクリアな音で録ることが何よりも大切であり、デバイスを相手の目の前に設置できる点は、非常に大きなアドバンテージだと言える。
ちなみに、Nottaはディスプレイのある面にマイクが集中しているので、そちらを話者に向けることで、よりクリアに録音することができる。