「文の響き」だけで百年後も読まれる本を70%の精度で判定することに成功

時代を超えて愛される「古典小説」と、一時のブームで終わるベストセラーの違いはどこにあるのでしょうか。

私たちは誰しも、発売当初は大ヒットしたのに数年後には話題にも上らなくなった本や、逆に何十年も、あるいは百年以上読み継がれている本を目にしたことがあるはずです。

こうした謎に、カナダのヨーク大学（York University）で行われた研究が挑みました。

研究チームは1909年から1923年に出版された英語小説を調べ、当時のベストセラーと100年後も人気のある「タイムレス小説」を比較しました。

しかも彼らは物語の内容には一切触れず、使われている言葉や文の構造といった「文章の響き」だけを手がかりに、機械学習（コンピュータがデータのパターンを学ぶ方法）で両者を見分けようとしたのです。

その結果、約7割という高い精度で、どの小説が100年後にも読まれるかを予測できることが示されました。

ストーリーではなく言葉の使い方だけで、未来の古典を見抜けるかもしれない——あなたはこの結果をどう思いますか？

研究内容の詳細は2025年9月13日に『PsyArXiv』にて発表されました。

時代を超える『古典』の秘密とは何か
機械が読み解いた『100年読み継がれる小説』の特徴
言葉の響きが未来の古典を作る

時代を超える『古典』の秘密とは何か

「本当に良い小説は、時代を超えて読み継がれる」とよく言われますが、皆さんはどう思いますか？

たしかに私たちは、古典と呼ばれる本が今でも人気を集めているのを目にしています。

夏目漱石やシェイクスピア、アガサ・クリスティーなど、何十年も何百年も昔の作品が、今なお多くの読者を惹きつけているのは驚きですよね。

ところが一方で、発売当時に爆発的にヒットしたベストセラー作品が、10年も経てば誰の記憶にも残っていない、そんなケースも珍しくありません。

実際のデータを見てみると、多くのベストセラー小説は、出版されてから10週間ほどでピークを迎え、その後は急速に忘れ去られてしまうことが多いそうです。

つまり、人気のピークを迎えた後、ゆっくりではなく、急な坂道を転げ落ちるようにして人々の関心から消えていくのです。

これまでにも「売れる本」を研究する試みは盛んでした。

例えば「どんな内容や物語が読者にウケるのか？」、「どういうキャラクターが登場すると読者が喜ぶのか？」といった「ヒットの方程式」を探してきました。

実際の研究でも、「愛情深い男性キャラクターが登場する小説ほど人気が出やすい傾向がある」といった、面白い結果も報告されています。

しかし、ここで大きな問題があるのです。

いくら内容やキャラクターが魅力的で、発売直後にヒットしたとしても、その小説が数十年、あるいは100年後も読まれるとは限らないのです。

実際、本の人気というのは単に内容だけではなく、その時代の流行や社会の動き、さらには表紙デザインや宣伝といったマーケティングの影響も強く受けます。

こうした要素が絡み合っているため、「この小説が時代を超えるかどうか」を内容や物語から予測することは、極めて難しい課題なのです。

もう少し身近な例で考えてみましょう。

例えば、皆さんが今、涙を流すほど感動した小説があったとします。

でも、それが数年後には誰も話題にしなくなっているか、それとも100年後にも愛される「古典」になっているか、誰にも分かりませんよね。

また、最近よく目にする特定のジャンル、たとえば「異世界転生モノ」や「泣ける〇〇モノ」のような流行が、もし100年後には時代遅れと見なされていたら、その時代の読者に響くことは難しいでしょう。

そこでカナダのヨーク大学の研究チームは、まったく新しい方法でこの問題に挑戦しました。

なんと彼らは、あえて小説の物語の内容やストーリーに一切触れず、「どんな言葉をどんなふうに使っているのか」だけを分析したのです。

このアプローチに対して、皆さんは「物語の内容に触れずに評価するのは無理があるんじゃないか？」と疑問に感じるかもしれませんね。

確かにその感覚はもっともです。

ですが、さきほどお話ししたように、本の内容や物語の評価というのは、その時代の流行や評価する人の個人的な好みに大きく左右されてしまいます。

そのため、内容や物語に注目することが、逆にその本の「真の価値」を隠してしまう可能性もあるのです。

そこで研究者たちは、あえて「内容」から離れて、もっと客観的に分析できる方法として「言葉の使い方」を詳しく調べました。

単語や言い回しをパターンとして数値化し、「古典となる小説はどのような言葉をどんなふうに使うのか？」という特徴を見つけようとしたわけです。

ですが、そもそも「内容」を無視した分析だけで、本当に100年後まで読み継がれる「未来の古典」を見抜くことなどできるのでしょうか？

内容ではなく、言葉の使い方という表面的な要素だけで、時代を超える小説を予測することは可能なのでしょうか？

機械が読み解いた『100年読み継がれる小説』の特徴

時代を超える古典作品と一時のベストセラーを言葉の使い方という表面的な要素だけで予測できるのか？

答えを得るため研究チームは、まず1909年から1923年という今から約100年前の時期に出版された英語の小説を調べることにしました。

この時代に絞ったのは、長い時間を経て現在でも評価されているかどうかを比べるためです。

調査にあたって、小説を２つのグループに分けました。

一つは、当時とても人気があった「ベストセラー小説」のグループです。

ベストセラーは発売当時に『パブリッシャーズ・ウィークリー』という雑誌が毎年出していた「年間人気ランキング」の上位10作品に入った本を選びました。

もう一つのグループは、現代になっても読者から強い支持を受けている「古典」のグループです。

では、古典をどうやって決めるのでしょうか？

今回研究チームは、Goodreads（グッドリーズ）という人気のSNSに注目しました。

Goodreadsは世界中の人が「読みたい本」や「読んだ本」を自由に登録して、お互いに本をおすすめし合えるサービスです。

そのGoodreadsで、今でも多くの読者が「読みたい」と登録していたり、「読んだ」として評価したりしている人気作品を、研究者は「古典」と定義しました（データは2024年現在、フィクションのみ）。

こうして２つのグループを比較した結果、最終的に当時のベストセラー小説124冊と、100年後の今でも読まれている古典小説92冊を分析することになったのです。

次に研究チームは、小説の中で使われている「言葉」の種類や頻度、つまり「どの言葉をどのくらいの割合で使っているか」に注目しました。

例えば、代名詞の使われる頻度や、感情を表す言葉の割合、あるいは句読点（「、」や「。」）がどれくらい使われているかといった具合です。

例えば、「私たち（we）」や「彼ら（they）」といった複数の人を指す代名詞をどのくらい使っているか、あるいは文章の1つひとつの文がどれくらいの長さなのか、といったことも数値化したわけです。

このようにして、小説が数字として比較可能なデータに変換された後で、研究者たちはいよいよ機械学習（マシンラーニング）という方法を使いました。

機械学習とは、人間が特徴を教えることで、コンピュータがデータのパターンを学習し、何かを分類したり予測したりできるようになる技術です。

今回は、SVM（サポートベクターマシン）というタイプの機械学習を使いました。

具体的には小説データの70%を使ってコンピュータに学習を行い、残りの30%を使いって本当に「古典」と「一時的なベストセラー」をコンピュータが正しく見分けられるかどうかをテストしたのです。

すると結果は驚きでした。

なんと、この方法によって、約71%という高い精度で「時代を超えた古典」か「一時のベストセラー」かを当てることができたのです。

ここで重要なのは、コンピュータは物語を一切読んでいない、ということです。

単に言葉の使い方という情報だけで、100年後にも読まれる本を高い確率で予測できたわけです。

これは、ベストセラーになるかどうかを予測する過去の研究と比べても、ほぼ同じくらい高い精度です。

これまでの研究は、発売直後のヒット作と売れない本を予測するものでしたが、今回はなんと、100年先まで読み継がれるかどうかという、はるかに難しい問題を、同じくらい正確に予測できたわけです。

この成果は、物語を一切読まずに行われたことを考えると、研究者たちの予想を超えた結果だったのです。

さて、この研究からさらに興味深い発見がいくつもありました。

機械学習モデルによって、「古典」として時代を超える作品に共通する、特別な「言葉の特徴」が明らかになったのです。

まず、「古典」として長く読み継がれる小説には、複数の人をまとめて指す言葉、「私たち（we）」や「彼ら（they）」などの代名詞が非常に多く使われる傾向がありました。

また、具体的な数字や数を表す単語、さらに少し意外ですが「食べ物」に関する単語も、やや多めに使われていました。

また、文の長さ（１つの文に含まれる言葉の数）についても、古典作品はやや長い傾向にあることも分かりました。

（※ただし分の長さについては、モデルによって統計的に明確な差が出たり出なかったりしたため、「確実に差がある」とまでは言い切れない部分もありました。）

一方、当時だけ人気を集めてすぐに忘れられてしまったベストセラー小説には、これとはまた違った言葉の特徴がありました。

ベストセラーの特徴としては、読者に直接語りかけるような「あなた（you）」という二人称の代名詞をよく使う傾向があります。

また、友達や会話、助け合いなど、人と人との交流を表す「社会的な単語」が多く使われていることが分かりました。

さらに、「句読点」（「、」や「。」のような区切りの記号）やアポストロフィ（’）など、文章を区切ったり装飾したりする記号の使用頻度もベストセラーのほうが多いという傾向がありました。

また、研究では各小説の文章がどれくらい読みやすいか、という点にも注目しました。

その結果、古典作品はベストセラー作品よりも、一般的に文章がやや難しく、大学生から大学院生レベルの読解力が求められる文章が多いことがわかりました。

この結果が私たちに伝えてくれるのは、もしかすると時代を超えて愛される作品というのは、誰が読んでもすぐに理解できて共感しやすい、というよりも、少し抽象的で複雑で、「考える余地」が残されている作品なのかもしれない、ということです。

そのような作品は、100年前の人にとっても、100年後の私たちにとっても同じように興味深く感じられるのかもしれません。

さらに研究チームは、なぜ古典小説で複数の人を指す代名詞（「私たち」や「彼ら」）が多く使われているのかについて、興味深い仮説を立てました。

彼らによると、これらの言葉を使うことで、読者は登場人物と自分自身との間に「一体感」や「共感」を感じやすくなり、それが作品が世代を超えて愛される要因の一つとなっている可能性があるというのです。

一方で、ベストセラー作品で二人称の「あなた」が多く使われる理由についても、物語が同じ時代を生きる読者に強く語りかけているからではないか、という仮説を提示しています。

たしかに、物語が今の自分に向けて語られているように感じれば、その瞬間は熱中できるでしょう。

しかし、時代が変わってしまえば、その呼びかけが「自分には関係ない」と感じられてしまい、結果として読み継がれないのかもしれません。

このようにして、研究チームはこれまで誰も気づかなかったような「言葉のレシピ」を見つけ出し、内容を読まずに言葉の使い方だけで古典作品を見分けることが可能であるという、画期的な発見をしました。

この発見は文学の研究や出版業界、さらには私たち一般の読者にとっても非常に大きな意味を持っています。

何より、この成果は、「言葉の使い方」という、私たちが普段あまり意識していない要素が、実は本が長く読み継がれるかどうかという重要な要素になっている可能性を示しています。

「文の響き」だけで百年後も読まれる本を70%の精度で判定することに成功

時代を超える『古典』の秘密とは何か

機械が読み解いた『100年読み継がれる小説』の特徴

提供元

ナゾロジー

あなたにおすすめ