「医者・看護師」と画像検索してみてほしい。多く表示されてくるのは「男性医師×女性看護師」の組み合わせのはずだ。これはAIが学習するデータに、社会のステレオタイプや偏りがそのまま反映されてしまったからである。
書籍『アルゴリズム・AIを疑う』より一部を抜粋・再構成し、差別や格差の再生産を拡大しかねないアルゴリズムの危険性について解説する。
私たちは検索上位のサイトしか見ない
情報オーバーロード環境※1において適応的なのは、大量の情報を「効率的に」選別することで、ユーザーの認知負荷を軽減するようなアルゴリズムのあり方である。
プラットフォームのアルゴリズムは、ほぼすべてがそのような「選別」を行うためのしくみだといっても過言ではない。それは、検索エンジンのランキング・アルゴリズムも、ECサイトやグルメ情報サイトのレビュースコアも同様である。
たとえば検索エンジンのランキング・アルゴリズムは、膨大なウェブページの中からそのキーワードというパラメーターに応じて、もっとも関連性スコアの高いウェブページから順位づけをして表示することで、ユーザーの認知負荷を軽減している。
もし検索エンジンがランキングをつけてくれなければ、ユーザーはキーワードがマッチした大量のウェブページを全部確認しなければならないことになってしまう。
逆にいえば、ユーザーは多くの場合、ランキングの上位から順番に(ときには1位だけ)ウェブページを確認していけば必要な情報が手に入る確率が高い(あくまで確率が高い、ということで確実ではない)。
実際、検索結果の1位のCTR(クリック率)は非常に高い一方で、2位、3位と順位が下がるに従いCTRはどんどん下がり、2ページ目の11位以降までみる人はほとんどいないという。
つまり、アルゴリズムによって序列化された検索順位が高いということ自体が、そのページにアテンションを向ける理由になるということだ。逆に、アルゴリズムが検索順位を低く判定すれば、そのページはアテンションを向ける対象にならず、(たとえ重要な情報が含まれていたとしても)無視されてしまう。
アルゴリズムが差別や偏見を再生産する
そして、ランキング・アルゴリズムの最適化の対象は、そのページがアテンションをえられるかどうか、である。
すなわち、CTRのようなユーザーの反応を示す指標自体が、ランキング評価のパラメーターのひとつになっている。
ここに、アルゴリズムの自己準拠的な循環というパラドックスが生じる。検索結果ランキングが上位であるということは、アルゴリズムがそのページに対してアテンションを払うに値すると判断した結果である。
しかし、ひとたびランキングが上位になれば、まさにそれが上位にあるがゆえにCTRは上昇し、そのCTRというパラメーターの値が高いがゆえに、ページのランキングはさらに上昇することになる。
逆にランキング下位になってしまえば、まさにそのページが下位であるがゆえに、クリックされることがなく、アルゴリズムからは価値の低いページとみなされ、上位のページとの「格差」が拡大していくことになる。
そしてその「格差」は、実際のウェブページの内容の「正確性」や「信頼性」とはほとんど関係がない。
アルゴリズムやAIが、情報の意味論的な「正確性」や「信頼性」を直接判別できないという原理的な問題は、社会におけるアテンションの偏り、すなわちヒューリスティックやステレオタイプといった人間の心理バイアスに基づく判断の偏りがそのままスコアリングやランキングに反映される要因にもなる。
たとえばグーグルの画像検索で「医者・看護師」と入力すると、ほとんどの画像が「男性医師」と「女性看護師」の組み合わせになると指摘されている。
これは、グーグルの画像識別のアルゴリズムおよびAIが、社会における実際のデータの分布に基づいて動作した結果である。いわば社会の中で暗黙のうちに共有されているステレオタイプや偏見を、ある意味では忠実に再現した結果なのだ。
また、黒人女性でAI研究者のジョイ・ブオラムウィニは、既存の顔認証システムの識別AIでは、白人男性の判定は問題なくできるのに、黒人女性の場合はエラーになることが多いことを発見した。
そもそもAIの学習データには、白人男性のデータばかりが使われており、黒人や女性のデータは相対的に少ないという偏りがあり、識別の精度が歪んでしまったのだという。
このような偏りは、アルゴリズムやAIが、社会の中の歪んだデータの分布や、人間が暗黙のうちに期待するようなステレオタイプに最適化されることによって、ときに差別や格差を再生産したり拡大したりする危険性を示すものといえるだろう。
ランキング・アルゴリズムをアテンションに忠実に実行したがゆえのこの「偏り」のパラドックスは、検索エンジンに限らず、日常生活におけるさまざまな計算論的なランキングにおいてもしばしばみられる現象である。
音楽のヒットチャートのような例においても、ある楽曲が(その楽曲の作品としての魅力が高いかどうかとは別に)ランキング上位を獲得したがゆえに聴く人が増え、聴く人が増えたからさらにそのランキングが上昇する、という現象は日常的にみられることだろう。
多くのウェブサイトの送り手がSEO(検索エンジン最適化)という手法を駆使してなんとか検索ランキングの上位に自社のコンテンツを上げようとするのも、このような構造が背景にある。
脚注
※1 情報量が人間の処理能力の限界を超えており、適切に情報を処理・活用できない状態のこと

