コロナ禍でFacebookに吹き荒れる差別と偽情報。AIにどれだけ見抜けるのか

Facebookは、フェイクニュースやヘイトスピーチの対応に苦慮している。問題となっている事例とそれに対する取り組みをまとめた。
|
Open Image Modal
TechCrunch Japan

FacebookのAIツールは、いまFacebookで吹き荒れている差別的発言や偽情報とユーザーの間に立つモデレーターの役割を一手に引き受けている。同社の研究者は、ミームを装った新型コロナウイルス感染症関連の偽情報や差別発言を特定することで、こうした発言に対する水際対策を講じるための機能をいくつか考え出した。

今は新型コロナウイルス関連の偽情報を検出して排除することが優先事項であることは間違いない。Facebookやその他のソーシャルメディアは、通常の憶測や議論だけでなく、組織的に不和の種をまいたりエセ科学を広めたりするなどの、悪意ある妨害の温床となっているからだ。

「新型コロナウイルス感染症の影響で、サイト全体でユーザーの行動が大きく変わってきている。我々が危険だと感じる偽情報が急増している」とFacebookのMike Schroepfer(マイク・シュローファー)CTOは報道陣の取材に答えた。

Facebookは世界中で数十社のファクトチェック団体と契約している。そうした団体との協力体制がどの程度の効果を上げているのかという疑問はさておき、偽情報はすぐに変異していく傾向があるため、1つの画像やリンクを削除するだけでも複雑な仕事になる。

一例として、次の1つの画像を見てほしい。

Open Image Modal
TechCrunch Japan

これらの画像は、背景、色、書体が同じであることからほぼ同一であるともいえる。だが、2枚目の画像(右)は少し異なっている。オリジナルではなく、誰かがオリジナル画像のスクリーンショットを撮ったものだ。3枚目の画像(下)もほぼ同じだが、文が逆の意味になっている。

あまり洗練されていない画像認識アルゴリズムでは、これらの画像はわずかに異なる部分があるために(生成されるハッシュ値がまったく異なるため)まったく別の画像として認識されるか、圧倒的に類似点が多いためすべて同じ画像として認識されるかのどちらかである。もちろん、人間が見ればすぐに違いが分かるが、この違いを確実に識別できるようにアルゴリズムをトレーニングするのはかなり難しい。それにFacebookでは情報がまたたく間に拡散するため、上記のような同じような画像が数千も存在する状態になることがある。

「我々の目的は、人が見れば同じ画像とみなされるこうした類似画像を同じ画像として検出することだ」とシュローファー氏はいう。「これまでのAIシステムは非常に精度が高かったが、その分、わずかな違いに対して非常に弱い。数ピクセル変更しただけで、別画像と認識してしまい、削除対象から除外されてしまう。そこで我々はこの2年半で、ニューラルネットワークベースの類似性検出システムを構築した。これにより、より広範囲にわたって、こうしたわずかに異なる画像を高精度で特定できるようになった」。

幸いにも、そうした規模での画像解析はFacebookの得意とするところだ。写真を比較して顔やあまり望ましくないものの特徴を検索するためのアルゴリズム基盤はすでに整っている。あとは何を探すのかを教えるだけだ。そうして数年の努力の結果完成したのが「SimSearchNet」だ。SimSearchNetは、最も目立つ(ただし人の目ではまったく気づかないような)特徴を詳しく調べることによって、ある画像に非常によく似た画像を検索および解析するシステムだ。

Open Image Modal
TechCrunch Japan

現在、InstagramとFacebookにアップロードされる1日あたり数十億にのぼる画像はすべて残らずSimSearchNetによって調査されている。

Facebook MarketplaceもSimSearchNetの監視の対象だ。このマーケットプレイスでは、アップロード画像に関するルールをすり抜けようとする人たちが、同じ出品アイテムについて、ほぼ同一だが少しだけ編集した画像(例えばN95マスクの画像など)をアップロードして、削除を免れるようにしている。SimSearchNetでは、色やその他の方法で編集された写真の類似性がチェックされ、(削除対象となっている写真と同一と判定されれば)出品が中止される。

差別的ミームと意味があいまいなスカンク

Facebookが対応に苦慮しているもう1つの問題がヘイトスピーチ、およびそれに準ずる不快表現だ。とりわけAIによる検出が特に難しいことが分かっている領域としてミームがある。

問題は、こうした投稿は画像とテキストの相互作用によって初めて意味を成すことが多いという点だ。テキストだけではまったく問題なかったり意味があいまいだったりしても、画像と組み合わせることで意味が明確になる。それだけではない。画像やフレーズにはそれこそ無限のバリエーションがあり、それによって意味が微妙に変わる(あるいは変わらない)ことがある。次の例をご覧いただきたい。

Open Image Modal
これらは悪意のあるミームだがトーンダウンされている。Facebookでよく見かける本当に差別的なミームはこんなものではない
TechCrunch Japan

パズルを構成する個々の画像は、コンテキストによって問題ないこともあれば、侮辱的にもなる。こうした善悪を機械学習システムでどのように判別すればよいだろうか?こうした「複合型ヘイトスピーチ」は、AIの動作の仕組みという観点からすると大きな問題となる。既存のAIシステムは言葉を理解し、画像を判別できるが、両者の相互作用によってもたらされる結果を特定するのは簡単ではない。

Facebookの研究者たちによると、このようなテキストと画像の相互作用というテーマに関する研究は驚くほど少ないという。その意味でFacebookの研究は解決策というより探査ミッションのようなものだ。この研究によりFacebookがたどり着いたテクニックは数段階の手順から成る。まず、人に膨大な数のミーム型画像も見てもらい差別的発言かどうかを示す注釈を付けてもらう。次に、このデータに基づいて機械学習システムをトレーニングして、既存のシステムとは決定的に異なるシステムを構築した。

こうした画像分析アルゴリズムはほとんどの場合、テキストと画像を同時に提示すると、まずはテキスト、次に画像という具合に別々に分類してから、両者の関連付けを行う。しかし、その方法には上述のような脆弱さがある。つまり、差別的ミームのテキストと画像を、コンテキストを考えずに別々に見ると、まったく無害なコンテンツであると判別される可能性がある。

Facebookのシステムはテキストと画像の情報をパイプラインの最初の段階で組み合わせて(これを「早期融合」と呼ぶ)、従来の「遅延融合」アプローチとの違いを生み出す。この方法は人の処理方法に近い。つまり、メディアを構成するすべての要素を見てからその意味やトーンを評価するというやり方だ。

この新しいアルゴリズムは現時点ではまだ本格的導入されてはいない。全体的な精度は65~70%程度だ。だがシュローファー氏によると、有効性の評価には「本当に判別の難しい問題」を使っているという。複合型ヘイトスピーチは簡単に判別できるものもあれば、人でも判別が難しいものもある。

システムのミーム判別能力をさらに高めるため、Facebookでは、今年後半に開催されるNeurIPS AIコンファレンスで「差別的ミームチャレンジ」と題するコンテストを実施する予定だ。コンテストは普通、機械学習システムにとって難しいタスクが課題として使われる。そのような新しい問題は研究者たちの大好物だからだ。

FacebookのポリシーにおいてAIが果たす役割の変化

Facebookは、新型コロナウイルス大流行の初期に、AIのモデレーターとしての役割を拡充強化していく計画を発表した。マーク・ザッカーバーグ氏は3月、記者会見で、「1万5000人のモデレーター契約社員が自宅で有給休暇を取っている状態を考えると、『偽陽性』(誤って削除対象にしてしまうコンテンツ)の件数が増えると思われる」と語った。

YouTubeTwitterも同時期にコンテンツのモデレーション作業のAI移行を強化したが、AIによるモデレーションへの依存度が大きくなると、ルールに違反していないコンテンツが誤って削除対象となる可能性があることを警告している。

FacebookはAI化を進める一方で、人間のレビューアの通常出勤を促すことに必死である。ザッカーバーグ氏は4月半ば、社員の通常出勤への復帰スケジュールを明示し、コンテンツレビュアーは通常勤務への早期復帰が最も望まれる「重要職」であると述べた。

FacebookはAIシステムによるコンテンツの削除は行き過ぎる可能性もあると警告しているが、新型コロナウイルス危機の拡大にともない、ヘイトスピーチ、悪質な脅し、偽情報などもサイトで拡散を続けている。Facebookは最近、マスクをしないようにとか、ワクチンが入手可能になっても買い求めないように促す、健康に関する偽情報ルールに明らかに違反した口コミ動画を広めたとして非難されている。

この動画は「Plandemic」という公開予定の偽情報ドキュメンタリーから抜粋され、最初はYouTubeで拡散したものだが、研究者たちはFacebookで活発に活動している陰謀論支持者グループが広くこの動画を共有した結果、ネット上で広く議論される主要な話題となったと見ている。陰謀説がちりばめられた26分間のこの動画は、アルゴリズムで解釈するのが難しいコンテンツの典型例でもある。

またFacebookは火曜、テロリズム、ハラスメント、ヘイトスピーチといったカテゴリ全体にわたるモデレーション作業の詳細を記述したコミュニティ規定違反対応レポートを発表した。今回のレポートにはパンデミックが発生してから1か月分の結果しか含まれていないが、AIによるモデレーションへの移行が進めば、次回は、その成果がより反映されたものとなるだろう。

Facebookのモデレーション作業に関する質問に対し、ザッカーバーグ氏は「パンデミックによって人によるレビューが大変難しくなった。ユーザーのプライバシー保護および社員の精神衛生の保護に関する懸念から、レビューアの在宅勤務は課題が多いが、それでも現在その方向に確実に進めている」と述べた。FacebookはTechCrunchの取材に対し、常勤コンテンツレビュアーの出社勤務については、ごく一部の希望者にのみ許可していると回答した。コンテンツ管理担当副社長Guy Rosen(ガイ・ローゼン)氏によると、大部分の契約コンテンツレビュアーは在宅勤務が可能となったという。「モデレーション作業では今後も人間の能力が重要な役割を果たすだろう」とローゼン氏は語った。  

(翻訳:Dragonfly)

(2020年5月20日 TechCrunch Japan「AI vs ウソと差別、コロナ禍のいまFacebookが抱える大問題とは」より転載)

関連記事