「動画版アイコラ」(Deepfake)が問いかける“ヒト”と“コンピューター”の悪夢的近未来とのつきあい方

人工知能とソーシャルメディアの組み合わせは最悪ではないか?
Open Image Modal
https://www.youtube.com/watch?v=ohmajJTcpNk

「なにを信じたらいいかわからない」がトレンドになるか?

 デジタルの世界に限らないのだが、2つ以上のトレンドの流れがぶつかって新しい時代を作りだすというのはよくあることだ。たとえば、「ブロードバンドネットワーク」と「モバイルコンピューティング」が作り出したのが、「スマートフォン」であり「クラウドコンピューティング」や「ソーシャルメディア」の時代である。

 1年ほど前、私は、「マストドン」(Mastodon)というツイッター型のミニブログについて書いた。これは、フェイスブックなど大手プラットフォーマーに"集中"し過ぎたネットに対する"分散"への揺り戻しである。コンピューターの70年ほどの歴史を見ると"集中"と"分散"は延々と繰り返されてきたテーマなのだ(つまりバランスが求められる)。いうまでもなく「ブロックチェーン」も"分散"の議論を象徴するトレンドの1つとみることもできる。

 そうした大きな変化をいま感じざるをえないのが、「人間は何を信じればよいのか?」というテーマである。すなわち、「人工知能」と「ソーシャルメディア」という2つの流れが生み出しつつあるひょっとしたら前述2つよりも本質的な"問いかけ"ともいうべきトレンドである。

Open Image Modal
AOL

 ディープフェイク(Deepfake)は、"人工知能によって生成された偽の情報"の中でも映像のことをいう。2017年12月頃から米国のコミュニティサイト「Reddit」で話題になりはじめたもので、その中でも「フェイクポルノ」は、日本のネット文化的にいえば「アイコラの動画版」である(アイコラ=アイドルの顔をAV女優の写真などに貼り合わせた画像)。

 『ワンダーウーマン』のガル・ガドットの義理の兄とのセックスシーンの映像は、米国のネットで話題になった(もちろんというべきか本物ではない)。映画『ロード・オブ・ザ・リング』の登場人物の顔がすべてニコラス・ケイジの顔になっているなんてのもある。

 手間をかければ可能だったポストプロセスの1つだが、これのための便利な「FakeApp」というソフトも公開されてブームに拍車をかけた(グーグルの機械学習ライブラリ「TensorFlow」が活用されている)。人物Aの顔の映っている大量の映像と、人物Bの映っている大量の映像があれば、いまの顔認識技術をつかえば入れ替え可能なのはシロウトでも想像がつくだろう。

 そして、Redditなどでフェイクポルノの投稿が禁止されることになる(ディープフェイクの違法性についての議論もあるのだが)。一方、ドナルド・トランプ大統領の顔を、ヒラリー・クリントンやドイツのメルケル首相の演説に貼りつけたYouTube動画が話題になっている。それによってかどうかは不明だが、BBCやニューヨークタイムズが少しシリアスなトーンで報じはじめているように見える。

 どちらの映像もデジタルフォレンジックや法医学の出番になるような仕上がりではない(そもそも見間違わせるものでもない)。人工知能的に作られた画像や映像によくある"ボケ"た部分が残されているという意見もある。しかし、技術というのは我々の想像を超えるスピードで進化することがままある。

 このあと何が起こりうるかは少し考えれば誰にも想像できることだ。たとえば、人工知能技術によって音声変換やリップシンクの質もどんどん向上している。自分の思うとおりに米オバマ前大統領やロシアのプーチン大統領(正確には彼らの映像)を喋らせるという実験ビデオを見てほしい。

 アイコラの動画版が可能になって、さらには音声変換やリップシンクによって自分の思うようなことを誰かに喋らせることができるようになる。いまのところ大量の動画がネット上にある有名人が使われているが技術はそれも不要にする可能性がある(歩き方で人を判別する「歩行認証」が可能なのだから逆に似た動作を作りだすことができる)。技術的には、iPhone Xの「アニ文字」(メッセージで自分の顔に合わせてキャラクターを喋らせる)は、キャラクターしか使えないなどの違いはあるもののリアルタイムな顔認識という点では近い発想のものだともいえる。

人工知能とソーシャルメディアの組み合わせは最悪ではないか?

 2016年の米大統領選挙でのロシアによる「フェイクニュース」(fake news)は、選挙結果に影響を与えたとされる。それが、文字がら「映像」になったときにどんな影響をおよぼしうるのだろう。人間は、視覚的なメッセージに心理的な影響を受けやすいことは、さまざまな実験であきからになっている。鏡の代わりに自分の顔の口を広げて映し出す装置で、その日一日を明るくスタートできる「扇情的な鏡(東大廣瀬・谷川研究室)なんてのもある。

 この話題をあつかったBBCのニュースでは、「ハイエンドPCがあればハリウッドのギャラはいらない」と煽っていた。私の大好きな映画『ファントマ(Fantômas)』をリメイクしたら、主人公の怪盗ファントマは得意のゴム製のマスクは捨ててこれを使うに違いない。

 米大統領選挙に影響をおよぼしたフェイクニュースの作者の一人で、昨年死亡したポール・ホーナー氏は、トランプ支持者はファクトチェックをしない人たちだと述べていた。

 「人は何を信じればよいのか?」というような話ではない。ファクトすら不要なくらい人間はいいかげんに情報をシェアしていくということは人間のほうが信じられないのだ。どうも「人工知能」×「ソーシャルメディア(つまり人間)」の組み合わせが最悪に近いのではないか? 自動運転やアマゾンGO(レジ不要のスーパー)のような画像認識の活用は、そうでない点においてよいと思う(それが徹底していくどしても、たとえば、ベゾスは考えていると思うが町全体がアマゾンGOの中にスッポリ入ってしまったらそれはそれで便利だろう)。それに対して、おしゃべりで信じやすい人間をつなぐしくみに人工知能がからむと想像できない結末を招く可能性がある。

 暗号技術と映像の組み合わせが、こうしたことに対する解決策は導きだしうるのだろうか? ちょうど、「窃盗」というものに対して「錠前」を発明したようにと考えられるだろうか?

 いまのところ、日本の「技術の無駄づかい」が好きなエンジニアたちは、ポルノや政治の分野よりも、初音ミクや萌えキャラ方面に費やすそうする傾向がつよいように見えるが。

(2018年3月7日「遠藤諭のプログラミング+日記」より転載)