スマートスピーカーに"AIによる差別"はあるのか

ポストの実験でカギになっているのは、英語の発音のアクセント(なまり)に対する、聞き取り精度の差だ。

AIを使ったスマートスピーカーに話しかけてもきちんと認識されず、「わかりません」を繰り返したり、全く関係ない反応をしたりする。そこに"AIによる差別"はあるのか――そんな実験をワシントン・ポストが公開している。

ポストの実験でカギになっているのは、英語の発音のアクセント(なまり)に対する、聞き取り精度の差だ。

米国のネイティブと、中国やインドなどの出身の非ネイティブを比較すると、その聞き取り精度には10%程度の違いが出た、という。

AIが学習データの偏りによって、肌の色や性別で差別を生むという"AIのバイアス問題"は、こんなところにも影を落としているようだ。

●ネイティブと非ネイティブの差

ワシントン・ポストが実験に使ったのは、市場を席巻するアマゾン・エコーとグーグル・ホームの2機種(ポストのオーナーが、アマゾンCEOのジェフ・ベゾス氏であるという情報開示はしている)。

2つの専門機関の協力で、米国とカナダ、あわせて20都市、100人以上を対象に全部で数千件にのぼる音声コマンドを試してもらった、という。

専門機関の1つ、テクノロジー製品のローカライズを手がける「グローバルミー」が、まず70の音声コマンドについて検証している。

その結果、グーグル・ホームの音声認識の精度が83%だったのに対し、アマゾン・エコーの精度は86%。

さらに、米国のネイティブは地域によって「西部」「中西部」「東部」「南部」、移民は第一言語によって「インド」「中国」「ヒスパニック」の7分類で比較した。

ネイティブに対する音声認識でも、グーグルとアマゾンでは違いが出ている。

グーグルでは「西部」「中西部」「東部」「南部」の順で精度が下がっていくが、アマゾンでは「南部」「東部」「西部」「中西部」の順。

非ネイティブでは、両社とも「インド」「中国」「ヒスパニック」の順で精度が落ちていた。

グーグルでは、最も精度の高かった「西部」(86%)と、同じ米国内で最も精度の低かった「南部」(83.1%)でも約3ポイントの開き。さらに最も精度の低かった「ヒスパニック」(79.8%)と比べると6ポイントを超す開きがあった。

同様にアマゾンでも、最も高かった「南部」(89.1%)と、米国内で最も低かった「中西部」(87%)で約2ポイントの開き。最も低かった「ヒスパニック」(81.8%)とは7ポイントを超す開きがあった。

「次の曲をかけて」「ソウルをかけて」「全部の曲をかけて」「最近かけたプレイリストをかけて」「もう一度かけて」といった、コンテンツ操作に限ると、発音による認識精度の違いはさらに広がった。

グーグルでは、最も高かった「東部」(91.8%)と最も低かった「ヒスパニック」(79.9%)で11.9ポイントの開き。

アマゾンでも最も高かった「南部」(91.0%)と最も低かった「中国」(81.5%)で9.5ポイントとなった。

●「ニュースの見出し」読み上げを比較する

もう1つの専門機関、音声テストのベンチャー「パルスラボ」が行ったのは、3本のニュースの見出しを対象者に読み上げてもらい、それをアマゾン・エコーで使われているAI「アレクサ」の認識結果と比較する、という実験だ。

スマートスピーカーでは、まずユーザーが話しかけた言葉を音声認識で文字化し、その文字化された文章から自然言語処理でコマンドとして認識し、指示を出す、という処理をしている。

実験では、元のニュース見出しと、音声認識で文字化したものが、どれぐらい違っているかを数値化(「レーベンシュタイン距離」)し、ネイティブと非ネイティブで比較している。

「レーベンシュタイン距離」では、元の文字列と出力(音声認識)された文字列の違いを、その修正回数(挿入・削除・置換)でカウントするため、数値が高い方が認識精度は低いことになる。

それによると、ネイティブと非ネイティブを比較すると、非ネイティブの方が30%も数値が高かった、という。

●"AIによる差別"の問題

ポストがこんな実験をするのは、AIによる人種や性別の"差別"が大きな問題としてクローズアップされてきているからだ。

米ウィスコンシン州などでは、判決の参考データとして、被告の再犯可能性を予測する「再犯予測プログラム」が使われている。だが、機械学習によると見られるこの「再犯予測プログラム」が、黒人に対し、高い再犯予測をすることが、2016年のプロパブリカの報道で明らかになっている。

アマゾンの顔認識AI「レコグニション」が、28人の連邦議会議員を逮捕歴のある人物として誤認識した――米自由人権協会(ACLU)は2018年7月26日、公式ブログでそんな実験結果を明らかにした。

実験に使ったのは、ネットで入手可能だった2万5000人分の逮捕写真。これを「レコグニション」に入力して「犯罪者データベース」を構築。

このデータベースに、535人の上下両院の連邦議会議員の顔写真を判定させたところ、28人が「犯罪者」と認識されたのだという。

また、マサチューセッツ工科大学メディアラボのジョイ・ブオラムウィニ氏らの研究によると、顔認識のシステムでは、有色人種や女性の誤認識率が高いことが判明。色白の男性の誤認識率は0.8%だったのに対し、色黒の女性の誤認識率は34.7%だったという。

ACLUの実験でも、誤認識した28人のうち有色人種は39%で、連邦議会全体での割合、20%を上回っていた、という。

ACLUの実験結果を受け、「犯罪者」と誤認識されたエドワード・マーキー上院議員を含む、上院民主党の5人の議員は7月末、連名で議会の補佐機関である会計検査院(GAO)に対し、政府機関における顔認識テクノロジーの使用状況と問題点について、調査を要求している。

犯歴や顔といったデータでは、肌の色などが"バイアス"のポイントとなった。

そして音声認識の場合は、結果的に米国英語のネイティブか非ネイティブか、つまり移民かどうかが、AIによる不公平な取り扱い、つまり「言語の壁」によるある種の"バイアス"を生み出しているとは言えそうだ。

●出荷は187%の伸び

市場調査会社「カナリス」が8月16日に発表した2018年第2四半期の調査結果では、スマートスピーカーのグローバル市場の出荷台数は1680万台で、前年同期比187%の伸び。

グーグル(ホーム)が32.3%、前年同期比449%という伸びを示してシェア1位となっており、2位はアマゾン(エコー)(24.5%、前年同期比マイナス14%)。この2社で市場の6割近くを占める。

3位はアリババ(天猫精霊、同17.7%)、4位はシャオミ(Mi AIスピーカー、同12.2%)。

アマゾンは前年同期には8割を超すシェアを占めていたが、2018年第1四半期に、初めて1位をグーグルに奪われていた

またコムスコアが2018年4月に発表したデータでは、米国のスマートスピーカーの利用家庭は1870万世帯、WiFiのある家庭の20%にあたるという。

発展途上ではあるが、利用が徐々に広がっていることは間違いなさそうだ。

ポストの実験の結果に対し、アマゾンはこうコメントしている。

特定の音声パターンやアクセントの音声をよりたくさん聴くことで、理解がしやすくなります。アレクサの場合も、同様です。より多くの人々が、多様なアクセントで、アレクサに話しかけることで、アレクサの理解も改善されていきます。

グーグルも同様のコメントをしている。

データセットを拡充していくことで、グーグル・アシスタントの音声認識を引き続き改善していきます。

まだデータが十分ではない、との釈明だ。

アマゾンの場合は言語設定で、英語だけでも「米国」「カナダ」「英国」「インド」「オーストラリア/ニュージーランド」と分かれており、個別のデータが拡充することで精度が上がるということはあるだろう。

●AIとのコミュニケーション

私が自宅で使っているアマゾン・エコーも、音声認識は満足のいくものではない。

アマゾン・エコーでは履歴を見れば、アレクサが音声をどう認識したか、テキストで確認できる。

最近のやりとり、はこんな感じだ。

「(カナダ人のミュージシャン)Mocky(モッキー)をかけて」とアレクサに日本語で話かけたところ、アレクサは「モンキーをかけて」と認識。

「Godiego(ゴダイゴ)の『モンキー・マジック』を再生します」と往年の名曲をかけてくれた。

さらに英語で、「Play Goldberg Variations(ゴルトベルク変奏曲をかけて)」と言ったつもりが、アレクサは「play cold the belk version」と認識。

「Here's a sample of The Cold Hard Truth (Karaoke Version), by A-Type Player」と応答。米カントリー歌手、ジョージ・ジョーンズの曲をカラオケで流し始めた。

AIとのコミュニケーションは、まだハードルが高い。

--------

(2018年8月26日「新聞紙学的」より転載)