データジャーナリズムは難しくないし、未来はすでにここにある

データの偏重はニュース判断を誤らせる可能性をはらんでいるし、データそのものが偏向、歪曲されたものであれば、それを使ったデータジャーナリズムは誤報を生むことになる。
|

5月から6月にかけて、米国オランダの2つのネット講座「MOOC(ムーク、大規模公開オンライン講座)」を受講している。いずれもデータジャーナリズムの入門講座で、無料だ。

受講者は米国の方が151カ国から4400人で、オランダの方は2万1000人(国別情報なし)。世界195カ国だから、国の数だけ見れば、8割近い国から参加していることになる。

ためしに、受講者の国別分布をグーグルマップにのせてみた。こんな感じになる。

欧米はもちろんだが、南米やアフリカなどからも大勢の受講者が来ている。世界的な関心の高まりがわかる。

データジャーナリズムの手法や考え方は、報道だけでなく、コンテンツ形式の広告「ネイティブ広告」や、ブランド(企業)自身が発信する「ブランドジャーナリズム」など、その応用範囲も広がってきている。そんなことも、背景にあるのかもしれない。

コロンビア大学ジャーナリズムスクールのデジタルジャーナリズムセンター(トウセンター)は5月末、この2つのネット講座の取り組みや、直近の実践例なども網羅した最新の報告書「データ駆動ジャーナリズムの技法」(PDF)を公開した。

報告書は、SF作家ウィリアム・ギブスンさんの名言をもじって、こんなことを言っている。

脱工業化したジャーナリズムの未来はすでにここにある――ただまんべんなく行き渡っていないだけだ。

●物語のスキルとテクノロジー

報告書をまとめたのは、テックブログサイト「テックリパブリック」のコラムニストで、5月までトウセンターのフェローだったアレックス・ハワードさん

報告書の副題は、こううたっている。「ジャーナリストが新しいテクノロジーを物語のスキルと組み合わせれば、文脈と明確さを伝えることが可能になり、そして私たちは世界をもっとよく理解できるようになる」

データジャーナリズムを紹介した本は、2012年に公開された「データジャーナリズム・ハンドブック」などいくつかある。

ハワードさんの報告書は、データジャーナリズムのキーパーソンたちのインタビューを中心に、その現状についてアップデートし、課題と提言、展望をまとめたものだ。

●14項目の提言と展望

この報告書の目玉は、現状分析に基づく14項目の提言と展望だ。

データジャーナリズムは、この数年で急速に広がってきた一方、データから導き出すニュースの正確さやデータの透明性、さらにはプライバシー保護の問題など、様々な批判もある。

フォーブスは6月1日付けで、「これがデータジャーナリズムが失敗している理由だ」という記事を掲載しているのも、そんな批判を受けたものだ。

当ブログでも、「データジャーナリズムでやってはいけないこと」などで、その問題点を紹介してきた。

一方では、データジャーナリズムが、ビジネス的、戦略的にどんなインパクトを持つのか、逆に、リソースも限られる地方紙などで可能なのか、という疑問も指摘されている(ジャーナリストのサム・ペトゥーラさんがこんなブログ記事を書いている。「データジャーナリズムを予算内で実現する:簡単な5つのステップ」)。

ハワードさんは報告書で、それらデータジャーナリズムが抱える問題点についても、方向性を示している。

【1】データは今後さらに、メディアの戦略的リソースになるだろう

これには様々なポイントが含まれる。

一つは記事データベースなどアーカイブの活用による、直接的なビジネスの側面だ。

報告書でも紹介している調査報道NPO「プロパブリカ」の〝データストア〟のように、プレミアムデータの販売を収入源とすることもできる。

さらに、「『マネーボール』理論をニューヨーク・タイムズに応用してみた」でも紹介したように、ニューヨーク・タイムズでは、自社内にあるウェブサイトへのアクセスデータの解析から、それぞれの記事の〝パフォーマンス〟を測定。その改善にも取り組んできた。

ただ、その先頭に立ってきたタイムズの中心人物、デジタル戦略担当編集局次長のアーロン・フィルホファーさんは、英ガーディアンに移籍。新設のデジタル担当編集主幹に就任することになった。

ジャーナリストとエンジニアの国際的なネットワーク「ハックス・アンド・ハッカーズ」や、調査報道のためのクラウド型資料共有サービス「ドキュメントクラウド」を創設するなど、フィルホファーさんはメディアの枠を超えてデータジャーナリズムを代表する存在だ。

それだけに、移籍はタイムズにとって痛手だろう。タイムズのスタッフが、フィルホファーさんの送別サイトまで立ち上げている。

【2】データスキルを広めるようなさらにすぐれたツールが登場するだろう

データジャーナリズムの基本はエクセルだと言われる。

ただ、初心者でもそれなりのことができてしまう、使い勝手のいいビジュアル化ツールは他にもいろいろある。

MOOC受講者の分布マップで使ったのは、グーグルのフュージョンテーブルというツールだ。

冒頭の地図は、色の濃淡でデータ量を示す「ヒートマップ」。同じ国別受講者数のデータを使って、マークをクリックすると吹き出しウィンドウに情報が表示される、というマップも簡単につくることができる。

この他にも、「タブローパブリック」というツールでも、様々なデータの視覚化ができる。

同じMOOC受講者のデータで、タブローを使うとこんな感じになる

ごく単純な使い方だが、この程度のことならエクセルの初歩さえわかっていれば、すぐにできる。

もともと、英ガーディアンで「データブログ」を手がけたサイモン・ロジャーズさん(現ツイッター社データエディター)ら先駆者たちは、これらのツールを活用して、ほぼ〝個人芸〟でデータジャーナリズムの取り組みを始め、その規模を広げてきた。

大半のツールは無料だし、始めるハードルはそんなに高くない。

報告書ではさらに数多くのデータツールを紹介している。

【3】データジャーナリズムにユーザーが接する手段として、ニュースアプリが急成長するだろう

ユーザーがニュースを読むだけでなく、そのもとになったデータを自由に検索できるような〝ニュースのアプリ化〟は、やはりデータジャーナリズムの大きなトレンドだ。

当ブログ「データジャーナリズム賞を受賞した7作品」でも紹介したように、ニュースアプリの取り組みは、どんどん幅も広がっている。

例えば、トムソン・ロイター「コネクテッド・チャイナ」を見ると、その可能性が一目でわかる。

プロパブリカのニュースアプリエディター、スコット・クラインさんは、こう表現する

ニュースアプリはストーリーを伝えるだけではない。あなたのストーリーを伝えるのだ。

プロパブリカでは、ニュースアプリ作成のためのガイドラインもつくっているという。

【4】デジタルファーストになるということは、データ中心であり、モバイル親和性があるということだ

モバイルシフトは、ジャーナリズムに限らないが、ニューヨーク・タイムズの「NYT NOW」など、その実践例も次々に出てきている。

【5】ロボットジャーナリズムはさらに広がるだろう。だが、人間関係、物語のスキルがなお重要だということは忘れずに

ロサンゼルス・タイムズの記者・開発者のケン・シュウェンケさん自作のプログラム「クエイクボット(地震ロボット)」は、記事を自動生成させる取り組みロボットジャーナリズム」の一つの代表例だ。

米地質調査所(USGS)からの地震発生メールを受け、関連性を判断した上で、ロサンゼルス・タイムズのブログに記事体裁の地震速報を投稿する、という仕組みだ。

記事自動生成の「ナラティブサイエンス」など専門業者もすでにある。

ロボットにはできない取材と記事とが、ジャーナリストには求められるのだろう。

【6】ジャーナリストたちはもっと社会科学と統計学を学ぶ必要に迫られるだろう

データジャーナリズムの始祖として知られるノースカロライナ大チャペルヒル校の名誉教授、フィリップ・メイヤーさんが1960年代末に提唱した「プリシジョン(精密)ジャーナリズム」は、ジャーナリズムに社会科学の手法を取り入れたものだった。

データの扱いを理解した上でジャーナリズムに活かすには、あわせて統計学の基礎知識が必要になるのは、その通りだろう。

【7】データジャーナリズムは、正確さと訂正についてのより高度な規範に従っていくことになるだろう

データジャーナリズムでは、データ分析とその視覚化がコンテンツの説得力を支える。ただ、データの意味合いを元の文脈から切り離してしまうと、データは同じでも全くの誤報になる、という事態が起きる。

イスラム武装勢力ボコ・ハラムによる女子学生200人以上が誘拐された事件に絡み、データジャーナリズムサイト「ファイブサーティエイト(538)」が報じた2つ記事が、まさにその〝データ誤報〟だとして、批判を浴びた

情報源としたデータ収集サイト「GDELTプロジェクト」では、誘拐事件についてのメディアの報道件数を集計しており、数字の上昇はメディアの関心の高まりを示すものだった。これに対し「ファイブサーティエイト」の記事では、誘拐事件の発生件数として扱い、状況が悪化している、と報じていた。

エコノミストのアンドリュー・ホイットビーさんは、「悪いデータジャーナリズムへのガイド」というプレゼンテーションの中で、4つのポイントを指摘している。

「正しいストーリーを選ぶ」「複雑さを受け入れる」「統計を賢く使う」「最後に、結論を急がない」

【8】セキュリティと個人データ保護に関する能力がより重要になってくる

ネット上でスクレイピング(自動収集)などによってデータ収集を行い、記事する。だが、それが不正アクセス行為だと批判を受けることもある。

米通信社スクリップス・ハワードの記者、アイザック・ウォルフさんは、電話会社がプライバシーも含む顧客情報をネット上で公開状態にしていたことを発見。これらの顧客情報をダウンロードの上、2013年5月に記事化した

これに対し、同社の弁護士は、記者の行為は〝ハッカー〟であり、コンピューター詐欺及び不正利用防止法(CFAA)違反にあたるとの警告書を送付してきたという。

そもそもこれは電話会社の情報セキュリティの問題であり、ウォルフさんが容疑に問われることはなかった。だが、取材行為に対する同法違反による摘発の可能性は、注目を集めた。

ウォルフさんは、ネット上でのデータ収集に関する注意点をまとめている。

収集だけではなく、その中にプライバシー情報が含まれている場合の、管理や報道の扱いについても、十分な配慮が必要になる。

【9】読者データの収集と利用について、一層の透明性が求められるだろう

読者(ユーザー)のアクセス履歴などのデータを解析し、ニュースや広告をパーソナル化することは、プライバシー問題にもかかわってくる。

読者を知ることは重要だが、そこの仕分けも大切だという指摘。

【10】公的記録、データスクレイピング(収集)、倫理をめぐる衝突が起きてくるだろう

ガネット傘下のジャーナル・ニュースが2012年12月、情報公開請求によって入手した拳銃所持免許の所有者の住所、氏名のリストを、グーグルマップ上に視覚化して、論争を呼んだ。

ジャーナル・ニュースは、いずれも公開情報だとしたが、逆に同新聞社の個人情報が〝拳銃不所持者リスト〟としてネットに公開される事態になった。

データジャーナリズムのツールによって、これまで想定していなかった可視化が行われ、軋轢も生じるという先例だ。

【11】ジャーナリストは図書館、大学とのコラボレーションによって、アーカイブ、データ管理、教育者としての役割を果たせ

特にコラボレーションが必要になってくるのが、データジャーナリズムに関する教育や知識の共有だ。報告書でも、そのために1章を割いている

冒頭で紹介した2つのMOOCは、まさにその実例だ。

米国のMOOC「デジタル時代の調査報道」は、テキサス大学オースチン校が2012年10月から行っているデータジャーナリズム講座の一つだ。

今回は調査報道に焦点を絞り、ピュリツァー受賞者のデータジャーナリストでアリゾナ州立大学教授、スティーブ・ドイグさんや、ヒューストン・クロニクルのリセ・オルセンさんら専門家による5週間のコースを開講している。

もう一つのMOOC「データジャーナリズムの実践:初めの一歩、スキルとツール」は、オランダに本拠があるジャーナリスト研修機関「欧州ジャーナリズムセンター(EJC)」の主催。

講師は、スティーブ・ドイグさんに加え、サイモン・ロジャーズさん、「オンラインジャーナリズムブログ」で知られるバーミンガム・シティ大学准教授のポール・ブラッドショーさんら、こちらも第一人者をそろえた5週間のコースだ。

一部の講義ビデオには、日本語の字幕までついている。

EJCは、データジャーナリズム推進の拠点でもあり、その旗振り役であるリリアナ・ボーネグルさんは、『データジャーナリズム・ハンドブック』の取りまとめも担当した。

グーグルのクロームキャストなどを使えば、講義ビデオをテレビに飛ばして見られる。

特にエクセルやオープンリファインといったツールの使い方を、実際に手を動かして学ぶ場合には非常に便利だ。テレビ画面で講義ビデオを見ながら、パソコン画面でツールの操作ができて、覚えもはやい。

【12】データ駆動によるパーソナル化、予測型ニュースが、ウェアラブル端末のインターフェイスから届けられるようになるだろう

プライバシー保護の問題はあるが、ニュースのパーソナル化とウェアラブル対応は、確かに潮流だろう。

【13】よりダイバーシティ(多様性)をもった編集部がよりよいデータジャーナリズムを生み出すだろう

データジャーナリズムに限らないが、ダイバーシティは重要なテーマだ。

【14】データ至上主義、バッドデータ(悪いデータ)には注意を。スケプティズム(懐疑主義)を忘れずに

データの偏重はニュース判断を誤らせる可能性をはらんでいるし、データそのものが偏向、歪曲されたものであれば、それを使ったデータジャーナリズムは誤報を生むことになる。

スケプティズム(懐疑主義)、つまりジャーナリズムの基本を改めて思い返すことになりそうだ。

(2014年6月8日「新聞紙学的」より転載)