Exploratory Newsletter Vol. 81
この世で真実を話すことほど難しいことはなく、ゴマすりほど簡単なことはない。
フョードル・ドストエフスキー
こんにちは、西田です!
最近、これから日本入国に関しての規制が緩やかになるとの知らせを受けました。2020年の春にコロナ禍が始まって以来、日本に一度も帰れてないだけに、たいへん嬉しいニュースです。
なんとかして、この秋あたりにでも訪問する計画を立て始めようと思っています。そのさいには、この2年半ずっとオンラインで開催していたトレーニングやセミナーなども、コロナ以前のように教室や会場で開催したいと思っているので、そのことを考えただけでも今から楽しみです!
それでは、今回もいくつか興味深い記事を共有させていただきます!
最近の興味深い英文の記事
将来のデータ分析 - ジョン・テューキー
最近、これからのデータサイエンス教育がどうあるべきかに関して考えていたときに、データ分析に関して私が最も尊敬するジョン・テューキー氏によって1962年に書かれた「Future of Data Analysis」という論文を久々に開きました。
そこで、当時の彼の視点から将来のデータ分析の教育とはどうあるべきかについて書かれた部分があったので、こちらで紹介したいと思います。
全ての科学の分野では、事実や既に確立されている理論を教えると同時に、どのように考えるか、何が現在受け入れられ、実際に使われているのかといったことを生徒に教えます。
データ分析も同じことをするべきです。
物理学者であれば、トレーニング期間中にその道を極めたような人たちと長く集中した時間をいっしょに過ごします。
しかしデータ分析者の場合、プロの統計学者と言われるような人でも、トレーニング期間中にプロのデータ分析者と一緒に仕事をする時間は、かなり限られたものとなります。
これには以下の3つの理由があり、それらはこれから変わっていくべきものです。
統計が数学の一部として教えられている。
統計的な正しさに集中するあまり、データ分析という視点が欠けている。
統計学の博士号を持っている人達は、物理学や数学の博士号を持っている人達に比べて、学校の外でプロとして働く人達と一緒に仕事をする時間が圧倒的に少ない。
テューキーは数学的な「厳格な正しさ」というものは実際のデータ分析の際にはそんなに役に立たないどころか、むしろデータ分析を学ぶことを難かしくしてしまい、さらに数学的な理論を覚えることを優先させてしまうことで、現実のデータを分析し、その経験から学んでいくという貴重な機会を奪いかねないと懸念していました。
私達がデータを分析することで得たいものは現実の世界で役に立つ知識です。データ分析手法の理論的正しさを求め、結局は現実の世界で役に立つ知識が得られないのであれば本末転倒です。
この2年半のコロナ禍の間、コロナに関するデータは世界中で誰もが勝手に使えるオープンデータという形で公開されていました。
しかし、データサイエンティスト、データ分析や統計学の専門家と言われる人たちの多くが、そうしたデータを使ってロックダウン、マスク、ワクチンといった対策の効果に関して、自分の仮説を丁寧に検証し、さらに必要であれば意見を変えることで真実を追求し、そこで得た知識を発信することができていたとはとても思えません。
上記のテューキーの「Future of Data Analysis」が発行されたのは1962年で、それからすでに60年も経っていますが、今こそ、同じような間違いを繰り返すのではなく、現実の世界のデータを使い、現実の世界の問題を解決できるような、新しいタイプのデータサイエンスの教育が必要とされていると思います。
ビジュアルを使った機械学習アルゴリズムの説明
MLU-Explain - Visual explanations of core machine learning concepts - Link
機械学習のアルゴリズムがどのように予測モデルを作っているのか、なかなか理解しにくいものがありますが、最近ビジュアルとアニメーションを使ってわかりやすく説明しているサイトを見つけました。英語なのですが、ある程度使ったことや聞いたことのある人であれば、流して見るだけでも理解の向上に役立つのではないかと思います。
BLMを批判して、解雇されたデータサイエンティスト
I Criticized BLM. Then I Was Fired. - Link
ロイターというイギリスに本拠地のあるニュース配信会社がありますが、そこでデータサイエンスチームのディレクターをしていたザック・クリーグマン氏が、2020年春から夏にかけて、BLM(ブラック・ライブス・マター)運動が盛んであったとき、データを元にBLMの主張を批判したことがきっかけとなって、会社から解雇されてしまうということがありました。
最近、そのクリーグマン氏自身による、BLM批判から解雇に至るまでの経緯を語る寄稿がありました。
データに基づき客観的に真実を追求していくと、それは政府、メディア、そして一般の多くの市民に受け入れられている「事実」とは違った「事実」が見えてくることがあります。
本来であれば、「事実」となっていることを疑い、注意深く丁寧に真実を追求し、その結果得られた情報を元に、政府や官僚、既存の利権集団、ビジネスや社会組織などに説明責任を求めていくのがジャーナリズムの役割であり、責任でもあると思います。しかし、ここ数年の間、欧米のメディアは、事実を報道することよりも、意見を報道することを優先させ、そしてその意見はその時の社会で受け入れられやすいものに流されていってしまいました。
そうした中、世界中でコロナ禍が始まり、アメリカでは大統領選挙を迎えた2020年の春、ミネアポリスで起きた警察による黒人の殺人に始まるBLMのプロテスト、そして暴動がアメリカ中に一気に広がりました。
この運動のコアとなるメッセージは、「アメリカには警察による構造的な黒人に対する差別があり、そのため黒人は他の人種よりも警察に殺されやすい。」というものでした。
当時ワシントン・ポストが出した記事によると、過去5年の間に警察によって殺された人のうち、黒人に比べて白人のほうが39%多い。しかし、白人対黒人の人口比は6対1なので、本来は白人のほうがもっと多いはず。そうなっていないのは、黒人に対する差別があるからだというものでした。
しかし、クリーグマン氏はそれまでの他の研究結果にも目を通していたので、これはそんなに簡単な問題ではないことを知っていました。そこで司法省やFBIのデータに基づき調べた結果、彼が導き出したのは:
警察を殺した人達のうち、37%が黒人で、42.5%が白人。
警察に殺された武装していなかった容疑者のうち、34%が黒人で、42%が白人。
警察に殺された武装していた容疑者の場合、白人は黒人に比べて70%多かった。
というものでした。
つまり、アメリカ全体の人口では白人と黒人は6対1かもしれませんが、警察が対峙する容疑者、さらに武装している容疑者における白人と黒人の比という点を考慮すると、必ずしも黒人のほうがただ単に黒人であるからという理由で警察に殺されているとは考えられないのではないか、ということです。
これはなにも彼が初めて導き出した結論ではなく、実は2018年に経済学者で黒人でもあるハーバード大学のローランド・フライヤーという学者が行った調査でも言われていたことでした。彼はもともとBLM運動を支持し、そのメッセージを証明するためにデータ使って調査したのですが、調べてみると白人のほうが、黒人やヒスパニック系よりも警察に銃撃されやすいということがわかったとのことです。
ちなみに、フライヤー氏はその後、この論文を出したことで激しい非難の嵐に遭遇し、さらにその後、出処の怪しいセクハラの容疑をかけられ定職となりました。
それはともかく、クリーグマン氏は彼の調査結果、つまり「警察には構造的な人種差別があるので、黒人は他の人種よりも警察に殺されやすい」ということは事実でないという結論をロイター社内のサイトにポストしました。
In my post, I examined all the data I had compiled, and I cited the Justice Department’s National Crime Victimization Survey and several academic studies (see, for example, here, here, here and here) to help back up my conclusions—in addition to Fryer’s.
すると多くの他の社員からの非難を受けたあと、その投稿は削除されることとなり、さらには人事沙汰になり、最後は解雇という結果になってしまいました。
クリーグマン氏が導いた結論は正しかったのでしょうか?ひょっとしたら、何か重要な視点、データが欠けていた可能性はなかったのでしょうか?結論に至るまでの根拠や、データの計算や解釈が間違っていた、または弱い点もあったのかもしれません。
しかし、社内でのそうした客観的な、事実に基づく議論がされることはなく、ただ感情的な非難の波が押し寄せた挙げ句、削除されてしまったのです。
残念なことに、ロイター通信はその後も「警察によって不公平に黒人が殺されている」というストーリーを後押しするニュースを、2020年BLM運動が盛んでアメリカ中の都市で暴動が起きている中、発信し続けました。
社内で自由に事実に基づく議論が許されない会社が、どうやって既に確立されてしまった「警察には構造的な人種差別がある」というストーリーに対して矛盾するようなニュースが報道できるというのでしょうか。
これは、その後「警察の解体」運動にもつながり、実際にいくつかの都市では警察を解体、さらに多くの都市では警察の予算が削減されるということにもつながりました。残念ながら、その結果そういった都市では犯罪が増加してしまい、黒人が多く住む地域の住民(黒人)は警察の強化を求めるといった、喜劇のような悲劇につながってしまいました。
データを使って事実を積み重ね、真実に迫っていくと、世間一般に広まっている「事実」とは違った真実が見えてくることがあります。しかし、その真実を公言することには代償が伴うことがある場合もあります。
しかし、それにも関わらずアメリカでは、今回取り上げたクリーグマン氏のようにそうした真実を、どんなに非難されても粘り強く主張し続ける人達がたくさんいます。(彼は現在ロイター通信を相手どって訴訟中です。)
こうした話は、ガリレオ・ガリレイが地動説を彼の観察結果(データ)をもとに訴え続け、ついには軟禁されてしまうというその時に、
それでも地球は回っている。
と言ったという話を思い出させます。
私達が今日当たり前のように真実だとして受け取っているものは、そうやって多くの先人が当時一般に受け入れられている「常識」というものを疑い、時の政府や権力者などと戦い抜いてきた挙げ句手にすることができた果実なのだ、という事実を忘れることはできないと思います。
これは、社会的、政治的な話だけでなく、組織の中でデータを分析するさいにも、上司や他の関係者にとって都合の悪い事実が見えてくることもあります。そのとき、その事実を受け入れ、自分たちの行動に対して軌道修正できるのか、または自分たちの信じたいものにだけ目を向けそれ以外は無視することで、軌道修正することなく進み続けるのか。この違いが組織、ビジネス、そして個人の成長に大きな差を生み出すのだと思います。
ちなみに、余談となりますが、彼が解雇になる直前までにロイター通信のデータサイエンスチームのディレクターとしてもらっていた報酬は、日本円にして4500万円ほどだったとのことです。アメリカではテック企業でのデータ関連の仕事の報酬が異様に高いことを過去に紹介したことがありますが、メディア企業でもその傾向はあるようです。
今週のチャート
今年になってからアメリカの株価は全般的に下落傾向ですが、その中でもシリコンバレーに代表されるテック企業が大きく下がっています。そんな中、今年2月にウクライナ戦争が始まったことで、株価が上がっているのがアメリカの軍需産業です。
アメリカには戦争が起きると儲かる人達がいて、そのために戦争が終わってほしくない人達がいる。そして政府に対するロビー団体を通した彼らの影響力は無視できない、そんな暗い事実があります。
データサイエンス・ブートキャンプ・トレーニング #28
次回の「データサイエンス・ブートキャンプ」は9月の3日間集中コースとなっております。
データサイエンス、統計の手法、データ分析を1から体系的に学ぶことで、データリテラシーを高め、さらにビジネスの現場で使える実践的なスキルをつけたいという方は、ぜひこの機会に参加をご検討ください!
日時: 9月 平日3日間全日コース: 2022/9/14(水), 15(木), 16(金)
データラングリング・トレーニング 8月開催
次回の「データラングリング・トレーニング」は8月の2日間コースとなっております。
「データ分析の80%の時間はデータの加工や整形に費やされている」とはよく言われることです。そこで、データを自由自在に操るためのデータラングリングの手法を1から体系的に、より効果的に身につけていただくことを目的とした、2日間コースのトレーニングです。
日時: 8月 平日2日間コース: 2022/8/9(火), 10(水)
アンケートデータ分析トレーニング 8月開催
次回のトレーニングは8月開催となっております。
こちらのトレーニングは、様々な形のアンケートデータからビジネスや顧客サービスの改善につながるインサイトを掘り出すための分析手法を実際のデータを使って手を動かしながら学んでいただくものです。
日時: 8月 平日1日間コース: 2022/8/19(金)
今週は以上です!
それでは、引き続きよろしくお願いいたします!
西田, Exploratory/CEO
KanAugust