“Without data you’re just another person with an opinion”
(データがないのであれば、 あなたは意見を持った人たちのうちの1人に過ぎない。)
エドワード・デミング
こんにちは、西田です!
お久しぶりです!
ちょうど1年前に始まったウクライナ戦争ですが、最近重大な展開がありました。世界的にも評価の高い著名なアメリカ人ジャーナリスト、シーモア・ハーシュによって、ロシアとドイツによって作られたノードストリームというガスパイプラインを爆破したのは実はアメリカ政府だったと暴露する記事が最近発表されました。(リンク)
これは爆発のあった昨年11月の時点ですでに一部ではアメリカによる工作の可能性が高いと言われていたのですが、今回の記事はアメリカ政府の情報機関内部からのリークによってこの工作の詳細が明らかにされ、これまでの「推測」にさらに高い「確信」を与えるものとなりました。
ちなみに、シーモア・ハーシュはピュリッツァー賞を受賞することになったベトナム戦争の「ソンミ村虐殺」、イラク戦争のアブグレイブ刑務所での囚人に対する非人道的な扱いなど、その長いキャリアの中で多くのアメリカによる戦争犯罪や違法行為を報道してきた、今となってはあまり見なくなった筋金入りのジャーナリストです。
ちなみに、現在でもアメリカ政府からのコメントは「こうした主張は何の根拠もない全くの誤りだ」というものです。
話は変わりますが、私の住むフロリダ州の州政府は最近ファイザーやモデルナを相手にワクチンに関しての訴訟手続を始めました。先日、州最高裁はワクチンの効果や安全性に関しての情報の提供に関して不正はなかったかを調べるための大陪審の設置を認めました(リンク)。テキサスなど他の州でもワクチンに関する様々な訴訟が始まっています。
これからこの2年の間一般市民の目には伏せられてきたワクチンに関する不正や「偽情報」がどんどんと公になってくるのかもしれません。
政府やメディアはネットやソーシャルメディアにはフェイクニュースが飛び交っているため、規制が必要だと言います。しかし、そうしたフェイクニュースは誰が作り、誰が発信しているのでしょうか?また、それらを規制するにしても、誰が「正しい」「間違っている」と決めるのでしょうか?
もし政府やメディアによって「間違っているかもしれない」情報が拡散されるとき、私達市民はどう対抗していくべきなのでしょうか?
何が正しくて、何が間違っているかがはっきりしないときには、「より正しい」情報を追求していく姿勢が求められるはずです。そのためには対立する情報を知ることができ、さらに自由に議論をすることができる環境が欠かせないと思います。
もちろんただ意見をぶつけ合い議論し続けるのでは、いつまでたっても先に進めないこともあるでしょう。そこで、データを使って検証し、根拠(エビデンス)を提示していく、こうした「データサイエンス」に元々求められていたものが今まさにこれまで以上に求められているのではないかと思います。
それでは、前置きが長くなりましたが、今回もいくつかのデータサイエンスに関する面白いトピックを以下に紹介します。
最近の興味深いデータ関連記事
OpenAIのChatGPTは民主党のプロパガンダマシーン
ChatGPT is a Democrat - リンク
最近ChatGPTというOpen AIというシリコンバレーにある会社によって開発された対話型のAIの話をみなさんもよく耳にすると思います。最近アメリカでこのChatGPTが見事なまでに民主党びいきな答えを返すようにデザインされていることを発見したと話題になっていました。
これ自体は、GoogleやFacebookといったシリコンバレーの多くのテック企業で働く人達は、圧倒的に左寄りで民主党支持の人たちが多いという事実からすると特に驚くものではありません。
しかし、こうしたいわゆる「AI」と言われるものが、ある特定の政党や集団に都合のいいバイアスが入った情報を生成し、それを知らない一般の人たちは「客観的事実」として受け入れてしまうというのは危ない兆候ではないか思います。
詳しくはこちらの記事にまとめましたので、ぜひご覧ください。
AIを使って国民を監視するアメリカ連邦政府
the AI wars have already begun - リンク
フェイクニュースを見破るのはなかなか難しく、知らないうちに間違った情報を信じてしまっているというのはどんな人でもあることです。ネットにはフェイクニュースが多いので気をつけましょうとメディアなどで言われたりしますが、私の住むアメリカではフェイクニュースを一番ばらまいているのは政府やメディアだと言われていたりもします。
そしてアメリカ政府はこうしたフェイクニュースまたはプロパガンダをAIを使って大量に生成し、さらに効率的に拡散させていくための技術の開発に積極的です。
最近では国立科学基金(The National Science Foundation)がいくつかの大学や企業がこうしたツールを研究開発するために必要な数億円ほどの資金を提供しました。こうしたツールの研究開発には2011頃からDARPA(Defense Advanced Research Projects Agency)という防衛省の機関によっても積極的に投資が行われています。
DARPAによるとこうしたツールは「間違った情報や騙すためのキャンペーンを認識し、真実の情報を持って対抗する」ために使われるとのことで、実際には中東の「アラブの春」のときに使われたとのことです。
しかし現在、こうしたツールがアメリカ国内でアメリカ国民に対しても使われるようになる、もしくはすでに使われているかもしれないという状況が明らかになるに連れ、こうした問題を指摘する人が増えてきました。
アメリカでは「何が正しくて、何が正しくない」と決めるのは個人であって政府ではない、という文化があります。それはヨーロッパの歴史をさかのぼったとき、政府が決めるようになったときに全体主義に陥るという反省があるからです。
政府とAIが結びつくというのはすでに中国では当たり前となっていますが、これから「自由国家」を誇るアメリカがどう対応していくのか、世界にとっても目が離せない動きではないかと思います。
私がビジネス・データサイエンスという言葉にうんざりする理由
Why Business Data Science Irritates Me - リンク
企業でデータサイエンティストとして仕事をするとき、多くの人は期待と現実のギャップに驚くことがあります。以前紹介した「さようなら、データサイエンス!」の記事ではクレイジーなアイデアを求めるマネージメントにうんざりした人の話でしたが、今回は別の記事でそういったマネージメントやビジネス側からの要求がクレイジーなだけでなく、アカデミア(大学や研究機関)出身の理論重視の人たちの要求や期待がクレイジーであることも問題として挙げられていました。
記事の著者自身もアカデミア出身で現在は企業で働くデータサイエンティストとのことで、同じようなバックグラウンドを持つ方には参考になるのではないかと思います。
以下の点がそうした問題をうまくまとめられていると思いました。
「現実世界、ビジネスの世界は机上の世界と違いいつも何らかの制約があり、不確実性があり、さらにトレードオフしなくては前に進めません。アカデミア出身の人達の中にはこうしたことをすぐに学びうまく対応できる人がいる反面、いつになっても理論ガチガチで周りの人を苛立たせるだけの人たちもいます。」
「アカデミア系の人たちは彼らの作るモデルやレポートに必要のない複雑さを加えます。それはまるで自分たちがいかに頭がいいかということを証明しようとするかのようです。しかし私達データサイエンティストがお金をもらって雇われているのは、ビジネスの問題を解決するためであって、必要もない「賢さ」をモデルに加えるためではないのです。」
「モデルの精度を上げたいのであれば、入ってくるデータの品質やデータの加工、準備過程を改善することにこそより多くの時間を費やすべきです。しかしアカデミア系の人たちはモデル自体を複雑にして精度を数ポイント上げることに注意を向けます。」
こうした傾向はコロナパンデミックの初期の頃にイギリスのインペリアル大学のコロナ対策チームによるコロナ感染者数、死亡者数の予測モデルでも見られましたね。
業界では「スパゲティー・コード」と言われるような、まとまりのないツギハギだらけのC++のコードによって作られた予測モデルは、なんと940ものパラメーターを持ち(リンク)、そのうちのいくつかのパラメーターの値を変えると300%も予測値が変わってしまうといういい加減なものでした。コロナの過去の感染データを使うわけでもなく、自分たちが勝手に「正しい」と仮定するシナリオに沿ってパラメータを調整することによって感染者数、死亡者数を予測し続けましたが、いつも間違いまくっていました。(詳細はこちらで。)
マスクにはコロナ感染を防ぐ効果がない
最近エビデンスに基づく医療関連の分析において国際的に最高水準と言われるコクランレビューによって、これまでに世界中で行われた「マスクに呼吸器系ウイルスの感染防止に効果はあるのか」に関する78ものRCT(Randomized Controlled Trial / ランダム化比較試験)の分析と評価を行った論文が発表され、マスクを着用するとコロナを含めた呼吸器系ウイルスの感染を防げるという主張には根拠がないということが確認されました。(リンク)
もっとも、2020年の秋にはすでに同じような論文が発表されその時も同じ結論だったので、知ってる人にとっては特に新しさはありませんが(リンク)、今回のレビューにはコロナ(COVID19)の感染に関するものを含め新たに11のRCTが加わっています。
ところで、実は2020年版の論文は政治的な駆け引きのため7ヶ月も発表が送れたということを主任執筆者が暴露していました(ツイート)。2020年4月、世界中がこれからマスクを強制し始めるというまさにそのとき、すでに発表の準備ができていたこの論文を政治的な理由で発表できなかったというのは、コクランレビューの評価を傷つけるものとなりました。
さらに、今回の論文の発表後に主任執筆者の元にインタビューを申し込むメディアとのやりとりが公表されていましたが、それは科学と宗教の違いを学ぶための良い教材とも言えるものでした。そちらに関してはこちらのツイートで解説しているのでぜひご参照いただければと思います。
データサイエンス・ブートキャンプ・トレーニング #29 & #30
次回の「データサイエンス・ブートキャンプ」はこの3月となりますが、いよいよ3年ぶりに日本での開催となっております。こちらはクラスルーム形式での開催となりますが、オンラインでも同時参加できるようになっております。
データサイエンス、統計の手法、データ分析を1から体系的に学ぶことで、ビジネスの現場で使える実践的なスキルを身につけたいという方は、ぜひこの機会に参加をご検討ください!
ビジネスのデータ分析だけでなく、日常生活やキャリア構築にも役立つデータリテラシー、そして「よりよい意思決定」をしていくために必要になるデータをもとにした科学的思考もいっしょに身につけていただけるトレーニングとなっています。
日時:
平日3日間コース: 2023年3月22日(水), 23日(木), 24日(金)
データラングリング・トレーニング 3月開催
データ分析や可視化の80%の時間はデータラングリング(データの加工)に費やされていると言われています。そこで、このデータラングリングのスキルを1から体系的に、そして効率的に身に着けていただくためのトレーニングを3月にオンラインで開催します!
ビジネスの現場でデータを使いこなすために必須なデータラングリングのスキルを身につけたいという方は、ぜひこの機会にご参加を検討ください! トレーニングの受付の締め切りは今週の水曜日の2/22となっております。
日時:
平日2日間コース:2023年3月2日(木), 3日(金)
今回は以上となります。
それでは、素晴らしい週をお送りください!
西田, Exploratory/CEO
KanAugust