“Everything should be made as simple as possible, but not simpler”
「全てのものは可能な限りシンプルであるべきだ、しかしそれはよりシンプルというわけではない。 」
— アルバート・アインシュタイン
(西田) 物事を説明するのに複雑なモデルよりも、シンプルなモデルのほうが有用であり、真実に迫るものである。しかし、シンプルにすることが目的になってしまい、的確に説明できなくなってしまう、と言っているわけではない。
こんにちは、西田です!
先週は「データサイエンス・ブートキャンプ」を開催していたのですが、今回も多くの方に3日間楽しんで学んでいただき、無事に終えることができました。5年前に始め今回で28回目となるブートキャンプですが、コロナでリモートになっても中断することなく、このプログラムを通して多くの方と巡り会い、一緒に学んでいくことができるというのは、大変幸せなことであります。
さて、先週はイギリスのエリザベス女王がお亡くなりになりました。今週は国葬ということで、世界中の指導者たちが一斉にイギリスに集まり、日本からも天皇陛下ご夫妻が参列されるということで、連日大きく報道されているようです。
こういうときに不思議なのが、メディアはマスクをしないことが当たり前のイギリスの光景をどのように日本に住む人達の目の前に見せるのだろうかということです。マスクをすることが異常とされる世界と、マスクをすることが当たり前とされる世界のギャップを目にしたとき、私達人間は自ずと(意識するか無意識かは別にして)説明を求めます。
なぜなのかと。
なぜ、マスク着用率が90%以上で、ワクチン接種率も世界でトップレベルであるにも関わらず、感染者数は世界でダントツで一番なのかと。
(ちなみに、このギャップに答えようとしたらコメディになってしまったというおもしろいビデオがあります。)
ここで、当初解決しようとしてた問題の解決を忘れ、新しくこじつけた問題の解決のため、というような説明をし始めるとき、私達人間は複雑性の罠にはまっていき、なかなか抜け出すことができなくなってしまいます。
そこで今回は、なぜ複雑なものに人間はだまされやすいのか、またより多くのデータがあれば優れていると思ってしまうのか、といった点に関した記事を紹介したいと思います。
最近の興味深い英文の記事
シンプルなものがよくても、複雑のものの方がよく売れる
Simplicity is An Advantage but Sadly Complexity Sells Better - リンク
データサイエンスの世界ではついつい複雑なものの方が優れている、と思いがちです。なにか複雑なモデルや数式などを見せられると、それだけで何かすごいものであるかのように見えます。
しかし、現実はそんなに単純ではなく、シンプルなモデルや分析手法のほうが実際に起きている問題を解決するには役に立ったりすることが多いです。これは以前にも紹介したのですが、ビジネスにおけるデータ分析ではテーブル形式のデータを使うことがほとんどですが、そうしたデータを使った予測モデルはよりシンプルなツリー系(ランダムフォレストなど)モデルの方がより複雑な深層学習系モデルよりも優れた結果が出ます。
なぜ表形式データの場合、ツリー系モデル(ランダムフォレスト、XGBoostなど)が深層学習モデルに勝るのか - リンク
これは特にデータサイエンスの世界に限ったことではなく、科学の歴史を勉強するとそういう例で溢れているということに気づくはずです。地動説を説明するコペルニクスが出てくるまでは、天動説が当時の学界では受け入れられていたわけですが、その天動説で夜観察される天体の星の動きを正確に説明するためにはものすごく複雑な理論が必要でした。
最近でもこういう例はたくさんあります。例えば、この20年の間の最も偉大なイノベーションは何かと聞かれれば、AppleのiPhoneと言っても過言ではないでしょう。なにせ、iPhoneの登場によって世の中の様々なものがソフトウェアによって置き換えられてしまいました。
とにかくボタンが多く、さらに機能もたくさんあったのですが、それらにたどり着くためには複雑怪奇な道のりをたどっていかなくてはいけないため、使い勝手が悪かった当時のモバイル(携帯、スマホ)は、直感的に使えるシンプルなユーザー・インターフェースを持つiPhoneによって一気に置き換えられてしまいました。
それではなぜ、私達はいつも複雑なものに引き寄せられてしまうのでしょうか?例え最後はシンプルな方が複雑なものよりも勝つとわかっていたとしてもです。
まさにこの点に関して書かれていたエッセイがあったので、一部を紹介します。
なぜ複雑さは売れるのか?
複雑さは努力してるように見える。より多くの機能や部品がついてるシステムはより少ない機能や部品がついてるシステムに比べて、作るのにより多くの努力を要したかのように見える。
複雑さは職人芸のように見える。たくさんのものが複雑に絡み合っているシステムは、それを作った人がそれぞれの細かいところまで目が届き、それらをうまく組み合わせる能力があるかのように見えます。多くの人がアクセスできないようになっていて、難しい言葉や業界の人にしかわからない言葉で書かれた論文はあたかもその分野についての専門的な知識を持っているように見えます。
複雑さはイノベーションであるかのように見える。まったく新しいモデルの仕組みを開発したことを示す論文は、既存の仕組みを応用したモデルについての論文よりも、より斬新で革新的であるかのように見えます。一から作ったシステムは、既存の部品を再使用したシステムよりもより「発明」的に見えます。逆に、既存のものを再利用したり、その上に築き上げたようなものはまるでイノベーションではないかのように思う人もいるほどです。
なぜ、シンプルなものの方がいいのか
シンプルなアイデアや機能は理解するのも使うのも簡単です。これはより多くの人達に採用されることになり、それによってより大きなインパクトを社会に与えることになります。こうしたものは他の人に伝えるのも、フィードバックをもらうのもより簡単です。逆に、複雑なシステムは説明するのも管理するのも大変です。ユーザーにとってはどうやって使うのか、何ができるのかといったことを理解するのも大変です。たくさんのボタンや機能がある分、よく間違えることも多くなってしまいます。
「複雑さはイノベーションであるかのように見える」という点について、これもAppleの話が参考になるかと思うので、ここに付け加えておきます。
多くの人はスティーブ・ジョブズがAppleに復帰した後に、MacOSを新しく作り出したかのように思っていたりしますが、実はそうではありません。Appleに復帰する前のスティーブ・ジョブズの会社であるNextという会社のNext ComputerのOSをベースにして作れらたものなのです。
さらに、iPhoneが初めて出てきた時もその見かけや動くさまが当時のMacOSに比べて大きく違ったので、多くの人はまったく新しいOSをスティーブ・ジョブズのチームが作ったのだと思いましたが、実はMacOSを必要最小限にコンパクトにしたものをベースにして作られたものだったのです。
イノベーションとは、何も一から全く新しいものを作るということではなく、むしろ新しいまたはまだ解決されていない問題を誰よりも「シンプル」に解決することこそが求められるので、新しいものを作るか既存のものを使うかはどちらでもよく、むしろ既存のものを使い合わせたほうがうまくいく場合は多いという例で歴史は満ちています。
意思決定にはより多いデータが必要というのはほんとうか?
ビッグデータといった言葉が流行ると、多くのデータ量によってより良い予測モデルが作れるようになる、より多くの知見が得られるようになる、より良い意思決定ができるようになる、などと思い込みがちです。
しかし、ほんとうにそうなのでしょうか?
そこで、今回は少し古い記事になるのですが、起業家のアダム・ロビンソンという人が、より多くのデータはより良い意思決定につながらないどころか、むしろそれは危険な間違いにつながってしまうこともある、という点を今から半世紀前ほどに行われた研究をもとに解説している記事を見つけたので、こちらにブログポストと要訳と考察を書きました。
意思決定にはより多いデータが必要というのはほんとうか? - リンク
データドリブン広告企業としてのApple
Apple Finds Its Next Big Business: Showing Ads on Your iPhone - リンク
さきほど、Appleの話を取り上げましたが、またAppleネタです。
Appleと言えば、上記にも上げたようにシンプルで直感的に使うことができるプロダクトを作っている会社というイメージがあります。Macbook、iPhone、Apple Watchなどたくさんあります。
しかし、Appleのビジネスの中で急成長している部門が合って、それは広告です。実はアップストアなど以外にも、マップ、Apple TV、iBook、ポッドキャストアプリ、など、Appleが広告を出せるところはいっぱいあるのです。
現在広告事業はすでに一年で6000億円ほど($4ビリオン)とのことですが、これから大きく伸びることが期待されています。というのも、Appleは私達が毎日使うMacbook、iPhone、Apple Watchなどから様々なデータを「パーソナライゼーション」という名の下に集めることができるのです。
Facebookなどの他の会社が同じようなことをするのは「プライバシー」の名の下に禁止しますが、自分たちには同じルールが適用されないということらしく、この広告市場はAppleの独占となるのかもしれません。
データサイエンス・ブートキャンプ・トレーニング #29
次回の「データサイエンス・ブートキャンプ」は来年1月の3日間集中コースとなっております。
データサイエンス、統計の手法、データ分析を1から体系的に学ぶことで、ビジネスの現場で使える実践的なスキルを身につけたいという方は、ぜひこの機会に参加をご検討ください!
ビジネスのデータ分析だけでなく、日常生活やキャリア構築にも役立つデータリテラシー、そして「よりよい意思決定」をしていくために必要になるデータをもとにした科学的思考もいっしょに身につけていただけるトレーニングとなっています。
日時:
9月 平日3日間全日コース: 2023/1/18(水), 19(木), 20(金)
SaaS/サブスクリプションアナリティクストレーニング 12月開催
SaaSやサブスクリプションビジネスの改善に必須である、ビジネス指標(KPI)の定義、コンバージョンやチャーン(解約)の要因分析、さらにそれらの先行指標となるエンゲージメントの計算方法や分析手法といったものを一気にハンズオンを通して学ぶことで、即現場で使えるスキルを身につけていただくためのトレーニングです。
日時: 12月 平日2日間コース: 2022/12/8 (木)、9 (金)
Exploratoryでは現在エンジニアの方を募集中です!
UIを使ってデータサイエンスを簡単に行うことができるExploratoryデスクトップ、そしてデータサイエンスやデータ分析をチームで行っていくためのプラットフォームであるExploratoryサーバーの開発をいっしょに行っていただけるエンジニアの方を、現在募集中です!
興味のある方はぜひ以下のページより詳細をご確認ください!
今週は以上です!
それでは、引き続きよろしくお願いいたします!
西田, Exploratory/CEO
KanAugust