“We think we want information when we really want knowledge. “
(私たちは情報を欲しいと思うが、本当に欲しいのは知識だ)
Nate Silver, 統計学者
こんにちは、Exploratoryの西田です!
先週知人から以下のイチロー選手のインタビューのビデオが送られてきたのですが、データ分析のエッセンスが含まれていて、さすがだなと関心してしまいました。
彼が長い間活躍できたのは、日本、アメリカを通じて体調管理をしっかりやり、その中でも筋肉をつけすぎないように気をつけていたとのことでした。しかし、彼によると、選手の体調管理に関してたくさんの情報が氾濫しているため、多くの選手が筋肉を大きくし過ぎ、その結果故障してしまっている、とのことです。
そんな彼でも筋トレのしすぎは彼にとってよくないと気づくのには6年ほどかかったとのことですが、それでも彼のすごいのはしっかりと観察し、仮説を検証し続けたことですね。
インタビューの中でも言っていましたが、「情報が多すぎてどれをピックアップしていいか」という問題は、われわれ普段データを手にする人間にとっても同じです。ビッグデータと言われるようにデータが増えれば知識も増加する、つまり私たちは進化し、より良い意思決定ができるようになる、と考えがちですが、実際はそうでもありません。
これは、Nate Silverによる「シグナル & ノイズ」と言う本でも詳しく書かれていることです。この本はデータを使って「できること」と「できない」ことに関する考察がわかりやすく物語調に書かれているので、データに興味のある人には大変おすすめです。
データの量と質は違います。さらに質の高いデータであっても私たちにとって役立つ知識は自動的に出てくるわけではありません。本当の知識とは、自分の持つ質問に対して仮説を構築し、その仮説を検証するためのデータを集め、1つ1つ検証していくといった地道な作業から得られていくものです。
こういう地道なことをコツコツと続けることができるから、イチロー選手は世界のイチローなのでしょう。そして、このことは私たちにとっても励みとなるのではないでしょうか。
それでは、今週もいってみましょう!
最近の興味深い英文の記事
AIと機械学習の給料が下落
US AI and Machine Learning Salaries Drop - リンク
ここ数年言われてきたことですが、いよいよアメリカではAIならびに機械学習関連の仕事の給料が下がり始めてきたとのことです。
特にAIや自然言語処理に関連する給料の落ちが激しいようです。
正直言って、ここ最近AI/機械学習の進歩には驚くほどのものはありません。毎年進化していることは確かですが、深層学習が流行ったときほどのブレイクスルーがありません。
そこで、AI/機械学習のアルゴリズムは以前よりも使いやすくなり、さらにUI化(Exploratoryなど)され、自動化されて行く傾向があるので、人材に関して以前に比べて需要と供給のギャップは小さくなってきているようです。
「1つの重要な要因として、より多くの人達がこうしたスキルを習得していることが挙げられるだろう。こうしたスキルを持っている人たちは以前よりも見つけやすくなっている。」
こうした傾向は他の技術スキルでも見られるとのことで、データ関連ではデータ・エンジニアの給料が少し下がっているようです。
「こうした変化は、こうした高度に専門化された仕事を行うためのツールがたくさん出てき始めているからではないか。」
逆に、データサイエンティストの給料はまだ若干ですが上昇傾向のようです。以下は最も給料の高いテック系の仕事トップ10の2020年、2021年の給料の比較です。
この記事にはなぜデータサイエンティストの給料はまだ上昇傾向なのかについて書かれていないため、ここからは私の推測となりますが、データサイエンスの中でも特に「意思決定」に関わるもの、つまりデータ分析系のデータサイエンテイストの仕事はまだまだ自動化されるような気配はなく、そのため需要と供給のギャップはまだまだ大きいのではないかと思います。
モダン・データ・スタック・カンファレンスで学んだこと
What I learned from the Modern Data Stack Conference 2021 - リンク
ここ最近のデータ関連のテクノロジーに関するカンファレンスの「Modern Data Stack Conference」に出席した人が、そこでの数ある講演から学んだことをまとめています。
その中で1つ特におもしろいなとおもったのが、Zenefits や User Interviewsといったスタートアップでアナリティクス・チームの立ち上げに携わった人による講演のまとめです。
組織内でデータやアナリティクスに関するプロジェクトを立ち上げるときには2つのタイプがある。1つ目は「ビッグ・ウィン」と呼ばれるもので、これは組織の文化やチームの成長にとって重要なもの。もう1つは「スモール・ウィン」と呼ばれるもので、これは効率化という点で重要なもの。
ビッグ・ウィンの例としては以下のものが挙げられる。
北極星となる指標を決めること - 収益の向上に何が直接関係あるのか、その発見と改善のためにアナリティクスのスキルを使えるようにする。
コホート分析 - サブスクリプション型ビジネスにとっては最も重要で、ROI(費用対効果)の高い分析。
A/Bテスト - これをやるのは大変だが、これこそがプロダクトの改善を効率的にやっていくために必須の手段。これができると、システム的に組織の文化が変わっていく。
スモール・ウィンの例:
ダッシュボード - 何がうまくいってるか、またはうまくいってないか、といった毎日の質問にデータを使って答える習慣をつけていくことができるようになる。
レポートの自動化 - 多くの人たちはたくさんの仕事をエクセルで毎日手動でやっています。こうしたタスクを自動化することによって貴重な時間を確保することができるようになります。
これからデータを使ってビジネスを改善していきたい、という場合一気にビッグ・ウィンタイプのプロジェクトを始めるよりも、まずはスモール・ウィンのプロジェクトでデータを日常の業務の中で使っていく習慣をつけるのが、確実なステップかなと思います。
もちろん、その場合でもビッグ・ウィンのプロジェクト、特に自分たちにとっての北極星となる指標は何なのかを定義していくということを念頭においておくのは重要だと思います。
また、スモール・ウィン型のプロジェクトで着実に成果を出し、作業を自動化していくことで、より多くの時間を分析に割けるようになるので、ビッグ・ウィン型のプロジェクトを始めていくことができるようになるというのも重要な点ですね。
参考:
プロダクトの成功の鍵を握る指標とゴールの設定の仕方 - リンク
前後即因果の罠
「相関関係は因果関係ではない」とよく言いますが、その中でも「前後即因果の罠」というのが日常生活によくでてくるのでやっかいです。これは、時間軸で前に起きたことが、後に起きたことの原因だと思いこんでしまう罠です。
この罠はあまりにも強すぎて、ふだんこういうことを口うるさく話している科学や統計、データに携わる人達でもころっとはまってしまいます。その例を最近以下のツイートのスレッドで話しました。
収益の成長率よりネット・レベニュー・リテンション率の方がSaaSの企業価値との相関が強い
Customer Success: Leading Growth Beyond Contract Close - OpenView - リンク
SaaS企業への投資で有名な投資会社のOpenViewによる、SaaSにおけるカスタマーサクセスの重要性を説いた記事です。
特に注目したいのが、カスタマーサクセスが追うべき指標についてです。
記事では、カスタマーサクセスが追うべき指標として、ネット・レベニュー・リテンション率を紹介していて、その理由の理由の1つにネット・レベニュー・リテンション率がSaaSの企業価値(売上高マルチプル)と相関することを挙げています。
一見、収益の成長率は企業価値と最も相関が強い指標の1つのように感じますが、実は、ネット・レベニュー・リテンション率の方が、2つの指標の相関の強さを測る指標であるR2乗値が高くなっており、そういった意味のおいても、ビジネスの重要な指標にネット・レベニュー・リテンション率を設定することは合理的と言えそうです。
参考:
データサイエンス勉強会 #22(無料)
いよいよ来週の金曜日の2月18日に「Exploratoryデータサイエンス勉強会 #22」を開催します!
今回も素敵な4人の方たちに、現場でのデータに関する取り組みやデータ分析をする上での問題や解決策などについて内容の濃い話を共有していただく予定です!
私の方からもExploratoryの時期リリースであるv6.9の紹介をさせていただきます。
お時間の都合のつく方は、以下の詳細ページより参加をお申し込みの上ご参加下さい!
「学校からはじまるデータサイエンスの民主化」セミナー(無料)
3月18日(金)に「学校からはじまるデータサイエンスの民主化」セミナーを開催します!
現在日本でも多くの学校でデータサイエンス教育を始めようと計画されていますが、何を学ぶべきなのか、どのようにカリキュラムを組めばよいか、教科書はどうするか、どういったサポート体制が必要か、レベル感は、文系と理系の違いは、などといった疑問を抱えていませんか。
そこでこの度、すでに大学でExploratoryを使って文系理系問わず幅広くデータサイエンスの教育を始められている先生方をお招きし、自らの経験をもとに現場での取り組みや課題などといったお話をしていただけることになりました。
これからデータサイエンス教育プログラムを作っていこうとされている方、また、すでに始められている方にとっても、他の学校の現場での経験から多くのヒントが得られるのではないかと思っております。
もちろん、大学関係者だけではなくデータサイエンス教育に関して興味のある方は誰でもご自由にご参加下さい。学生の方も大歓迎です。こちらのセミナーは無料となっております。
お時間の都合のつく方は、ぜひ参加をご検討下さい!
アンケートデータ分析トレーニング(有料)
アンケートデータを使って顧客をより深く、そして多面的に理解することは、ビジネスや提供するサービスを改善していくために必要不可欠です。
そのために必要な、データの加工、可視化、そして分析に関する手法をまとめて一気に学んでいただくためのトレーニングをこの3月に開催予定です。
アンケートは行っているが、その回答データをビジネスに活かしきれていないというお悩みをお持ちの方はぜひご参加を検討してみて下さい!
日時: 2022/3/11(土)
講師:西田勘一郎、村里郁哉、白戸敬登
今週は以上です!
西田, Exploratory/CEO
KanAugust