データサイエンスの始め方

この記事は 個人Qiita と同じ内容です

qiita.com/sekiyaeiji

プロダクトのグロースにデータを活用したい...

サービスグロースにデータを活用したいと思ったとき、わたしはまず最初にどこに着目し、ナニから始めればいいのだろう?

よくわからなかったので調べ始めてみた。

小さなテーマからはじめよう

データサイエンスは、最初、できるだけコンパクトに小さく始めて、その成果をもとに大きく波及させるのが、うまくいきやすいポイントらしい。

小さなテーマを100個ぐらい仕込んで、大きく化けるテーマを探すらしい。

小さく始めると、失敗しても影響が小さく、軌道修正も容易で、何度でもチャレンジできるメリットがあるとのこと。

...で、ナニをやるんだろう

始め方はわかったけど、小さくナニを始めるのか?

活用目的と、活用ストーリーと、分析ストーリー

このデータ分析は何のためにやるのか、を明確にするのが、活用目的を決めることだが、 データサイエンスの世界では、目的を決めるだけでは不十分らしく、 その目的に対して、分析データの活用ストーリーを明確にする必要がある。

分析結果をただ提示しても利用してもらえない

「分析結果がAの場合、1の施策を、また結果がBの場合は、2の対策を実践する」、のような、 結果と活用方法の対応が分かる情報を、 「活用ストーリー」として分析結果とセットで提示すれば、 分析結果は上手に活用してもらえるらしい

また、分析結果と「活用ストーリー」を事前にしっかり設計することにより、 提供すべき分析結果の精度や、確実に活用してもらえるデータ提供が可能になると思われる

そしてさらに、一元的な分析結果ではなく、いくつかの中間データを経て分析結果を得る場合に、 その各ステップや全体の構造を説明したものを、「分析ストーリー」と呼ぶことができる

多層構造を要する分析においてはこの分析ストーリーを明確にすることが 保守の面においても「活用ストーリー」の設計においても大切になってくる

筋のいいテーマ

以上の3つの要素、

  • 活用目的
  • 活用ストーリー
  • 分析ストーリー

が明確で、さらに

  • 成果が大きい
  • やりやすい

テーマは、"筋のいいテーマ"らしい

"筋のいいテーマ"を見つけることが、 確実かつスピーディーに成果を出せるテーマを選択できるコツ、と言ってよさそうだ

よって、必須3要素である、活用目的、活用ストーリー、分析ストーリーを 上手に設計するトレーニングを重ねることが データ分析上達の鍵な気がする

モデルの選び方

チートシート

分析を設計する際に必要になる統計解析・機械学習モデルについて、
世にはチートシートというサンプルモデルも出回っているらしい

モデルの種類と特徴

採りたいデータごとに分析方法を選択して利用する

  • フィッシュボーンチャート 特性要因図
    • 目的変数と複数の説明変数からなる魚の骨状の図
    • わかりやすく、要素を組み立てやすくてかなり便利
  • 線形判別モデル
  • ロジスティック回帰モデル
  • クラスター分析
  • 主成分分析
    • 似たような傾向を持つデータ項目(変数)を集約する
  • グラフィカルモデリング
    • データ項目間(変数間)の構造を描く

分析の実践に役立ついくつかの手法 メモ

小さく始める際に、ジョハリの窓における「開放の窓」を狙うことで、 現場の感覚とズレのない項目から着手する

選択肢の分岐点となる閾値を算出するために、決定木(ディシジョンツリー)を利用する

ニーズ(needs) より ウォンツ(wants) 変革(change) よりも 改善(improvement) つまり、ウォンツ ✕ 改善 の象限から着手する

痛み よりも 楽になること 全体最適 よりも 個々の部署のメリット(メリットの平準化) つまり、楽になる ✕ メリットの平準化 の象限、 できるだけ多くの関係者がメリットを感じられるテーマから着手する

「実験計画法」(少ない実験で効率的にデータを取得する方法論)で、 データ取得計画を作り、実験しデータを取得し、 取得データから「応答曲面法」で設計変数、品質特性の関係性を数式化し、 その数式を使い「数理計画法」により最適な「設計変数値」を算出する

改善・変革系データサイエンスと、データエコノミー系データサイエンス

日本で成果が出ているデータサイエンスはSQCのような改善・変革系データサイエンス

GAFA系が実現したデータエコノミー系データサイエンスへの発展を目指す場合、 各社がふつうのタスクとしてあたりまえに取り組むことと、 社内で始めて自社外への拡大を実践することで、市場向けのデータサイエンスは可能になる

まとめ

データサイエンスに着手するための基本情報を以上の通りピックアップしてみた

大枠として以下を意識してまずは実績を作成してみるのがよさそうだ

  • 小さなテーマを100個作成して、大きく成長するテーマを探す
  • 活用目的、活用ストーリー、分析ストーリーの3要素で設計する
  • 用途に応じて使えるツールと手法のテンプレートが多く存在する

ネクストアクション

次はこれを読んで情報をまとめる予定

それともう一冊、

データサイエンスにおいて『孫氏』は必読の書、らしいが、

どういうことかよくわからないので、とりあえず読まなければならない

参考図書

本稿では以下の書籍を参考にさせていただきました