『コンピュータにかわいいを学習させたら...』 の感想
- kaggleなどのデータコンペに参加する際、データをいかに分析していくべきかよく迷うことがあります。またそういう疑問から実際にデータサイエンスの現場ではどのようにデータを分析をしているのか興味を持っていました。そこで今日は『コンピュータにかわいいを...』を読み、その感想を書きたいと思います。
最初にこの本を読んで重要だと思ったことが二つあります。
・データ分析の流れを把握する
・データをまずは俯瞰することが重要でまずはグラフの基本10パターンに当てはめてみる。
<データの流れ>
一つ目のデータ分析の流れについて説明します。
- データの準備
- データの可視化
- データの分析
- データの運用
(BIツールを使用時の流れ)
- データの準備
"戦略を立てる上で重要なことは正しい答えを見つけることではなく、正しい問いを見つけることである(ドラッカー)"
まずは正確な出発点に立たなければ、正しい答えに行き着くことはないと思われます。また、データのクレンジングも重要な仕事になると思われます。例えば「売り上げ100万円」という記録が残っていたなら、「売り上げ」「100」「万円」に分割する必要がありそうです。また「100」は全角表示であるため「100」と半角表示にする必要がありそうです。このようにデータ分析をする前にすることが多くあるのだと思いました。
2. データの可視化 / 3. データの分析
著書では戦死者と衛生環境の関係性についてナイチンゲールが行った分析が紹介されていました。詳細については省略しますが、人が認知できるところまで落とし込むことでより自信を持って決断の手助けができるのだと思いました。
4. データ運用
今回はBIツールに着眼点をおいているためクリックひとつでデータを可視化し、問題点を解決することを目標にしています。ここで印象的だったことはいかに早くデータを可視化・分析できるかということです。もちろん仮説検証を行いじっくりデータと向き合うことも大切と思いますが、まずは全体像を知るために素早くあらゆる観点でデータを可視化する試みが重要だと思いました。
<可視化・分析のパターン>
冒頭でも述べたようにデータの可視化のパターンは大きく10個あります。
ここではひとつひとつの説明は省きますが、気になることがありましたら調べていただければと思います。
- ベン図 データのグルーピング
- メッコチャート 要素の関連性と大小関係
- ランキング 重要度の明確化
- パレート図/ABC分析 何が重要かの把握
- 変化の可視化 クロスセル、計量経済でもよくある観点
- レーダーチャート 指標を一目で理解する
- KPIの体系化 ツリー状にして対象を比較
- 顧客動向の可視化 時系列で新規顧客・客層の把握
- 減衰率・安定率 顧客の他者への乗り換えを理解
- ヒートマップ
以上が主な10パターンになります。
これらの方法以外にももう少し可視化方法は紹介されていますが、僕はここの辺がメジャーなのかなと思いました。これまで特徴量を探索する時は場当たり的にしてきましたが、これからは体系だった分析をしていきたいです。