『コンピュータにかわいいを学習させたら...』 の感想
- kaggleなどのデータコンペに参加する際、データをいかに分析していくべきかよく迷うことがあります。またそういう疑問から実際にデータサイエンスの現場ではどのようにデータを分析をしているのか興味を持っていました。そこで今日は『コンピュータにかわいいを...』を読み、その感想を書きたいと思います。
最初にこの本を読んで重要だと思ったことが二つあります。
・データ分析の流れを把握する
・データをまずは俯瞰することが重要でまずはグラフの基本10パターンに当てはめてみる。
<データの流れ>
一つ目のデータ分析の流れについて説明します。
- データの準備
- データの可視化
- データの分析
- データの運用
(BIツールを使用時の流れ)
- データの準備
"戦略を立てる上で重要なことは正しい答えを見つけることではなく、正しい問いを見つけることである(ドラッカー)"
まずは正確な出発点に立たなければ、正しい答えに行き着くことはないと思われます。また、データのクレンジングも重要な仕事になると思われます。例えば「売り上げ100万円」という記録が残っていたなら、「売り上げ」「100」「万円」に分割する必要がありそうです。また「100」は全角表示であるため「100」と半角表示にする必要がありそうです。このようにデータ分析をする前にすることが多くあるのだと思いました。
2. データの可視化 / 3. データの分析
著書では戦死者と衛生環境の関係性についてナイチンゲールが行った分析が紹介されていました。詳細については省略しますが、人が認知できるところまで落とし込むことでより自信を持って決断の手助けができるのだと思いました。
4. データ運用
今回はBIツールに着眼点をおいているためクリックひとつでデータを可視化し、問題点を解決することを目標にしています。ここで印象的だったことはいかに早くデータを可視化・分析できるかということです。もちろん仮説検証を行いじっくりデータと向き合うことも大切と思いますが、まずは全体像を知るために素早くあらゆる観点でデータを可視化する試みが重要だと思いました。
<可視化・分析のパターン>
冒頭でも述べたようにデータの可視化のパターンは大きく10個あります。
ここではひとつひとつの説明は省きますが、気になることがありましたら調べていただければと思います。
- ベン図 データのグルーピング
- メッコチャート 要素の関連性と大小関係
- ランキング 重要度の明確化
- パレート図/ABC分析 何が重要かの把握
- 変化の可視化 クロスセル、計量経済でもよくある観点
- レーダーチャート 指標を一目で理解する
- KPIの体系化 ツリー状にして対象を比較
- 顧客動向の可視化 時系列で新規顧客・客層の把握
- 減衰率・安定率 顧客の他者への乗り換えを理解
- ヒートマップ
以上が主な10パターンになります。
これらの方法以外にももう少し可視化方法は紹介されていますが、僕はここの辺がメジャーなのかなと思いました。これまで特徴量を探索する時は場当たり的にしてきましたが、これからは体系だった分析をしていきたいです。
ARIMAモデル
GCIコンペで時系列データを扱う必要があるのでさらっと復習したいので書きます。
間違いがあれば是非教えてください。
【テーマ】
時系列モデルについての整理
- AR(Auto Regressive)モデル 自己回帰モデル
ytは確率過程(y1, y2, ....yn)
上記をp次の自己回帰モデルという。
・φi(i=1, 2, 3...p)は係数
・残差(ε)の期待値は0、分散は一定のホワイトノイズ
2. MA(Moving Average)モデル
残差(ε)の期待値は0、分散一定のホワイトノイズ
MAモデルは各データは以前の誤差に現在の誤差を加えたもの
3. ARMA(Auto Regressive Moving Average)モデル
ある地点までのデータ(ARモデル(p))にこれからの予測されるノイズデータ(MAモデル(q))を加えたもの。
→ARモデルでは表現できなかったノイズを表すことができる
ARMA(p, q)と表現する
4. ARIMA(Auto Regressive Interated Average)モデル
ARモデルやARMAモデルは定常性が認められる場合のみ使える。逆に定常性が認められないときはどうすのか。
この時、各々の前後のデータの差を取り、その変動分で時系列を取ると近似的に定常的に見えることがある。
Xt = yt - yt-1
Zt = xt - Xt-1 = (yt - yt-1) - (yt-1 - yt-2)
言ったら差分を取ればいいんだね。
5. SARIMA(Seasonal Autoregressive Integrative Moving)
モデル
ARIMAモデルではトレンド要素を削除したが、SARIMAモデルでは季節変動の効果を削除しようとするモデル。
前年の同じ時期の値との差分をとった時系列を作る。
この時系列に対してARIMAモデルを適用する。
以上が簡単なまとめです。
後々pythonなどで実装してみます。
間違いなどがあれば教えていただければと思います。