データを可視化して傾向や特徴を知ったり仮説を発見したりしたい

前回までのあらすじ

<a href="http://shinya131-note.hatenablog.jp/entry/2015/07/12/153538">kaggle初挑戦: タイタニック乗客のプロフィールから生存率をランダムフォレストで予測してみた - 時系列のフリーランチ</a>shinya131-note.hatenablog.jp

Rインストール
kaggleチュートリアル課題やった

困っていること

与えられたデータがどんな傾向を持っているのか把握したい。
前回は、以下の手段しか知らなかった。
- Rのsummary()関数
- データをawkでcolumn毎に切り出して、sortしたりunic -cしたりwc -lしたり
- Excelに貼り付けてフィルター機能を使う。条件付き書式でヒートマップ作る。

ｼｮﾎﾞｲ!

仕入れた情報

あんちべさん本

データ分析には探索的データ解析(仮説を探す)と仮説の検証があることを知った。
- 分析対象のデータを見て、意味のある傾向を見出そうとするのはたぶん探索的データ解析に当たるんだろう。
データの傾向をつかむ可視化の手段としてヒストグラム、散布図、スライシングなどの便利な手法があることを知った。

<a href="http://www.amazon.co.jp/%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90%E3%81%AE%E5%AE%9F%E5%8B%99%E3%83%97%E3%83%AD%E3%82%BB%E3%82%B9%E5%85%A5%E9%96%80-%E3%81%82%E3%82%93%E3%81%A1%E3%81%B9/dp/4627817711">Amazon.co.jp：データ解析の実務プロセス入門: あんちべ: 本</a>www.amazon.co.jp

みんなのR

ヒストグラム、散布図をRで描写する基本的なやり方を知った。

<a href="http://www.amazon.co.jp/%E3%81%BF%E3%82%93%E3%81%AA%E3%81%AER-%EF%BD%9E%E3%83%87%E3%83%BC%E3%82%BF%E5%88%86%E6%9E%90%E3%81%A8%E7%B5%B1%E8%A8%88%E8%A7%A3%E6%9E%90%E3%81%AE%E6%96%B0%E3%81%97%E3%81%84%E6%95%99%E7%A7%91%E6%9B%B8%EF%BD%9E-Jared-P-Lander/dp/4839955212">Amazon.co.jp：みんなのR -データ分析と統計解析の新しい教科書-: Jared P. Lander, Tokyo.R（協力）, 高柳慎一, 牧山幸史, 簑田高志: 本</a>www.amazon.co.jp

試してみた

kaggleのランキングからcsvデータがダウンロードできる。
前回やったタイタニックのチュートリアルのランキングに怪しい部分があるので可視化してみた。

怪しい部分とはトップ陣の異様な正答率の高さである。
ランキング上位10%の内かなりの割合が正答率80%前後で競っているのに、正答率100%を出している人が何人か居る。
ぶっちゃけチートなのでは無いか(笑)

ハンドルネームがcheaterになっている人とか居るしｗ

散布図を描いてみた。

x軸が順位、y軸が正答率である。

f:id:Shinya_131:20150712220424p:plain

A: ランク7000位付近にx軸に水平な部分が現れる。
- たぶんサンプルコード実行して結果をサブミットしてみた人たちだろう。
B: ランクが上がるに従って僅差の勝負になっていく傾向が分かる。
- 高度化すると、投じたリソースから得られるリターンが減っていくのだろう。
C: だが、一番上位付近の唐突な急上昇は何だ(笑)

ちなみに別の課題のランク+スコアの散布図
こちらはどこかの政府機関か企業か研究所がガチで困っている課題なので世間一般に回答は無い。

f:id:Shinya_131:20150712221456p:plain

2250位付近にA.に近い傾向が見える。幅が小さいのはチュートリアル用の課題では無いからだろう。
Bの傾向も同じ。
Cの特徴は現れていない。

コード

#install.packages('ggplot')
library('ggplot2')

leaderboard<- read.table('~/Desktop/leaderboard.csv', header=T, sep=',')

ggplot <- ggplot(data = leaderboard, aes(y=Score, x=Rank))
ggplot + geom_point()

R力が無なので、Rankは事前にExcelで出した。

感想

Cのような傾向はグラフを描くまで予想してなかった。こう言うのを読み取るというのが、探索的データ解析なのかな?
ある表があるとき、列Aとその他の列の散布図を全部一気に出したい。

メモ

統計

ヒートマップ、統計的要約量、スライシング、外れ値

R

グラフィックの描写、packageのインストールなどの機能が言語に組み込まれてるの面白いな。
なんでpackageのReferenceがPDFなんや…

機略戦記

Maneuver warfare