機略戦記

Maneuver warfare

はじめてTokyoR勉強会に参加した

あらすじ

shinya131-note.hatenablog.jp

  • 先週の日曜日にRをインストールして、Kaggleをやり始めた。
  • 大変おもしろいのでもっと勉強する事にした。
  • TokyoR#49参加

生のメモを貼り付けておく

初心者向けセッション(1)

  • iris, みんな大好きiris
  • dplyr ... 「でぃーぷらいやー」?
  • dplyr::mutate(copy.iris, SL10times = Sepal.Length * 10)
  • apply ... 列に関数を適用
  • tapply ... group byみたいなやつ
  • aggregate ... group byみたいなやつ(2)
  • CRAN ... 「しーらん」
  • available.packages() ... CRANのpackage全部取得
  • 標準偏差(sd)、分位点(quantile)、単回帰、重回帰、クラスタリング

TODO: 読む http://qiita.com/matsuou1/items/e995da273e3108e2338e

初心者向けセッション(2)

  • airquality ...iris以外にも色々サンプルデータが入っているんだな。
  • airqualityにはNAのデータも含まれている。
  • 列の選択 ... 列名のベクトル、列添字のベクトル、列添字のベクトルに-を付ける
  • na.ommit ... rubyで言う#compact
  • 行の絞り込み ... iris[boolean,] これでbooleanがtrueのやつだけ選択
  • 行の絞り込み ... subset(data, column == hoge) columnがhogeの行だけ選ぶ、無名関数?
  • ソート ... head(iris[order(iris$Sepal.Length),])

初心者向けセッション(3)

統計検定、幹葉表示、 みんな大好きiris * 、ローレンツ曲線、ジニ係数、ineqパッケージ、ポアソン分布、 馬に蹴られて死ぬプロイセン陸軍兵士 * 、確率質量関数、確率密度関数、離散系、連続系、確率関数、マクローリン展開、推定、パラメーター、最尤推定法、尤度関数、極値、 e、対数、微分、推定値、適合度検定、検定、帰無仮説、対立仮説、統計検定量、期待度数、 カイ二乗分布、期待値、自由度、λ、有意水準、平均への回帰

自己紹介コーナー

リサーチ、コンサルティング、人材系、学生、SNS、ゲーム、自然言語処理、半導体、不動産、遺伝子、医療、博士

pforeach

「Rをおぼえたぞ! 楽しい!」、「forじゃなくてapplyファミリーを…」、foreach、並列化可能。double(3)、クラスタノード、 Rによるハイパフォーマンスコンピューティング、並列化つらみ、Hadley<-神、defaultで並列化、マルチコアにフォーカス

Rではじめる☆文字列処理

言語処理100本ノック、stringrstringibase::Unicode正規化ツラミつらみturami闇を含む出来なくはない実践投入

https://speakerdeck.com/yamano357/tokyor49-stringr-stringi

LT

  • キラキラ新入社員、JapanR, Data Science at Command LineRio
  • 統計/MLで物件探し、DeepLearningで簡単和式便所h2o洗面所を和式便所と判定してしまう
  • JuliaパツキンのチャンネーRの前処理界隈LINQ

http://blog.gepuro.net/ http://www.slideshare.net/weda654/julia-47399228

dplyrがインストール出来なかった

  • Rバージョンアップしたらできた。
  • 参加中にこれ書いた。

shinya131-note.hatenablog.jp

感想

  • プログラミング言語としてのRの話題と、統計解析ツールとしてのRの話題があった。
  • やはり、分からなくても良いので、勉強会に参加すべき。
    • 単語の意味が分からなくても、
      • よく言及される単語は何か(何が重要なポイントなのか)分かる。
      • 何と何がセットで語られるのか(何と何が関連しているのか)分かる。

特に嬉しかった発見

  • データハンドリングのためのライブラリ: dplyrの存在を知った。
  • Rで解析を行う前に他言語で前処理を行う事は一般的な行為なのだと知った。
    • むじろ文字列処理はR以外でやるのがスタンダードなのでは無いか。
    • 遠慮無くRubyで前処理していこう。
  • JapanR, JuliaTokyo などTokyoR以外の勉強会の存在を知った。

  • 今からこれらの発見を活かしてKaggleに再挑戦する。
  • 結果を次回のTokyoRでフィードバックする(したい)。

おまけ: 会場周辺の様子

f:id:Shinya_131:20150718214137j:plain