機略戦記

Maneuver warfare

最近の勉強会で良く言及されている単語を調べたい

こういうことをしています。雑な書捨てスクリプトです。

  • APIでATNDやconnpassの勉強会情報を取ってくる。
  • mecabで形態素解析して単語にばらす。
  • 単語をカウント。
# キーワードに一致するイベントのディスプリプション等を取得
curl -s 'http://connpass.com/api/v1/event/?count=100&keyword=お好きな単語' | jq '.events[].description' >> dump_1
curl -s 'http://api.atnd.org/events/?format=json&count=100&keyword=お好きな単語' | jq '.events[].event.description' >> dump_1

# htmlタグらしき文字列を消す。改行コードを消す。
awk '{ gsub(/<[^>]*>/, "") ; gsub(/\\n|\\t/, "") ; print }' dump_1 > dump_2

# 形態素解析 & 固有名詞だけ抜き出す
mecab --input-buffer-size 8192000 dump_2 | awk '($2 ~ /固有名詞/ ) && ($2 !~ /地域/)  && ($2 !~ /人名/) {print $0}' > dump_3

# 出現回数
cat dump_3 | uniq -c | sort

#rm dump_*

感想

  • 辞書を鍛えないと駄目だ。
  • でも雰囲気は掴める。
  • 技術的キーワードと同じくらいの頻度で特定個人の名前が登場してたりする。