こういうことをしています。雑な書捨てスクリプトです。
- APIでATNDやconnpassの勉強会情報を取ってくる。
- mecabで形態素解析して単語にばらす。
- 単語をカウント。
# キーワードに一致するイベントのディスプリプション等を取得 curl -s 'http://connpass.com/api/v1/event/?count=100&keyword=お好きな単語' | jq '.events[].description' >> dump_1 curl -s 'http://api.atnd.org/events/?format=json&count=100&keyword=お好きな単語' | jq '.events[].event.description' >> dump_1 # htmlタグらしき文字列を消す。改行コードを消す。 awk '{ gsub(/<[^>]*>/, "") ; gsub(/\\n|\\t/, "") ; print }' dump_1 > dump_2 # 形態素解析 & 固有名詞だけ抜き出す mecab --input-buffer-size 8192000 dump_2 | awk '($2 ~ /固有名詞/ ) && ($2 !~ /地域/) && ($2 !~ /人名/) {print $0}' > dump_3 # 出現回数 cat dump_3 | uniq -c | sort #rm dump_*
感想
- 辞書を鍛えないと駄目だ。
- でも雰囲気は掴める。
- 技術的キーワードと同じくらいの頻度で特定個人の名前が登場してたりする。