読者です 読者をやめる 読者になる 読者になる

inohilog

/var/log/inohiro

Jubatus ハッカソンに参加している(とりあえず1日目)

Jubatus ハッカソン with 読売新聞 に参加している。会場はドワンゴさん(歌舞伎座タワー)。きれい。

ハッカソンということで、土日の両日ですが、もう頭も動かないし体調にも影響でそうなので終電間際に帰ってきた。とりあえず今日やったことを、日報的にメモっておこう。

  • チームビルディングの時間があったけど、マイペースにやりたいので一人チームで
  • Jubatus初めてなので、インストールから始める
    • とりあえずMac OS X で(推奨プラットフォームはCentOS {6,7}と、Ubuntu 12.04 LTS)
    • Jubatus はだいぶ前から知っていた(大学の同級生である suma90h くんが開発メンバーの一人)けど、実際に使ったことはなかった
  • いくつかチュートリアルをやる
    • 特に問題なく動く。簡単!ドキュメントよく揃ってる
    • ドキュメントを見ながら、アルゴリズムについてググりながら、適当にパラメータをいじってどうなるか見るなどする
    • ドキュメントを読んでいるなかで、typo を見つけたのでPRした
  • 次にどうしようかということで、せっかく読売新聞さん共催なので、新聞データでなんかやろうと思う
    • これまでデータ周辺でどういうことやってきた、やりたいのか簡単に聞いてみる
    • 「(物理)記事にある複数の見出しを、Webの記事用に一つにする」というのをやっているらしく、興味深かったが今回のデータではどうしようもない...
  • 分類(classifier)APIチュートリアルを基に、新聞の見出し(ヘッドライン)と記事ジャンルの組合せを機械学習してみる

    • 具体的には、見出しを入れたら適切な記事ジャンルとして分類できるか
    • データの一部(12%くらい)を教師データとして、残りを正しく分類できるか
    • だいたい正解率は50~60%くらい。教師データの割合というか、分量ってどれくらいが適切なんだろう(ベストプラクティス?)。データによりそう...
    • mecab-ipadic-neologd を使ってみると、固有名詞(人名など)を適切に分かち書きできて精度が上がるかなと思ったけど、そんなことなかった(むしろ下がってしまった)
    • クレンジング(前処理)では、空白の除去、全角半角変換(nkf)をやっている
  • mecab を使うためには、Jubatus のインストール(configure時)に --enable-mecabe というオプションを指定する必要があるが、Mac OS XYosemite)では試行錯誤してもダメだった

    • LinuxUbuntu 14.04 amd64)を使うことにしたので、とりあえず動いている
    • sshfs を使って、Atomでファイルが編集できて便利(ゆとり)

いろいろ調べながらやったりしているのもあるけど、時間かかり過ぎである(これしかできていない)。

明日はどうしよう。こういうのはアイデアが重要ですね... 明日また書く。