TF・IDF - 人工知能に関する断創録

文章から重要なキーワードを取り出すときの指標となるTF・IDFのプログラムを書いてみた。教科書とかによく出てくるけど試してみたのは初めて。対象としたのは、このブログの509記事。形態素解析にはChaSenを用いた。対象としたのは名詞と未知語。たとえば、このブログの1つ前のエントリ

Google AI

Googleが人工知能を構築しようとしているらしい。さすが天下のGoogle様といったところか。そのうちGoogle AIっていう名前でリリースされたりして（笑）

どんなものを考えているのか興味がある。初めて聞いたのだけれど何か文献が出ているのかな？

Googleでは実際に大規模な人工知能を構築しようという試みに取り組んでいるチームがある。人々が考えるほど遠い未来の話ではない。（Page氏）

からTF・IDFを計算し、上位10個のキーワードを抽出してみたところ

構築 天下 リリース 様 チーム 試み 文献 規模 人々 未

となった。えと、本当にキーワード・・・なのか？人工知能という単語がキーワードにならないのはこのブログの他の文章でもよく出てくるため。つまり、IDFが小さい。GoogleやPageが出てこないのはChaSenのせいだ。ChaSenで形態素解析するとGoogleのような英単語は、G, o, o, g, l, eに分解されてしまう・・・ChaSenはあまり精度よくないのかな。

TF・IDF自体の解説は形態素解析と検索APIとTF-IDFでキーワード抽出が分かりやすい。ただ、DF求めるのにWeb検索のヒット数使うってのは一般的なのだろうか。普通は対象文章群の全単語を使うと思ってたのだけど。