自然言語処理
WindowsでMeCab Pythonを使う(2010/11/21)のつづきです。形態素解析を使ってると単語が変なところで切れていたり、未知語が多かったりと不満点が出てきます。また、応用によっては、形態素ではなく、複合語単位で抽出したいということもしばしばあります。…
日本語の文章を単語に分割するには形態素解析を使います。日本語の形態素解析には、ChaSen、MeCab、Yahoo!形態素解析などがあります。ナイーブベイズを用いたブログ記事の自動分類(2010/7/3)でMeCabをPythonから使う方法を簡単にまとめましたが、MeCabはよ…
機械翻訳のWebサービスがないか探していたのですが、Google AJAX Language APIってのを見つけました。本来はJavascriptから使うみたいですが、Pythonからも使えたのでまとめときます。結果はJSONでかえってくるのでその解釈にsimplejsonというPythonライブラ…
カイ二乗値を用いた特徴選択(2010/6/25)の続きです。今まで使ってきた20 Newsgroupsというデータは英語文書でかつ元ネタがよく分からずあまり面白くなかったので、今回はこのブログ(人工知能に関する断想録)の記事を分類してみます。このブログの各記事…
相互情報量を用いた特徴選択(2010/6/19)のつづきです。今回は、相互情報量ではなく、カイ二乗値を用いて特徴語を抽出してみます。カイ二乗検定は独立性の検定によく使いますけど、特徴語の抽出にも応用できるってのははじめて知りました。結局のところ相互…
20 Newsgroupsで分類精度を評価(2010/6/18)のつづきです。今回は、特徴選択に挑戦してみようと思います。テキスト分類における特徴とは基本的に単語のことです。 特徴選択 前回、ナイーブベイズの出力結果で documents: 11269, vocabularies: 53852, categ…
ナイーブベイズを用いたテキスト分類(2010/6/13)の続きです。前回、実装したナイーブベイズの分類精度を評価してみます。テキスト分類のベンチマークとして使われるのは Reuters-21578 20 Newsgroups といったデータセットです。今回は、ナイーブベイズの…
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。…
集合知プログラミングのp.349を参考にYahoo!が提供する形態素解析のWebサービスをPythonから使ってみた。形態素解析をWebサービスでやるなんて遅くて使い物にならなくね?ChaSenかMeCab使うよ!って使う前は思ってたのだがやってみたら驚くほど快適。かなり…
Introduction to Information Retrieval作者: Christopher D. Manning,Prabhakar Raghavan,Hinrich Schuetze出版社/メーカー: Cambridge University Press発売日: 2008/07/07メディア: ハードカバー購入: 7人 クリック: 115回この商品を含むブログ (37件) を…
自分が収集した論文データベースを対象にいろいろ言語処理してみようと考え中。そのためにはまずPDFファイルからテキスト部分を抽出できなくてはいけない。調べてみたところXpdfというツールが見つかったので使い方メモ。ソースコードからコンパイルもできる…
集合知プログラミング作者: Toby Segaran,當山仁健,鴨澤眞夫出版社/メーカー: オライリージャパン発売日: 2008/07/25メディア: 大型本購入: 91人 クリック: 2,220回この商品を含むブログ (277件) を見る4章の検索とランキングを読んだ。pythonを使ってシンプ…
2008年4月28日付けの読売新聞夕刊に面白い記事が載っていた。携帯電話の「クロン」(リンク切れ)という新サービスの話。人工無能っぽいけどどうなんだろう?たぶん、この手のサービスは機能的な付加価値が付けば、家電を始めいろいろな分野でブレイクすると…
きたこれ。いつか必ずくると思ってたけど意外と早かったな。アーキテクチャにすごい興味がある。ソース読んでみたいな。 グーグル独占にはさせない Wikipedia創設者が挑む、オープンソース検索エンジンの世界 これぞGoogleキラー?Wikipedia創始者らの手によ…
マイクロソフトも参入、広告分野で注目される人工「無脳」の魅力とは CNETに面白い記事があった。筆者は「よみうささん」とか「BlogPet」の開発者みたい。BlogPetは知ってたけど、「よみうささん」って知らなかったので検索したら筆者のブログ(リンク切れ)…
文章から重要なキーワードを取り出すときの指標となるTF・IDFのプログラムを書いてみた。教科書とかによく出てくるけど試してみたのは初めて。対象としたのは、このブログの509記事。形態素解析にはChaSenを用いた。対象としたのは名詞と未知語。たとえば、…
最近(?)、GoogleやYahoo!でキーワード検索すると下に関連キーワードが出てきますよね。これは自分で入力したキーワードといっしょに検索される頻度が高いキーワードが表示されているらしいのだ。Yahoo! API(リンク切れ)を使うとこの関連キーワードをプ…
ソフトバンクの910Tっていう携帯の機種に変えたところくーまんという面白いアプリがついてた。携帯の待ちうけ画面にくーまんというキャラクターが表示されいろいろしゃべるのだ。そのしゃべる内容が多彩で面白い。何か日時、季節、操作履歴など見て話す内容…
はじめてのAIプログラミング―C言語で作る人工知能と人工無能作者: 小高知宏出版社/メーカー: オーム社発売日: 2006/10メディア: 単行本 クリック: 112回この商品を含むブログ (24件) を見るC言語で人工無能を作ろうという本です。本当はもうちょっと高度な人…
分散情報検索 6次の隔たり P2P クラスター パーソナライゼーション モバイルエージェント 集合知 民主主義 Winny Winnyの技術作者: 金子勇,アスキー書籍編集部出版社/メーカー: アスキー発売日: 2005/10メディア: 単行本購入: 11人 クリック: 307回この商品…
前になんか(AERAだっけかな)でGoogleの野望に関する上の記事を読んだ。最近Googleのやり方ってすごい非効率でないかと思う。だってせっかく分散配置されているデータをわざわざスパイダーで集めてるんですよ?元データのコピーをわざわざ作ってしまってハ…
マルコフ連鎖で文を生成するサンプルを書いた。学習データはこのブログの過去の全文章(約7000文)。生成した文はコメントに投稿してみた。マルコフ連鎖ではまともな文が作りにくいと聞いてたけどはっとするような文も時々出てくるな。下の文は面白かった。 …
Blog Hacks ―プロが教えるテクニック&ツール100選作者: 宮川達彦,伊藤直也出版社/メーカー: オライリー・ジャパン発売日: 2004/08/07メディア: 単行本購入: 6人 クリック: 348回この商品を含むブログ (114件) を見るに面白いハックがあった。人の手を一切介…
面白い記事が載ってた。 人間になりすますウェブ巡回プログラム クローラーは興味があっていろいろ調べていたのだけど、サイト管理人からはやっぱり嫌われてるのね。どれくらい負荷をかけてるんだろう。人間が見るのと同じくらいのものすごいスローペースで…
nanaについての記事を読んで、外部のプログラムからどうやってはてなにコメントを書くのか気になってたんだけどやっとできた。PerlのLWP::UserAgentとpost()を使った。設定しなきゃならない情報は、 mode => 'enter', rkm => '', date => '2006-01-14', user…
人間同士の自然なコミュニケーションを支援する知能メディア技術という報告会へネタ集めのため聴きに行った。黒橋さんの「会話情報学のための言語情報処理」という発表が一番興味持った。Webの超大規模情報から格フレームを自動的に構築するという研究だ。格…
〜マイニングって言うので有名なのは、 データマイニング テキストマイニング Webマイニング の3つあると思う。Webマイニングに興味があったのでサーベイ論文 R. Kosala, H. Blockeel: Web Mining Research: A Survey, SIGKDD Explorations, 2000. を読んで…
自然言語処理の情報を集めたポータルサイト、「言語情報処理ポータル」で自然言語処理の未来像をわかりやすく解説したデモビデオが公開されてます。内容はうすいけど楽しめます。音声なしでさえまともな対話が実現できないのに音声という要素を持ち込んでし…
広大な情報の海へ(2005/08/01)のつづき。スパイダー(spider)とはウェブを横断して、情報を収集してくるプログラムのこと。クローラー(crawler)や検索ロボット(bot)と呼ぶ人もいる。ウェブサーフィンと言うと人がパソコンの前に座ってブラウザを操作…
ブログのテキストマイニング(2005/11/06)の続き。このブログの全文章(本文のみ)を形態素解析にかけて単語にばらし、各キーワードの出現頻度を求めてみた。主に名詞を対象に調べてみたところ下のようになった。学習が大差でトップだとはけっこう意外で面…