教師なし学習 - 人工知能に関する断創録

教師あり学習にもいろいろあって全然書き足りないが、さっさと教師なし学習にうつる。教師なし学習はその名の通り教師がいない！つまり、例や正解を教えてくれる人がいないのだ。じゃ、機械はどうやって学習すればよいのか？教師がいなけりゃ、試行錯誤の独学あるのみこれに尽きる。

教師なし学習の一つに強化学習がある。これは、機械が環境と直接やりとりして、環境から得られる報酬だけを頼りに学習していく方法である。ここに正解（もちろん、たくさんの報酬を得られる方法のこと）を教えてくれる教師はいない。機械は環境との試行錯誤のやり取りを通して、自力でたくさんの報酬を得られる方法を学ばなければいけないのだ。こんな感じ。

（注）強化学習は昨日の機械みたいに分類を学習するわけではない（たぶん、分類もできるだろうが）。ここでは、報酬を最大とする行動を学ぼうとしている。

機械：先生ガイナイカラ、正解が分カリマセン。
機械：ジャ、トリアエズ行動1を実行シヨウ。
機械：ガガ、報酬ガゼンゼンエラレナカッタ。モウ行動1は実行シナイゾ。
機械：ヨシ、行動2ヲ実行シヨウ。
機械：ガー、タクサン報酬ガ得ラレタゾ。モウ1回実行シヨウ。
機械：マタ報酬ガ得ラレタゾ。モウ1回！トイキタイガ、モットイイ行動ガアルカモシレナイナ。行動3ヲ選ンデミヨウ。
機械：ヤッタ。モットタクサン報酬ガ得ラレタゾ。

という風に進む。教師がどの行動がたくさん報酬が得られるか教えてくれないので機械は試行錯誤を続けて自分で見つけるしかないのだ。

今、教育問題がいろいろあるけど、教師あり学習の機械と教師なし学習の機械を人間の生徒に置き換えてみると結構面白いと思った。