強化学習におけるヒューリスティクス - 人工知能に関する断創録

強化学習は結局最適解の探索問題にすぎないように思われる（こういうとつまんない感じがするけど）。各状態でどの行動を取ればよいか探索して見つけるのが強化学習の目的だから。

「探索」というと人工知能の基礎分野の1つだが、前にそこ勉強してたときヒューリスティクスってのを知った。ヒューリスティクスとは、問題固有の経験的な知識で探索を効率化するために使われてた。

同じ探索問題なのだから、強化学習にヒューリスティクスが導入できないのかというのが疑問点。おそらく教示はヒューリスティクスに含まれるのではないか。教示は領域固有の知識で学習（結局、探索）の効率をあげるためのものだから。

例えば、迷路問題を考えてみる。棒倒し法で作るような単純な迷路でかつゴールが右下にある場合、ヒューリスティクスの1つとして「右下へ行け」ってのが考えられる。あらかじめエージェントにこのような知識を与えて右下へ行く確率を増やしておけば何も知らないエージェントよりゴールへ早くたどり着けるはず（特に学習の初期段階）。ただヒューリスティクスがじゃまになって最適解が得られなくなる場合が考えられるので、学習が進むにつれ徐々に排除していけばいいと思う。