2002-09-27 論文の整理 強化学習 人工知能学会誌の強化学習関連の論文をもう一度読み直して整理し始めた。前は、あまり注意せず読み飛ばしていたようなところで新たな発見がたくさんあった。例えば、Profit Sharingと適格度トレースは意味的に何か違いがあるのか?と最近疑問に思っていたのだが、ある論文の中で説明されていた(あまり明らかではないが)。こういう疑問点はどんどんメモしておかないと忘れてしまうので、整理しながらまとめておこうと思う。