夜は短し歩けよ未来大生

未来大生が人工知能を中心に勉強していく上で、学習メモや日記として書いていきます。

夏休みDay2(DQNが分からない)

()# 強化学習のお勉強をした 夏休みの二日目に入った。
さすがにそろそろ勉強し始めなきゃと思って、試験前に勉強していた強化学習の続きをやり始めた。
やり始めてすぐに思ったのは「あ、DQNやっぱりわからねぇ」だった。

DQNがよくわからない

DQNを表した擬似コードとか読んでも流れがよくわからない。
なんというか流れがイメージできなくて納得できない気持ちが大きいと思う。

Target Q-Networkってあるじゃないですか
少し前の時点でのQ-Networkを使ってSt+1の状態でQ値が最大となる行動aを求めるってゆうやつなんですけど
これで学習が収束する意味がわからない
少し前の時点でのQ-Networkってことは、あんまり精度が良くないわけじゃないですか
それを使ってさらに学習を進めていっていいのかなって心配なんですよね
しかも、本の説明にはNetworkの更新に時間差が生まれることで学習しやすくなっているとか書いてあるんですよ!?
さっぱりわからない。。。 実際本に載っているサンプルコードで学習してみるとちゃんと学習できるんですよね(もちろん学習を安定させるためにいろんなことはしてる)

深層強化学習の火付け役だからしっかりと理解したいのに全然わからない。。。
でも最早何がわからないのかもわからない。果たしてDQNを理解できる日は来るのか。。。
なんか勉強してると理解出来なさすぎて精神に来るよ。。。。
数式的な理解する必要があるのかな
この本( つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ )を読むときは、どのくらいの理解で次に進んでいけばいいんだろうか?

理解もせずに次に進んでもいいのか、少なくとも今は全然理解できてない。やばい。理解したいのに。。。。

ちょっと明日本屋さんで別の本を立ち読みとかしてこようかな
ずっと欲しいけど お金がなくて できる気がしなくて買えてない本↓

これからの強化学習

あぁー、夏休みはPRML読もうって思ってたのに。。。