DRL HW3

GridWorld 訓練結果與路徑展示

展示 HW3-1 ~ HW3-4 的訓練曲線與 agent 路徑。 圖片可替換為實際輸出。

已顯示內容
  • Loss / Avg Return / Win Rate 同圖
  • Agent 路徑靜態圖

HW3-1:Naive / Replay DQN

Static + Random

特色:基礎 DQN 與 Experience Replay,展示最基本的 Q-learning 收斂行為。

訓練設定:4x4,epochs=200;勝率:100.00%(static,100 episodes)

HW3-1 訓練曲線
訓練結果圖(Loss / Avg Return / Win Rate)
HW3-1 路徑
Agent 移動路徑(靜態)

HW3-2:Double / Dueling DQN

Player Mode

特色:Double 減少高估偏差、Dueling 分離狀態價值與動作優勢。

訓練設定:4x4,epochs=200;勝率:70.00%(player,100 episodes)

HW3-2 訓練曲線
訓練結果圖(Loss / Avg Return / Win Rate)
HW3-2 路徑
Agent 移動路徑(靜態)

HW3-3:Keras DQN

Random Mode

特色:Keras 版 DQN,搭配 Huber loss、梯度裁剪與學習率排程。

訓練設定:4x4,epochs=200;勝率:23.00%(random,100 episodes)

HW3-3 訓練曲線
訓練結果圖(Loss / Avg Return / Win Rate)
HW3-3 路徑
Agent 移動路徑(靜態)

HW3-4:Rainbow DQN

Random Mode

特色:Double + Dueling + PER + n-step + NoisyNet

訓練設定:4x4,epochs=200;勝率:15.00%(random,100 episodes)

HW3-4 訓練曲線
訓練結果圖(Loss / Avg Return / Win Rate)
HW3-4 路徑
Agent 移動路徑(靜態)