SARSA算法

SARSA算法是機器學習領域的一種強化學習算法，得名於「狀態-動作-獎勵-狀態-動作」（State–Action–Reward–State–Action）的英文首字母縮寫。

SARSA算法最早是由G.A. Rummery, M. Niranjan在1994年提出的，當時稱為「改進型聯結主義Q學習」（Modified Connectionist Q-Learning）。^[1]Richard S. Sutton（英語：Richard S. Sutton）提出了使用替代名SARSA。^[2]

SARSA算法和Q學習算法的區別主要在期望獎勵Q值的更新方法上。SARSA算法使用五元組(s_t, a_t, r_t, s_t+1, a_t+1)來進行更新，其中s、a、r分別為馬可夫決策過程（MDP）中的狀態、動作、獎勵，t和t+1分別為當前步和下一步。^[3]

算法

for each step in episode
 执行动作  $a_{t}$ ，观察奖励  $r_{t}$  和下一步状态  $s_{t+1}$ 
 基于当前的  $Q$  和  $s_{t+1}$ ，根据特定策略（如ε-greedy）选择  $a_{t+1}$ 
  $Q^{new}(s_{t},a_{t})\leftarrow Q(s_{t},a_{t})+\alpha \,[r_{t}+\gamma \,Q(s_{t+1},a_{t+1})-Q(s_{t},a_{t})]$ 
  $s_{t}\leftarrow s_{t+1}$ ； $a_{t}\leftarrow a_{t+1}$ 
until 状态  $s$  终止

在選擇下一步動作 $a_{t+1}$ 時，採用ε-greedy策略，即：

以 ε 的概率隨機選擇下一個動作
以 1-ε 的概率選擇可以最大化 $Q(s_{t+1},a_{t+1})$ 的下一個動作

在該算法中，超參數 $\alpha$ 為學習速率， $\gamma$ 為折扣因子。

在更新 $Q$ 時，對比Q學習使用 ${\text{max}}_{a}Q(s_{t+1},a)$ 作為預估，SARSA則使用 $Q(s_{t+1},a_{t+1})$ 作為預估。^[4]一些針對Q學習的提出優化方法也可以應用於SARSA上。^[5]

參考文獻

^ Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994). [2022-07-14]. （原始內容存檔於2013-06-08）.
^ Jeevanandam, Nivash. Underrated But Fascinating ML Concepts #5 – CST, PBWM, SARSA, & Sammon Mapping. Analytics India Magazine. 2021-09-13 [2021-12-05]. （原始內容存檔於2021-12-05）（英語）.
^ Richard S. Sutton and Andrew G. Barto. Sarsa: On-Policy TD Control. Reinforcement Learning: An Introduction. [2022-07-14]. （原始內容存檔於2020-07-05）.
^ TINGWU WANG. Tutorial of Reinforcement: A Special Focus on Q-Learning (PDF). cs.toronto. [2022-07-14]. （原始內容存檔 (PDF)於2022-07-14）.
^ Wiering, Marco; Schmidhuber, Jürgen. Fast Online Q(λ) (PDF). Machine Learning. 1998-10-01, 33 (1): 105–115 [2022-07-14]. ISSN 0885-6125. S2CID 8358530. doi:10.1023/A:1007562800292  . （原始內容存檔 (PDF)於2018-10-30）（英語）.

[1] Online Q-Learning using Connectionist Systems" by Rummery & Niranjan (1994). [2022-07-14]. （原始內容存檔於2013-06-08）.

[2] Jeevanandam, Nivash. Underrated But Fascinating ML Concepts #5 – CST, PBWM, SARSA, & Sammon Mapping. Analytics India Magazine. 2021-09-13 [2021-12-05]. （原始內容存檔於2021-12-05）（英語）.

[3] Richard S. Sutton and Andrew G. Barto. Sarsa: On-Policy TD Control. Reinforcement Learning: An Introduction. [2022-07-14]. （原始內容存檔於2020-07-05）.

[4] TINGWU WANG. Tutorial of Reinforcement: A Special Focus on Q-Learning (PDF). cs.toronto. [2022-07-14]. （原始內容存檔 (PDF)於2022-07-14）.

[5] Wiering, Marco; Schmidhuber, Jürgen. Fast Online Q(λ) (PDF). Machine Learning. 1998-10-01, 33 (1): 105–115 [2022-07-14]. ISSN 0885-6125. S2CID 8358530. doi:10.1023/A:1007562800292  . （原始內容存檔 (PDF)於2018-10-30）（英語）.

[1]

[2]

[3]

[4]

[5]

SARSA算法

算法

相關條目

參考文獻