Policy improvement theorem: For any \epsilon -greedy policy \pi , the \epsilon -greedy policy \pi^{\prime} with respect to q_{\pi} is an improvement, v_{\pi^{\prime}}(s) \geq v_{\pi}(s)
Therefore, v_{\pi^{\prime}}(s) \geq v_{\pi}(s) from the policy improvement theorem
MC with \epsilon-\text { Greedy Exploration }
softamx是另外一種分身摸索與操纵的法子,它既不像greedy算法那样贪心,也没有像 \epsilon- greedy 那样在摸索阶段做随灵活作而是利用softmax函数计较每個arm當選中的几率,以更高的几率去摇下均匀收益高的臂,以更低的几率去摇下均匀收益低的臂。 a r m_{i} 暗示第i 個手柄, U_{i} 暗示手柄的均匀收益, k是手柄总数。
The action-value function q^{\pi}(s, a) is the expected return starting from state s, taking action a, and then following policy \pi q^{\pi}(s, a)=\mathbb{E}_{\pi}\left[G_{t} \mid s_{t}=s, A_{t}=a\right]
v^{\pi}(s)=\sum_{a \in A} \pi(a \mid s) q^{\pi}(s, a)
對付有限的MDP, v_{*} 的贝尔曼最優方程具备独一解。贝尔曼最優方程其實是一個方程组,每一個状况一個方程,以是若是有 n 個状况, 则有 n 個未知数的 n 個方程。 若是情况的动态 p 是已知,则原则上可使用解决非線性方程组的各類法子中的任何一種来求解该 v_{*} 的方程组。 一样, 可以求解 q_{*} 的一组相干方程。