Имеется дерево состояний (см. рисунок) со следующими характеристиками:
ρ(s2,ρ(s2, \rho(s_2, 5|s1,a1)=|s1,a1)= |s_1,a_1)= 0,6;ρ(s3,ρ(s3, \rho(s_3, 8|s1,a1)=|s1,a1)= |s_1,a_1)= 0,4;ρ(s4,ρ(s4, \rho(s_4, 9|s1,a2)=|s1,a2)= |s_1,a_2)= 0,4;ρ(s5,ρ(s5, \rho(s_5, 3|s1,a2)=|s1,a2)= |s_1,a_2)= 0,6.
На этом дереве задана стратегия:
π(a1|s1)=π(a1|s1)= \pi(a_1|s_1)= 0,9; π(a2|s1)=π(a2|s1)= \pi(a_2|s_1)= 0,1.
Вычислить vπ(s1)vπ(s1) v_{\pi}(s_1) .
Справочно:
vπ(s)=Mπ[Gt|St=s]=Mπ[T∑k=t+1γk−t−1Rk∣∣∣St=s].vπ(s)=Mπ[Gt|St=s]=Mπ[∑k=t+1Tγk−t−1Rk|St=s]. {v_\pi }(s) = {M_\pi }\left[ {{G_t}\left| {{S_t} = s} \right.} \right] = {M_\pi }\left[ {\left. {\sum\limits_{k = t + 1}^T {{\gamma ^{k - t - 1}}{R_k}} } \right|{S_t} = s} \right].

  • Ответ: Вопрос 1
Для просмотра статистики ответов нужно залогиниться.