МикрошашкиИмеется игровое поле из 6 клеток (две колонки по 3 клетки). Клетки пронумерованы состояниями S1 - S6. Левая колонка состоит из белых клеток (состояния S1 - S3), правая колонка состоит из зеленых клеток (состояния S4 - S6). Имеется одна шашка, которая устанавливается в начале игры в клетку S1. Двигать шашку можно на одну клетку вверх (up) или вправо (right). За каждое перемещение в соседнюю белую клетку начисляется вознаграждение (-1). При попытке выхода за границы игрового поля, шашка остается в той же клетке и начисляется вознаграждение (-10). При попадании шашки в зеленое поле начисляется указанное ниже вознаграждение и игра заканчивается.
Вознаграждение:
S6:
90
S5:
80
S4:
60
Задание:Необходимо выполнить цикл Q-обучения на основе приведенной ниже последовательности четырех эпизодов (порядок существенен) и заполнить Q-таблицу. В качестве начальных значений Q-таблицы использовать нули. Положить η=η= \eta = 0,3; γ=1γ=1 \gamma = 1 . В качестве ответа ввести сумму всех элементов Q-таблицы, полученных в результате Q-обучения.Эпизоды:
(s1, up, 0)→(s2, right, 80) → (s5, ∎, 0)
(s1, right, 60) → (s4, ∎, 0)
(s1, up, 0) → (s2, up, −1) → (s3, up, −10) → (s3, right, 90) → (s6, ∎, 0)
(s1, up, 0) →(s2, up, −1) →(s3, right, 90) → (s6, ∎, 0)
Справочно:Элементы Q-таблицы обновляются по следующему правилуQSt,At:=QSt,At+η(Rt+1+γmaxaQSt+1,a−QSt,At)QSt,At:=QSt,At+η(Rt+1+γmaxa⁡QSt+1,a−QSt,At) {Q_{{S_t},{A_t}}}: = {Q_{{S_t},{A_t}}} + \eta \left( {{R_{t + 1}} + \gamma \mathop {\max }\limits_a {Q_{{S_{t+1}},a}} - {Q_{{S_t},{A_t}}}} \right)

К сожалению, у нас пока нет статистики ответов на данный вопрос, но мы работаем над этим.