Публикации по теме sarsa

Публикации по теме 'sarsa'

Временная разница RL: Сарса против Q-обучения

Введение В этом сообщении блога я буду исследовать два алгоритма обучения с подкреплением: Сарса и Q-обучение. Это два метода временной разности (TD). TD сочетает в себе идеи Монте-Карло и динамического программирования. TD учится на опыте, таком как Монте-Карло, но не ждет окончания всего эпизода, он использует оценочные значения следующего состояния в качестве цели для обновления значения следующего состояния, т. е. он загружается, как в динамическом программировании. Однако..

Вопросы по теме 'sarsa'

Как рассчитываются следы приемлемости с SARSA?

Я пытаюсь реализовать трассировку приемлемости (прогнозирование), чей псевдокод можно найти на следующем изображении. Я не уверен, что означает For all s, a (5-я строка снизу). Откуда у них эта коллекция s, a ? Если он ориентирован на...

983 просмотров

machine-learning reinforcement-learning sarsa

04.01.2023

Преобразование в скаляры Python

Я реализую функцию обучения с подкреплением SARSA, которая выбирает действие в соответствии с той же текущей политикой, обновляет свои Q-значения. Это выдает мне следующую ошибку: TypeError: only size-1 arrays can be converted to Python scalars...

28 просмотров

python sarsa

28.01.2023