Публикации по теме 'sarsa'


Временная разница RL: Сарса против Q-обучения
Введение В этом сообщении блога я буду исследовать два алгоритма обучения с подкреплением: Сарса и Q-обучение. Это два метода временной разности (TD). TD сочетает в себе идеи Монте-Карло и динамического программирования. TD учится на опыте, таком как Монте-Карло, но не ждет окончания всего эпизода, он использует оценочные значения следующего состояния в качестве цели для обновления значения следующего состояния, т. е. он загружается, как в динамическом программировании. Однако..

Вопросы по теме 'sarsa'

Как рассчитываются следы приемлемости с SARSA?
Я пытаюсь реализовать трассировку приемлемости (прогнозирование), чей псевдокод можно найти на следующем изображении. Я не уверен, что означает For all s, a (5-я строка снизу). Откуда у них эта коллекция s, a ? Если он ориентирован на...
983 просмотров

Преобразование в скаляры Python
Я реализую функцию обучения с подкреплением SARSA, которая выбирает действие в соответствии с той же текущей политикой, обновляет свои Q-значения. Это выдает мне следующую ошибку: TypeError: only size-1 arrays can be converted to Python scalars...
28 просмотров
schedule 28.01.2023