Публикации по теме 'sarsa'
Временная разница RL: Сарса против Q-обучения
Введение
В этом сообщении блога я буду исследовать два алгоритма обучения с подкреплением: Сарса и Q-обучение. Это два метода временной разности (TD). TD сочетает в себе идеи Монте-Карло и динамического программирования. TD учится на опыте, таком как Монте-Карло, но не ждет окончания всего эпизода, он использует оценочные значения следующего состояния в качестве цели для обновления значения следующего состояния, т. е. он загружается, как в динамическом программировании. Однако..
Вопросы по теме 'sarsa'
Как рассчитываются следы приемлемости с SARSA?
Я пытаюсь реализовать трассировку приемлемости (прогнозирование), чей псевдокод можно найти на следующем изображении.
Я не уверен, что означает For all s, a (5-я строка снизу). Откуда у них эта коллекция s, a ?
Если он ориентирован на...
983 просмотров
schedule
04.01.2023
Преобразование в скаляры Python
Я реализую функцию обучения с подкреплением SARSA, которая выбирает действие в соответствии с той же текущей политикой, обновляет свои Q-значения.
Это выдает мне следующую ошибку:
TypeError: only size-1 arrays can be converted to Python scalars...
28 просмотров
schedule
28.01.2023