CODEBASE
← 返回列表

SAC算法详解

Soft Actor-Critic | 最大熵算法

算法概述

SAC(Soft Actor-Critic,软演员-评论家)是一种基于最大熵原理的off-policy算法,它在连续动作空间中表现出色,同时保持了样本效率。SAC通过优化熵加权的奖励函数,鼓励探索并找到稳定的策略。

核心特性

← 返回列表