Details

Title: 多模型求解非完全信息扩展式博弈合作均衡的策略梯度方法（Zeta-Dou）

Speaker: 于小民

Abstract: 强化学习的策略梯度方法最近被应用于各种游戏中，但是对于具有庞大规模动作和状态空间并且包含合作和对抗非完全信息扩展式博弈场景，它并不适合。在策略梯度方法中，行为和状态空间过大的模型实现起来是非常困难的。此外，策略梯度方法本身就具有方差大以及策略优化不稳定的特点，对于具有庞大状态和动作空间的非完全信息扩展式博弈的游戏场景，策略收敛性难以保证。本研究，通过合作模型组建联合行为的方式减少每个模型负责的行为空间，通过求解模型之间合作均衡的方式达到策略优化的目的。