1.5 智能体建模

智能体作为智能决策的主体,如何处理复杂环境的不可观察性、随机性、连续性、不可知等特征性质,是智能系统建模的关键。

1.5.1 典型决策系统模型框架

智能体模型的主要功能是信息处理和智能决策,环境越复杂,对智能体要求就越高。一般来说,部分可观察的环境比完全可观察环境复杂,多智能体环境比单智能体环境复杂,随机性环境比确定性环境复杂,延续式环境比片段式环境复杂,动态环境比静态环境复杂,连续型环境比离散型环境复杂,未知环境比已知环境复杂。

在典型的决策支持系统中,我们从复杂环境中采集海量数据,进行建模和分析,模型输出指标和决策信息,决策者基于模型输出信息进行决策和行动,如图1.5所示。图1.5中模型的构建过程依赖于人类的领域知识(Domain Knowledge)和建模能力,模型优劣受人为因素影响较大。如果智能体能够自己调整模型架构或者模型参数,适应环境演化和经验数据,那么决策系统将更具有效性和稳定性,且模型的自动化程度将更高。

1.5.2 智能体建模框架

本节对智能体建模的几个模块分别进行介绍。

图1.5 典型决策支持系统

1.智能体建模框架示意图

图1.6给出了智能决策系统建模的框架示意图。其中的复杂系统环境包括了部分可观察、随机性、连续性、多主体等属性。决策智能体建模包含了几个关键组成部分,分别为感知模块、评价模块、学习模块和决策模块。在智能决策系统建模过程中,对各个模块进行了合理的抽象,模块之间能够进行信息通信和行为交互,智能体整合不同模块信息,优化各个模块的性能,这个过程将逐步提高智能策略性能。我们将对决策智能体的各模块进行简单介绍,为构建复杂智能决策系统提供基本的建模思路。

图1.6 智能决策系统建模框架示意图

2.感知模块

感知模块直接获得环境状态信息,感知环境的状态特征和环境的反馈信息。近年来,深度学习技术蓬勃发展,科学家们提出了众多深度学习模型,适应于不同的数据类型和复杂环境。感知模块将环境反馈和环境状态进行重新表示,映射到决策智能体的决策变量空间,决策智能体在决策空间进行智能决策。这一过程可以看作一个空间变换,主要由深度学习模型完成,比如深度神经网络(Deep Neural Networks,DNN)、深度卷积神经网络(Convolutional Neural Networks,CNN)、深度循环神经网络(Recurrent Neural Networks,RNN)、深度图神经网络(Graph Neural Networks,GNN)等。深度学习领域的飞速发展,使得越来越多的优秀深度神经网络模型为智能决策系统所用,成为智能决策系统的子模块。

深度学习模型的主要功能就是进行表示学习,将决策变量映射到隐空间,隐空间变量与决策问题之间强关联。深度学习模型去除了不必要的噪声信息和不相关信息,对信息进行了过滤和压缩,使得智能模型决策更加准确和高效。在实际运用过程中,复杂环境状态数据类型具有多样性,因此感知模块的深度学习模型也具有多样性,多模态的复杂环境数据也比较常见,因此感知模块可以融合多种深度学习模型,例如在自动驾驶智能系统中,决策智能体面对的数据包括图片数据、雷达数据、音频数据等。多模态深度学习技术融合了各式各样的深度学习模型,同时对视频、图形、音频和文本等数据进行处理,提高决策系统的智能化水平,这是深度学习研究前沿之一,也是未来发展方向。

3.决策模块

决策模块是决策智能体模型的输出模块,相较于作为输入模块的感知模块,决策模块是决策智能体进行智能决策的关键,因为智能决策系统的目标就是训练和学习一个优秀的智能决策模块。一般智能决策模块用深度学习模型进行表示,以智能感知模块的表示数据作为输入,输出一个智能动作,或者动作的概率分布等。

类似于复杂环境,决策智能体也具有多属性特征,例如,决策智能体的动作可以分成离散型和连续型,或者同时输出两类动作。离散型动作比较常见,如电子游戏中游戏手柄的操作可以建模成整数型变量;机器人研究中连续型动作运用较多,如移动速度、角度、角速度等。在实际应用中,决策智能体并非只能有一种动作输出类型,而是可以同时输出多种类型动作。在金融市场中,智能交易机器人可以用离散型变量作为动作输出,用1、0和1分别表示卖出、持有和买入操作,而交易量可以事先确定;同样,智能交易机器人也可以用1到1之间的实数作为模型动作输出,表示投资者仓位变化比例,智能交易机器人的决策模块输出0.5表示买入50%最大持仓量的股票。决策智能体决策模块的动作类型可以根据具体问题进行调整。

决策智能体的决策模块也可以按照输出类型分成确定性策略和随机性策略,确定性策略直接输出动作,随机性策略输出动作的概率。确定性策略和随机性策略各有优缺点,各有其适用场景。在机器人研究中,确定性策略可以直接输出机器人的速度、角度等行为动作。

4.评价模块

决策智能体基于感知模块将环境状态变量转化成决策模块的输入变量后,智能决策模块输出的动作如何能够体现出智能,如何评价,如何优化,都需要评价模块进行度量和更新。评价模块需要设定目标函数,决策智能体通过与环境的交互不断优化目标函数,同时优化策略模块。评价模块可以独立于策略函数,对行为进行价值评估,对有价值的动作给予较高的得分,从而引导策略函数输出最优动作。评价模块融合了感知模块和决策模块的信息,为高效训练决策智能体提供辅助信息。

5.学习模块

学习模块结合感知模块、决策模块和评价模块,设定智能体训练规则,更新感知模块、决策模块和评价模块的模型参数,迭代训练并得到最优的感知模块、决策模块和评价模块。强化学习算法是智能决策系统的重要部分,经典的强化学习算法包括时序差分(Temporal Difference)算法、Q学习(Q-learning)算法、SARSA算法等,也包括了深度强化学习深度Q网络(Deep Q Network,DQN)算法、置信阈策略优化(Trust Region Policy Optimization,TRPO)算法、近端策略优化(Proximal Policy Optimization,PPO)算法、深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)方法、Twin Delayed DDPG(TD3)、Actor-Critic算法等。