基于强化学习的自动驾驶预测控制技术.doc
《基于强化学习的自动驾驶预测控制技术.doc》由会员分享,可在线阅读,更多相关《基于强化学习的自动驾驶预测控制技术.doc(7页珍藏版)》请在三一文库上搜索。
1、基于强化学习的自动驾驶预测控制技术1介绍如今,道路上车辆越来越多,道路运输系统变得越来越繁忙。为了使交通和移动更加智能化和高效,自动驾驶汽车被认为是有前途的解决方案。随着外部传感、运动规划和车辆控制等方面取得显著的成果,自动驾驶汽车的自主创新能够很好地帮助车辆在预先设定的场景下独立运行。通常,自动驾驶车辆中的系统架构由三个主要处理模块组成,参见图1作为图示2。传感器和数字地图提供的数据在感知和定位模块中进行,以呈现驾驶情况的代表性特征;运动规划模块旨在根据给定的传感器和地图信息生成适当的决策策略并得出最佳轨迹;轨迹控制器模块的目的是计算处理加速和转向的具体控制动作,以维持现有的轨迹 3 。图1
2、.通用自动驾驶汽车的系统架构2决策和路径规划是自动驾驶汽车的关键技术。为了讨论轨迹生成步骤,目前已经提出了几种技术。例如,提出了一种名为“逐个学习”的数据驱动控制框架,用于从历史驾驶数据中训练控制器以将车辆作为人类驾驶员来操作。具体来说,人工神经网络( ANN ) 4 和逆最优控制 5 已经被用于再现自动驾驶车辆中的人类驾驶行为。然而,当历史数据集中没有当前驾驶情况时,车辆无法平稳运行。作为替代方案,模型预测控制(MPC)6用于预测驾驶员行为并在成本函数中实施多个约束,驾驶状态预测的精度决定了MPC方法的控制性能7。自动驾驶和人类驾驶员之间的最大区别是能否确保乘客的安全和舒适。如何创建可行、安
3、全和舒适的参考轨迹仍然是一个严峻的挑战。在这项工作中,为自动驾驶混合动力电动汽车(HEV)开发了基于强化学习的预测控制框架。提出的方法是双层的,高层是一个类似人类的驾驶模型,它可以生成约束。底层是基于强化学习( RL )的控制器,能够提高自动驾驶混合动力汽车的能效。所提出的框架被验证用于汽车跟随模型中的纵向控制。结果表明,该方法能够重现人类驾驶员的驾驶风格,提高燃油经济性。这项工作的贡献包含两个方面。首先是适应训练数据集中不存在的当前驾驶情况。提出诱导矩阵范数(IMN)来比较当前和历史驾驶数据之间的差异并扩展训练数据集;其次是将轨迹生成步骤与自动驾驶HEV的能量效率改进相结合。基于从高层获得的
4、参考轨迹,基于RL的控制器在成本函数中实施电池和燃料消耗约束以促进燃料经济性。本文的其余部分组织如下,第节介绍了更高级别的驱动程序建模方法,第III节描述了混合动力汽车动力总成的低级RL控制器,第节给出了模拟结果,第V节总结了论文。2.高层:驾驶员建模本节展示了高层类人驾驶模型。首先,定义汽车跟随模型中的参数;然后,介绍了驾驶员模型的训练方法;最后,描述了未来加速度的预测过程。A.汽车跟随模型在汽车跟随模型中,自动驾驶HEV被命名为目标车辆,前方自动驾驶HEV被称为前方车辆。定义t= dt,vt是时刻t的目标车辆的状态,其中dt和vt分别是纵向位置和速度,类似地,ft= dft,vft是在时刻
5、t的前方车辆的状态,时刻t的行驶状况由特征t= drt,vrt,vt表示,其中drt= dft-d是相对距离,vrt= vft-v是相对速度。在高层上,驾驶员模型旨在生成一个加速度序列At= At,At + N - 1,以指导目标车辆的运行,N = T /T表示总时间步长,T是预测的时间间隔,而T是驾驶员模型的采样时间。基于该加速序列,基于RL的控制器用于导出底层的自动驾驶HEV的功率分配控制策略。B.驾驶员模型训练基于历史驾驶数据1 : t= 1,t),驾驶员模型的目标是预测接近人类驾驶员实际操作的加速度序列。对于真实的驾驶数据,人类驾驶员的控制策略被建模为隐马尔科夫链( HMC ),其中m
6、t 1,M 是用于复制人类驾驶员演示的加速度命令。在时刻t的隐模式,ot= t,at是时刻t的观察向量,包括驾驶情况和加速度。对于HMC,隐藏模式通过概率分布与观测相关,如下所示其中假设转移概率P(k,ak| mk)符合高斯分布。特别地,HMC模型的参数包括初始分布P ( m1)、总隐藏模式M、转移概率ij意味着从第I模式到第j模式的转移,以及高斯分布的协方差和平均矩阵。期望最大化算法和贝叶斯信息准则被用来从历史驾驶数据 8 中学习这些参数。C.当前加速度的计算高斯混合回归用于计算当前加速度,给出行驶情况序列1 : t,如下 3 其中k,t表示混合系数,并且被计算为处于模式mt= k的概率3D
7、.预测未来加速度当前的行驶状况t= drt,vrt,vt,当前的加速度at和离散时间t是先前已知的,可以通过假设前方车辆的速度恒定来计算未来的行驶状况。简单来说,Eq.(4)可以重新表述为状态空间方程最后,可以通过迭代以下表达式来导出预测范围T上的未来加速序列3.底层:RL控制器本节介绍了基于RL的节油控制器。首先,计算加速度序列的转移概率矩阵(TPM);然后,提出诱导矩阵范数(IMN)来评估历史和当前加速度数据之间的差异;此外,制定了自主HEV的能效改进问题的成本函数;最后,构造了RL方法框架,利用Q学习算法搜索最优控制策略。A.加速序列的TPM加速序列被视为有限马尔可夫链(MC),其转移概
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 强化 学习 自动 驾驶 预测 控制 技术
链接地址:https://www.31doc.com/p-3417547.html