自动驾驶-Planning and Control

自动驾驶的决策系统采用蒙特卡洛树搜索结合神经网络,模仿AlphaGo策略。通过神经网络估计不同驾驶决策可能导致的结果,以安全性、舒适性和效率为准则,每秒进行大量计算,实现最佳驾驶行为。特斯拉的系统还能预测路上其他车辆可能的驾驶行为,形成动态博弈的过程。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        使用经典的启发式算法,比如A*算法来做行车判定很不靠谱,容易卡在局部最优解,浪费大量的试错也不好优化。

        特斯拉的做法呢,是使用蒙特卡洛树搜索,结合神经网络来进行行车的决策。

在这里插入图片描述

 

咱们先来说说蒙特卡洛树搜索,这个算法的名声啊很大,主要是因为谷歌当年在围棋人机大战中称王称霸的AlphaGo,就是基于这个算法的。算法的原理也很直白,就是根据当前一直的状态,在有限的时间和资源下,尽可能简单的模拟出各种可能的解决方法,并做出一个最符合要求的行动,来改变当前的状态,然后再次重新模拟。

有那么点儿高手比武,虽然两人都没动,但是在一年中已经相互过招无数,最后一招定输赢意思。

当年谷歌在AlphaGo上设计的精髓,在特斯拉的决策系统中得到了很好的体现,就是不做模拟,直接使用一个神经网络来估计在不同行驶状态下,各种驾驶决策有可能导致的结果,提供给蒙特卡洛树搜索来做选择。

而这个神经网络呢,我认为就是通过对人类驾驶行为进行模拟学习所得来的,Tesla也给出了蒙特卡洛树搜索在做选择时的要求和例子,那就是:① 安全性,有没有可能撞到东西,② 舒适性,系统所做的选择会不会突然加速或者减速而导致乘客不适,③ 效率,你可以开的很安全,也很舒适,但是开的的太慢,这也得加紧考虑。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

秋水 墨色

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值