设为首页
收藏本站
PLC技术网
开启辅助访问
切换到宽版
登录
注册哦
只需一步,快速开始
微信扫码登录
门户
Portal
论坛
BBS
导读
排行榜
积分充值
帖子
搜索
本版
文章
帖子
用户
PLC论坛-全力打造可编程控制器专业技术论坛
»
论坛
›
工控商务区
›
『工控行业动态』
›
从第一性原理出发看大模型上车的应用点 ...
返回列表
发新帖
[最新资讯]
从第一性原理出发看大模型上车的应用点
[复制链接]
119
|
0
|
2025-3-18 08:14:48
|
显示全部楼层
|
阅读模式
大模型的原理-对应关系映射(mapping)
以神经网络为底层模型的大模型,其第一性原理都是在训练时记忆巨量的“近似”对应关系(有多大量取决于训练数据集的大小),在使用时根据输入来产生与输入对应的“近似”的输出。
这种近似程度,不是越高越好也不是越低越好。近似程度越高,乃至达到输入-输出的绝对精确对应的程度,被认为是模型对训练数据的“过拟合”,也就是过分拟合,这意味着模型的泛化能力差,也就是对未知数据的“猜测”能力差,对训练数据中没见过的未知数据很难猜对正确的输出。
这种近似程度也不是越低越好,如果对于训练数据,也就是已知数据,给出输入,都不能正确产生已知的输出结果。这被称为欠拟合,也就是拟合不足,被认为训练出来的模型没有捕获训练数据内在的规律。如果对已知数据的对应关系都不能很好捕获,对未知数据有理由认为效果不会好。
图 1 过拟合和欠拟合,图片来自网络
“过拟合”和“欠拟合”之间的平衡,主要是艺术,看各个研究团队的调优水平。
总而言之,训练好的模型就是对 输入-输出 “近似”对应关系的一种量化表达。这里的 输入-输出 包括训练数据(由几千万甚至几十亿条 输入-输出 对 组成) 和 未来在使用中没有见过的现实数据。
可以把训练好的模型看作一个函数f,f代表对训练数据的规律的捕获,并且表现一种信心,即相信同一类型的未知数据也符合训练数据所代表的数据规律。
近似输出y' = f(输入x),输入可能是训练数据中已知数据,但更多的是现实中的未知数据。
输入x在客观现实中必有一个现实输出y,如果近似输出y与现实输出y’越接近,就认为模型越好,对underlying rules捕获的越准确。
#02
大模型的用途-多模态,信息压缩,优化和预测
任何训练好的大模型,所代表的都是输入数据对输出数据的近似对应关系。掌握这一基本事实后,本文展开大模型的用途,一切用途都是这一基本事实的展开。
任何大模型的一条输入数据和输出数据都是一组浮点数float,表现为vector或者matrix。为了简单,笔者统一把大模型的输入和输出都称为矩阵matrix。
那么数据的原始形态的物理含义是什么?可以是图像,可以是视频,可以是雷达的点云,可以是音频,可以是文本,可以是一段时序数据,比如股价变化数据,可以是武汉市历年房价,等等。
假设输入的数据原始含义是图像,那么大模型会对这个输入计算一个近似的输出,并且把这个输出改换数据结构,最终输出图像中识别的物体的名字(是车还是人),位置,速度等等。
大模型可以处理的数据的原始形态的物理含义就是模态。
大多数大模型是单模态的,比如专门处理图像的CNN为基础的YOLO,比如专门把语音转化为文字的语音识别模型等等。
但是也有多模态的大模型,比如同时接受视频和音频两种模态数据(两种模态数据会编码成为同一组输入)的“看电影”大模型,然后它会输出一段对它看的有声有色电影的文字描述。这种模型的输入模态是视频和音频,输出模态是文本。
多模态能力和模态迁移能力,对大模型上车至关重要
。因为车辆数据一般都是都是多模态的,激光雷达,GPS,IMU,超声波雷达,车辆声音震动(NHV数据),速度,能耗,驾驶员声音,驾驶舱监控视频,文本输入数据,等等模态。还因为很多大模型的原始模态并不是针对车辆数据的模态的,要上车必须模态迁移。比如以deepseek的纯粹大语言模型版本,其模态是文本表达的自然语言,要适配其它模态数据必须模态迁移。
大语言模型可以作为其训练数据的一种精华提炼,由于原始训练数据极为庞大,可以达到PB级别(PB代表Petabyte(佰亿字节)。Petabyte是数据存储容量的一个巨大级别,等于1024个Terabyte(万亿字节)或1,125,899,906,842,624个字节。),而训练好的模型只有几十个G,比如deepseek 14b模型只有9.0G大小。从这个角度看,可以认为训练好的大模型是对原始训练数据的一个信息压缩,而且压缩比相当高。
大模型除了可以用于多模态数据和作为信息压缩外,其基本用途是用于优化和预测。
所谓优化,是指大模型输入一段描述当前场景的描述型数据,然后输出对应这段描述型数据的解决方案描述(当前或者滞后),一般称为solution。
大模型用于优化时,最著名的场景是端到端自动驾驶:
图 2 端到端自动驾驶,图片来自清华新闻
车辆学院科研团队完成国内首套全栈式端到端自动驾驶系统的开放道路测试-清华大学
端到端自动驾驶就是把自动驾驶的所有感知决策控制综合为单个多模态大模型。每一时间周期直接给这个模型输入车辆的所有传感器数据,然后这个单一大模型输出最优驾驶方案,包括但不限于方向盘转和转速,油门开度,刹车力度,离合器开度,自动档位等等。交给车辆执行机构实时执行。
把自动驾驶的所有感知决策控制综合出来的单个多模态大模型,其训练是依靠图中的自动驾驶场景库,也就是训练数据集;而这个大模型测试时和使用时,则是输入仿真数据和real world实车数据。
而所谓预测,是指输入数据和输出数据有时差,输出数据描述的是输入数据滞后一段时间的事情。所以预测可以看作是优化的一个特例。
预测的典型例子是预见性维修,输入是当前时间戳(或者连续多个时间戳一直到当前时间戳)下一系列的车辆监控数据(一般来自车载TBOX),比如车辆速度,加速度,方向角,发动机或者电动机转速扭矩等等,判断1000个(1000只是举例)采集时间周期后,车辆每个器件损坏的概率,如果损坏概率超过阈值,则引导司机或者车主在未来几天进入4S店维保。
#03
大语言模型是大模型的一个分支及其最简单的上车路径
如前所述,以deepseek为代表的大语言模型,只是输入和输出模态都是文本形式的自然语言的一种大模型,所以只是大模型的一个分支。
图 3 图为笔者研究用的服务器上私有化部署的大语言模型列表
之所以需要辨析大语言模型和大模型的不同,是为了分析清楚大模型上车的应用范围。一般而言,大模型上车的结合点,比大语言模型的结合点丰富多了,原因就在于大语言模型的输入和输出模态都是文本形式的自然语言,而车辆数据的模态中,文本形式的自然语言数据只占极少一部分。
既然大语言模型的基本模态是文本形式的自然语言,那么它上车最简单的路径就是:
语音识别转文字=>大语言模型=>文本转语音+can线信号
也就是把司乘人员的语音指令转化为文本,输入给大语言模型,大语言模型输出的回答文本,有两条路径反馈:一条是通过文本转语音播放给司乘人员;另外一条是大语言模型输出的回答文本提取其中的数字,转换CAN总线信号,交给车辆控制机构执行。
举例说,比如司乘人员说:“雨太大了,加快雨刷速度。”车载程序把这句话转换为文本交给大语言模型,模型输出文本“收到,已经加快雨刷器,频率调整为10次每秒”,一方面文本转语音播放给用户,一方面提取文本中数据“雨刷 10次每秒”,转化为CAN总线信号交给车身域控制器执行。
而其最简单直接的载体,莫过于座舱中的车机,无论是车机的物理位置,语音处理程序和文本处理程序的部署,大语言模型的安装与运行,以及与CAN总线的连接,都是简单且容易的。
图 4 车机图片,来自网络
车机本身来说是一块相对独立的平板电脑,和嵌入式MCU不同,车机不仅计算力强大,还可以运行Android或者华为鸿蒙之类的高级OS,又处于与司乘人员直接交互的地位,所以便于大语言模型的部署和应用。
#04
大模型在商用车(重卡)上的用途
据2025-02-17日网络消息
报道,星米汽车发布的极星重卡大模型是一项基于大模型的创新技术,旨在通过AI算法优化商用车的性能,特别是在节能和养护方面取得了显著进展。这也是笔者所知的第一个专门针对重卡的专用大模型产品,其主要用途(上车点)如下:
一是节能表现。
据报道极星重卡大模型在节能方面表现出色,经过多重工况测试,成功将续航提升了10%。这一提升无需依赖昂贵的硬件配置,而是通过高效的算法优化实现了能耗的显著降低。
二是预见性维保。
在车辆养护方面,据报道极星重卡大模型同样展现出强大的能力。面对商用车维修时间长、效率低下的问题,该模型能够提前5天预警车辆可能出现的故障,从而大大提高了维修效率和车辆的可靠性。
除了节能和养护,极星重卡大模型还可以应用于其他多个领域,例如智能驾驶、智能知识库等。这些应用有助于提高一线人员的工作效率,简化研发设计流程,并通过模拟真实生产环境来提升生产和维护效率。
从极星的应用场景看,它是一种多模态的大模型,或者一组单模态大模型的集合,而绝不仅仅是大语言模型。
极星重卡大模型作为一位先行者,凭借其在节能、养护以及多方面的技术创新,是否能逐步改变商用车行业的格局?本文不能贸然判断。但它确实为未来商用车的发展提供了新的思路。
除了以上用途,本文还设想如下用途:
a、车辆热管理优化:
车辆热管理系统是确保汽车各部件在最佳温度范围内运行的关键技术,尤其对于新能源汽车(NEV),其复杂性和重要性更为突出。热管理系统不仅能够提高汽车的安全性和舒适度,还能延长零部件的使用寿命和整车的续航里程 。
在每一时刻,给定各个器件的温度和散热部件的转速(水泵,风扇等等),希望确定各个散热部件是否加速或者减速,一方面保护核心器件安全,另外一方面又要节能,不必做不必要的散热动作。这种最佳散热方案的生成,正是转用大模型或者模态迁移后的大语言模型的用武之地。
b、BMS电池管理系统优化
电池管理系统的一个重要功能就是对电池组的负载均衡和散热均衡,避免短板效应,避免导致单个电池损坏造成整个电池组报废。那么实时根据每个电池组的每个电池的温度和负载,以及每个电池组每个电池的过往历史数据,得到当前最佳的负载调度方案,也属于前面我们描述的大模型优化功能。至于提示客户及时更换电池,则属于前文提到的大模型预测功能。
c、电控网络管理
电控网络管理是指通过优化车载电子控制单元(ECU)之间的通信和协同工作,以提高系统性能、简化线路设计并降低故障率。里面的功能之一是网络唤醒机制:当车辆进入休眠状态或者工作状态后,网络管理模块负责轮番唤醒需要工作的控制器,休眠暂时不需要的控制器,确保它们能够及时响应用户需求或执行必要的任务,同时最小化电力能耗 。寻找能耗最优的唤醒-休眠方案,也属于前面我们描述的大模型优化功能。
d、智能座舱人机交互
智能座舱人机交互(HMI)旨在通过多种方式让用户与车辆进行自然且高效的互动,提升驾驶体验和安全性。近年来,随着传感器技术和计算能力的发展,HMI逐渐从单一模式向多模态融合转变,形成了更加丰富的人机协作环境。
多模态融合交互:
结合语音、手势、视觉等多种交互方式,形成一个无缝连接的用户体验。例如,主动关怀功能可以根据乘客的情绪状态提供个性化的服务,如播放音乐或调节车内氛围灯 。
个性化交互体验:
未来的智能座舱将更加注重用户的个性化需求,通过机器学习算法分析用户的偏好,定制专属的操作界面和服务内容,甚至可以感知用户的实时情绪和精力状态来实时调整服务策略 。
e、自动驾驶多模态目标识别
自动驾驶中的多模态目标识别是指利用摄像头、雷达、激光雷达(LiDAR)等多种传感器获取环境信息,并通过深度学习等技术对这些数据进行处理,以实现对道路状况、行人、其他车辆等目标的精准识别和分类。这有助于提高自动驾驶的安全性和可靠性。
关键技术与挑战如下:
数据融合:
如何有效地整合来自不同传感器的数据是一个重要的研究课题。目前,业界正在探索基于神经网络作为融合媒介(这个媒介本身也是大模型)的方法来解决这一问题,确保系统能够在复杂环境下做出准确判断 。
实时性与鲁棒性:
为了保证自动驾驶的安全性,必须确保目标识别过程具备较高的实时性和鲁棒性,即使在恶劣天气条件下也能正常工作 。
如果是使用deepseek类的大语言模型来完成自动驾驶多模态目标识别,那么不仅要保证速度和准确度,还必须经过模态迁移。
f、端到端自动驾驶
端到端自动驾驶是指从感知环境到规划路径再到执行动作,整个过程由一个统一的神经网络模型完成。这种方式减少了中间环节,理论上可以提高系统的反应速度和灵活性。然而,由于训练难度大以及对硬件资源要求高,实际应用中仍面临诸多挑战 。
端到端具有如下优势与挑战
简化架构:
相比传统的分层式自动驾驶系统,端到端方法简化了整体架构,降低了开发和维护成本。
更高的集成度:
所有功能都集中在一个模型中,便于管理和部署,但也意味着一旦出现问题,修复起来可能会更加困难。
数据需求巨大:
为了训练出可靠的端到端模型,需要大量的高质量标注数据,这对数据采集和处理提出了很高的要求。
多模态的大语言模型具有担当端到端自动驾驶的单一大模型的潜质,因为相比于其它大模型,只有大语言模型具有语义理解能力,而高阶的自动驾需要与“以人为中心”的周遭环境正确互动的能力,这就需要端到端自动驾驶的单一大模型具有语义理解和语义交流的能力。
g、基于智能导航(结合营运政策和天气路段信息等)的运营成本优化
通过智能导航系统结合营运政策、天气条件、路况等因素,可以帮助车队管理者优化运营路线,减少不必要的燃料消耗和时间浪费,从而降低总体运营成本。此外,还可以通过预测性维护等方式进一步节省开支 。
具体措施包括:
动态路线规划:
根据实时交通流量和天气预报调整行驶路线,避免拥堵和恶劣天气带来的风险。
节能驾驶建议:
为司机提供节能驾驶技巧,如保持稳定的速度、合理使用空调等设备,以减少能源消耗。比如还有利用红绿灯绿波带减少车辆特别是载重车辆的加减速次数,节约能耗同时减少磨损。
预防性维护:
利用大数据分析预测潜在故障,提前安排维修保养,防止突发故障导致的额外费用。
h、在商用车物流领域的应用场景
在物流配送中,可以使用大模型进行货物调度优化,这里面包括大语言模型对各地各种产品的生产、物流、仓储、需求量的自然语言解读,也包括对运价和实时货运政策的文字解读;在公共交通方面,则可以用于客流预测和线路规划 。比如如下场景:
货物调度优化:
通过分析历史订单数据和当前市场需求,生成最优的货物分配方案,确保每辆车都能满载出发,减少空驶率。
客流货流预测与线路规划:
基于乘客出行习惯和社会活动日程表(或者货物的季节特性和往年运输表),预测未来一段时间内的客流量货流量的变化趋势,并据此调整运输路线,提高服务水平和经济效应。
智能客服与售后支持:
借助大模型提供的自然语言处理能力,构建智能客服平台,快速解答客户咨询,提供技术支持,改善用户体验。
#05
总 结
大模型的上车,严格来说从自动驾驶和大数据在车辆上应用开始,就已经开始了,所有体量足够大的深度学习模型,都可以称为大模型。比如用于自动驾驶点云目标识别的、基于CNN的视觉大模型,是自动驾驶中的骨干模型。
近来业界讨论的大模型上车,其实是指以自然语言为模态的大语言模型的上车,短期之内是直接利用语音识别+大语言模型与司乘人员交互;长期而言,是拓展大语言模型的多模态能力,适配更多车载传感器数据,比如前视摄像头的视频数据,比如激光雷达的点云数据,最终实现端到端自动驾驶和彻底的智能车辆。
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
注册哦
x
回复
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
注册哦
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
『国外:三菱/西门子/欧姆龙/松下』
巨控电子
回复楼主
返回列表
『产品交易专区』
『工控行业动态』
『人才与培训』