Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

商汤绝影系列原生态大模型亮相2024北京车展:智能汽车加速驶入AGI时代

商汤绝影,率先完成了智能驾驶的四大技术基座布局。

4 月 25 日,2024 北京国际汽车展览会正式开展,商汤绝影携系列原生态大模型及相关产品矩阵首次亮相北京车展。

作为首个提出感知决策一体化自动驾驶通用模型的公司,商汤绝影在本届车展上首次向公众展示了面向量产的真・端到端自动驾驶解决方案 UniAD (Unified Autonomous Driving) 的道路测试表现,同时带来了以多模态场景大脑为核心的 AI 大模型座舱产品矩阵以及全新座舱 3D 交互演示,全景展示了通用人工智能 (AGI) 技术驱动的灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行全新体验。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示:“未来汽车智能化的竞争,本质上是通用人工智能技术融合应用的比拼。商汤绝影致力于成为加速智能汽车驶入 AGI 时代的核心技术伙伴,给智能汽车产业带来生产效率和交互体验的双重革新,将携手合作伙伴提供通用人工智能技术驱动的智能汽车全新体验,共同定义未来出行。”

像人一样开车:真・端到端自动驾驶解决方案 UniAD 上车首秀

凭借前瞻的行业洞察和率先布局,商汤及其联合实验室在 2022 年底便提出了行业首个感知决策一体化自动驾驶通用模型 UniAD,并在次年荣获 2023 年国际计算机视觉与模式识别会议 (CVPR) 最佳论文,引领了端到端自动驾驶,乃至 AI 领域的创新潮流。

在北京车展上,商汤绝影以 UniAD 自动驾驶解决方案实车测试成果展现了国内端到端智驾的实力。在无高精地图条件下,仅依靠视觉感知的实际道路测试成果。无论是复杂城市道路还是无中线的乡村道路上,车辆能高效准确地完成包括大角度左转上桥、避让占道车辆及施工区域、绕行跑步行人等一系列高难度操作,做到 “像人一样开车”。

搭载 UniAD 方案的车辆可真正做到 “像人一样开车”。

今年年初,特斯拉开始向部分用户推送 FSD V12 版本的端到端自动驾驶方案,业内随之出现了越来越多的 “端到端” 智驾方案。不过从技术角度来看,大部分端到端方案采用的是更易落地的,由感知和决策两个模型组成的 “两段式” 架构,两个模型之间依然存在信息传递过滤或丢失的问题。

而 UniAD 将感知、决策、规划等模块都整合到一个全栈 Transformer 端到端模型,实现感知决策一体化的真・端到端自动驾驶。

UniAD 真・端到端:感知决策一体化的通用模型

当前,行业需要真正的端到端自动驾驶方案,因为基于规则的智驾方案的天花板已开始显现。随着城区成为智驾落地的主战场,场景计算的复杂度呈指数级增长。大量的人力资源投入也只是增加有限的规则,无法应对数量无限的复杂场景和长尾路况 (corner case)。

端到端技术的出现开辟了一条全新的道路,开始推动自动驾驶范式从铺设大量人力转变为持续算力投入和高质量数据输入。

凭借商汤大装置的算力、高质量仿真数据和行业领先的模型性能,UniAD 端到端方案有更高的能力上限,强大的学习和思考能力让它能够像人一样开车;数据驱动的端到端模型泛化能力强、迭代效率快,可以帮助车企低成本快速开城;纯视觉感知的无图方案,进一步降低系统的软硬件成本,助力智驾普及,实现全国都能开。

新一代自动驾驶大模型 DriveAGI:可感知、可交互、可信赖

在端到端系统基础上,商汤绝影还在本次车展期间前瞻介绍了新一代自动驾驶大模型 DriveAGI,推动自动驾驶从数据驱动向认知驱动的跃迁。依托多模态大模型强大的世界理解、推理能力、决策能力以及交互能力,DriveAGI 将是目前最贴近人类思维模式、最能理解人类意图并有最强解决驾驶困难场景能力的技术方案,向完全无人驾驶迈出重要一步。

敏锐洞察、深度思考、高效执行 “多模态场景大脑”,提供真正懂你的智能座舱

前不久上市的小米 SU7 将 AI 大模型带进座舱,而商汤 “日日新” 大模型也全面助力小爱同学车载语音场景应用。

4 月 23 日,商汤科技发布全新升级的 “日日新 SenseNova 5.0” 大模型。6000 亿参数的 “日日新 5.0” 采用混合专家架构 (MOE),具备更强的知识、数学、推理及代码能力,成为国内首个全面对标甚至超越 GPT-4 Turbo 的大模型,多模态能力领先 GPT-4V。基于端云结合的架构,商汤端侧大模型大幅超越同量级大模型,越级比肩 7B、13B 大模型,更适合车端部署。

基于多模态大模型、大语言模型、文生图模型等能力组合,商汤绝影构建了以多模态场景大脑为核心的一系列全景感知、主动关怀且富有创造力的大模型座舱产品。

商汤绝影正在打造的敏锐洞察、深度思考、高效执行的多模态场景大脑,是助力智能汽车迈向 AGI 时代的核心产品之一。通过应用场景和用户需求驱动,多模态场景大脑让智能汽车可以高效准确地全景感知和深度理解用户需求和周围环境,并以场景大脑为核心打通不同应用,将离散的单点功能聚合在一起,从而为用户提供更多深度个性化的主动关怀和服务。

多模态大模型可以准确感知并识别车外信息

基于地理位置推荐符合用户喜好的餐厅、介绍用户感兴趣的外部自然景物,并进行优质景点推荐是绝影 AI 大模型座舱产品的基础功能。凭借强大的多模态感知能力,搭载商汤绝影方案的车辆能够准确感知并识别车外的信息,包括周围车辆的车型、标志性建筑物等,以语音、图片或者视频等方式为舱内人员提供更为准确和全面的内容,帮助用户了解和掌握外部环境信息,打破座舱本身的限制,让用户享受更为自由无束缚的出行体验。

此外,以多模态场景大脑为核心,商汤绝影还能提供更多基于汽车场景的 AI 大模型座舱产品。以商汤 “大医” 医疗健康大模型为桥梁的 “旅医”,让用户在座舱内就可以获得专业及个性化的健康管理服务,让出行更安心。基于 AIGC 大模型技术的 “神笔”,可以把用户简单的绘画线条转变成具有美感的艺术作品,增添驾乘乐趣。

“旅医” 让用户在座舱内就可以获得专业及个性化的健康管理服务。

“神笔” 可以把用户简单的绘画线条转变成具有美感的艺术作品

人机交互的创新也是驱动座舱体验升维的重要因素,去年 Apple Vision Pro 的问世展现了 3D 交互的创新体验和应用潜力。商汤绝影凭借深厚的感知技术研发实力和高效的创新迭代效率,将 3D Gaze 高精视线交互和 3D 动态手势交互这两大全新座舱 3D 交互演示带到现场,让观众体验到更符合人类直觉的舱内交互方式,推动座舱交互向更安全、更便利的 3D 交互升维进化。

其中, 3D Gaze 高精视线交互是商汤绝影全球首创的能够通过视线定位与屏幕图标进行交互的智能座舱技术,让用户无需点按屏幕,通过眼神即可精准控制中控图标,完成多种交互操作;3D 动态手势交互是行业领先的支持动态手势和手部微动作识别的智能座舱技术,用户通过手势 “隔空” 实现各类座舱精细化的交互,打破传统按键和屏幕触控方式的繁琐和局限。

商汤绝影 3D Gaze 高精视线交互:通过眼神即可精准控制中控图标

面向未来,商汤绝影还在进一步探索舱驾融合,实现智能驾驶和智能座舱在硬件、软件及应用层面的全面融合,提升用户体验、降低系统成本,进一步打破舱内外的界限和束缚,涌现更多创新功能,带来更安全、更加全方位,更具人文关怀的新体验。

率先完成四大技术基座布局,商汤绝影加速智能汽车驶入 AGI 时代

未来一到两年,智能汽车处在一个关键的时间节点,它与面向通用人工智能的大模型技术深度融合,可能会开启一个全新的时代。没有公司能在新时代单打独斗成功,车企需要强有力的核心技术伙伴携手共进,而商汤绝影正是行业稀缺的同时具备 “算力 + 算法 + 量产经验” 全栈技术领先的核心供应商,是一匹应势而跃的千里马,能够助力合作伙伴在 AGI 时代持续领先。

AGI 的突破掀起技术范式的革新,坚实的核心研发能力成为行业竞争的关键。依托商汤大装置深厚的算力储备、原生的汽车垂类大模型、领先的软硬件架构和全栈数据生产管线,商汤绝影率先构建了四大技术基座,正在成长为加速智能汽车驶入 AGI 时代的核心技术伙伴。

SenseCore 商汤大装置是行业领先的 AI 基础设施,能够以高达 12,000 petaFLOPS 的丰沛算力支持商汤绝影系列原生态大模型的高效迭代;商汤绝影为智能汽车前瞻构建了 UniAD、DriveAGI 以及面向座舱的多模态场景大脑等系列原生态大模型,加速端到端自动驾驶和大模型在智能座舱场景的落地;端云协同和舱驾融合的创新软硬件架构,让智能汽车降本增效、涌现创新功能;全栈的数据生产管线,实现大模型的高质量训练。

商汤大装置支持商汤绝影系列原生态大模型高效迭代

凭借四大 AGI 技术基座,商汤绝影将推动智能汽车加速拥抱通用人工智能时代,以端到端大模型解决智能驾驶规模化普及难题,以多模态场景大脑让智能座舱告别传统的单点功能开发模式,驱动行业生产效率革新,并打破舱内外的界限和束缚,驱动人机交互体验革新,提供灵活自适应、深度个性化、安全可信赖、有人文关怀的未来出行全新体验。

如今,商汤绝影已经构建了智能驾驶、智能座舱和 AI 云的多元 AGI 产品体系,正在加速推动原生态大模型产品在汽车智能化领域的全方位深度应用,加速 AGI 融入汽车产业,与广大车企合作共赢,开启未来出行的新篇章。

产业计算机视觉预训练大模型智能驾驶商汤科技
暂无评论
暂无评论~