EMMA-Waymo发布端到端自动驾驶多模态模型-脚本在线

首页前沿速递服务器教程网页设计教程网络编辑教程

移动端

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

EMMA-Waymo发布端到端自动驾驶多模态模型

作者：互联网

2026-03-28

⼤语⾔模型脚本

EMMA作为基于Gemini模型的多模态自动驾驶系统，通过端到端架构将传感器数据直接转化为驾驶决策，显著提升了复杂场景下的泛化能力。其创新性在于用自然语言统一处理各类驾驶任务，下面将详细介绍其核心功能与技术实现。

EMMA是什么

EMMA是Waymo基于Gemini模型推出的端到端自动驾驶多模态模型，能将原始相机传感器数据直接映射到驾驶特定输出，如规划轨迹、感知对象和道路图元素。EMMA将非传感器输入和输出表示为自然语言文本，用预训练大型语言模型的世界知识，在统一的语言空间中联合处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上展现了先进性能，但存在局限性，如处理图像帧数量有限、缺少精确3D传感方式集成和高计算成本。模型能推动自动驾驶模型架构的发展，提高自动驾驶系统在复杂场景中的泛化和推理能力。

EMMA的主要功能

端到端运动规划：
1. 直接从原始相机传感器数据生成自动驾驶车辆的未来轨迹。
2. 将轨迹转化为车辆特定的控制动作，如加速和转向。
3D对象检测：用摄像头为主要传感器，检测和识别周围的物体，如车辆、行人和骑行者。
道路图元素识别：识别和构建道路图，包括车道线、交通标志等关键道路元素。
场景理解：理解整个场景的上下文，包括临时道路阻塞和其他影响驾驶的情况。
多任务处理：在统一的语言空间中联合处理多种驾驶任务，用任务特定的提示生成输出。
链式思维推理：基于链式思维推理提升模型的决策能力和可解释性，让模型在预测未来轨迹时能阐述其决策理由。

EMMA的技术原理

多模态大型语言模型（MLLMs）：基于预训练的MLLMs，如Gemini，模型在广泛的互联网规模数据上训练，拥有丰富的"世界知识"。
自然语言表示：所有非传感器输入和输出（如导航指令、车辆状态、轨迹和3D位置）表示为自然语言文本。
视觉问题回答（VQA）：将驾驶任务重新构想为VQA问题，基于Gemini的预训练能力，保留广泛的世界知识。
自回归模型：用自回归Gemini模型处理交错的文本和视觉输入，生成文本输出。
端到端训练：基于端到端训练，直接从传感器数据生成驾驶动作，消除模块间符号化接口的需求。

EMMA的项目地址

arXiv技术论文：https://arxiv.org/pdf/2410.23262

EMMA的应用场景

城市和郊区驾驶：EMMA能处理复杂的城市交通环境及郊区道路条件，提供实时的驾驶决策和轨迹规划。
交通拥堵和复杂路口：在交通拥堵或多路口场景中，EMMA能进行有效的路径规划和决策，确保安全高效的导航。
特殊天气和光照条件：EMMA能适应不同的天气和光照条件，如雨、雾或夜间驾驶，保持稳定的驾驶性能。
施工区域和临时道路封闭：基于场景理解能力，EMMA能识别施工区域和临时道路封闭情况，做出相应的驾驶调整。
紧急情况响应：在遇到紧急情况，如突然出现的障碍物或动物时，EMMA能迅速做出反应，采取避让或减速等措施。

EMMA通过多模态融合与自然语言处理技术，为自动驾驶系统带来了全新的解决方案。其端到端架构与链式思维推理能力，有望大幅提升自动驾驶在复杂环境下的安全性与可靠性。

相关标签:

Gemini

上一篇：CozeLoop字节Coze打造AI智能体开发调试平台下一篇：OmniAI-AI文档处理平台实现多格式批量处理与信息提取

相关推荐

MCP 协议深度解析：构建 AI Agent 的「万能接口」标准 # ? MCP 协议深度解析：构建 AI Agent 的「万能接口」标准 > 本文深入解读 Anthropic 开源的 Model Context Protocol (MCP)，探讨它如何成为 A

2026-03-30

立即查看

OpenClaw 真正的效率开关，不是 Prompt，而是多会话和子代理很多人刚开始用 OpenClaw，注意力都放在 Prompt、技能、模型切换上。这些当然重要。但你真把它拿来干活，卡住你的通常不是“不会写提示词”，而是还在用一个会话硬扛所有任务。你一边让它查资

2026-03-30

立即查看

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板 Anthropic 最新研究揭示：Agent 长任务失败的根源不是模型，而是架构。本文拆解 Harness 设计的核心思路，以及开发者日常可直接落地的四条实践原则。

2026-03-30

立即查看

AI Agent 智能体 - Multi-Agent 架构入门大家好，我是双越。wangEditor 作者，前百度滴滴资深前端工程师，慕课网金牌讲师，PMP，前端面试派作者。本文介绍 Multi-agent 智能体架构和实践。

2026-03-30

立即查看

专题

#Grok

Grok脚本资源网站，提供G

+ 收藏

#Sora2

Sora2脚本资源网站，提供S

+ 收藏

#通义万相

通义万相脚本资源网站，提供通

+ 收藏

#海螺AI

海螺AI脚本资源网站，提供海

+ 收藏

#可灵AI

可灵AI脚本资源网站，提供可

+ 收藏

#Kling3.0

Kling3.0脚本资源网站，提

+ 收藏

最新数据

PoeAI新功能Previews实现AI生成Web应用实时预览 PoeAI推出新功能Prev

NextChat开源项目实现一键部署私人ChatGPT网页应用

Void开源AI辅助编码工具支持代码自动补全与智能建议

HARPA-AI浏览器智能助手自动处理网络日常任务

ChatNio一站式LLM管理平台兼容主流模型与服务

PixtralLarge由MistralAI开源推出超大多模态模型

Dia-Arc团队发布AI原生浏览器深度融合强大AI功能

字节最新AI图像创作模型Seedream4.0正式发布

AI三宫格图片制作指南含山的后面是什么同款提示词

字节跳动发布AI图像创作模型Seedream4.5

相关文章

OpenClaw 真正的效率开关，不是 Prompt，而是多会话和子代理

10款免费AI语音输入工具与软件轻松实现语音转文字

MCP 协议深度解析：构建 AI Agent 的「万能接口」标准

WorkAny Bot 云端AI Agent工具采用OpenClaw框架构建

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

SkyBot由Skywork研发的云电脑AI助手

AI Agent 智能体 - Multi-Agent 架构入门

Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程

一文搞懂卷积神经网络经典架构-LeNet

一文搞懂深度学习中的池化！

AI精选

更多

MCP 协议深度解析：构建 A

OpenClaw 真正的效率开

Anthropic 的 Harness 启示：当 AI Agent 开始「长跑」，架构才是真正的天花板

AI Agent 智能体 - Multi-Agent 架构入门

RAG 不一定非得靠向量库：一套更偏工程落地的“结构化推理检索”方案

一文搞懂深度学习中的池化！

一文搞懂卷积神经网络经典架构-LeNet

告别 Vibe Coding：用 SDD 让 AI 编程提效 50%，三工具实战对比

Agent 语音交互如何更稳、更快？一次高并发消息链路优化实践

# AI 终于能"干活"了——Function Calling 完全指南

脚本推荐

SeeDance 2.0 Video Creator专区

OpenClaw AI专区

cowork专区

claude code skills专区