谷歌发布Gemini2.5计算机应用模型
作者:互联网
2026-03-20
谷歌DeepMind推出的Gemini 2.5 Computer Use模型革新了人机交互方式,该AI系统能直接操控浏览器完成各类网页任务,下文将详细介绍其功能特性与技术原理。
Gemini 2.5 Computer Use的主要功能
- 浏览器操作:通过模拟人类点击、滚动和输入行为,实现网页导航与表单填写等基础交互功能。
- 任务自动化:支持跨平台多步骤操作,典型应用包括数据采集转存、智能预约管理等复杂流程处理。
- 视觉理解和推理:基于计算机视觉技术解析网页元素结构,结合语义分析智能推断后续操作步骤。
- 安全机制:内置双重防护体系,既在模型决策层进行风险评估,又设置用户确认环节保障关键操作安全。

Gemini 2.5 Computer Use的技术原理
- 核心工具:依托Gemini API的
computer_use模块实现人机交互,该模块专门设计用于界面操作指令转换。 - 输入与输出:
- 输入:整合三大数据源——用户指令文本、实时屏幕截图、操作历史日志,支持通过参数过滤敏感操作。
- 输出:生成标准化操作指令集,对于资金转账等高危操作强制插入人工确认环节。
- 循环流程:采用"感知-决策-执行"闭环机制,每次操作后自动更新环境状态数据,直至任务终止条件触发。
- 安全机制:独立安全服务实时监控操作指令流,开发者可配置风险策略,例如禁用医疗设备控制等特定功能。
Gemini 2.5 Computer Use的项目地址
- 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
- 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf
Gemini 2.5 Computer Use的应用场景
- UI 测试:实现7×24小时不间断界面压力测试,自动生成交互覆盖率报告提升软件质量。
- 个人助理:智能化管理日常事务,如自动比对航班价格并完成订票支付全流程。
- 工作流自动化:连接企业ERP/CRM系统,实现销售数据自动归集与报表生成。
- 客户服务:构建智能应答系统,实时解析客户问题并调取知识库生成解决方案。
- 教育与培训:在虚拟实验室中指导学生完成编程调试,即时反馈操作错误点。
Gemini 2.5 Computer Use通过融合视觉理解与智能决策技术,为浏览器自动化领域带来突破性进展,其安全可靠的任务执行能力正在重塑多个行业的工作方式。
相关标签:
Gemini
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
OpenClaw 真正的效率开关,不是 Prompt,而是多会话和子代理
03/30
10款免费AI语音输入工具与软件 轻松实现语音转文字
03/30
MCP 协议深度解析:构建 AI Agent 的「万能接口」标准
03/30
WorkAny Bot 云端AI Agent工具采用OpenClaw框架构建
03/30
Anthropic 的 Harness 启示:当 AI Agent 开始「长跑」,架构才是真正的天花板
03/30
SkyBot由Skywork研发的云电脑AI助手
03/30
AI Agent 智能体 - Multi-Agent 架构入门
03/30
Nano Banana 2 国内使用指南 LiblibAI 无需翻墙教程
03/30
一文搞懂卷积神经网络经典架构-LeNet
03/30
一文搞懂深度学习中的池化!
03/30
AI精选
