谷歌发布Gemini2.5计算机应用模型

作者:互联网

2026-03-20

⼤语⾔模型脚本

谷歌DeepMind推出的Gemini 2.5 Computer Use模型革新了人机交互方式,该AI系统能直接操控浏览器完成各类网页任务,下文将详细介绍其功能特性与技术原理。

Gemini 2.5 Computer Use的主要功能

  1. 浏览器操作:通过模拟人类点击、滚动和输入行为,实现网页导航与表单填写等基础交互功能。
  2. 任务自动化:支持跨平台多步骤操作,典型应用包括数据采集转存、智能预约管理等复杂流程处理。
  3. 视觉理解和推理:基于计算机视觉技术解析网页元素结构,结合语义分析智能推断后续操作步骤。
  4. 安全机制:内置双重防护体系,既在模型决策层进行风险评估,又设置用户确认环节保障关键操作安全。

Gemini 2.5 Computer Use的技术原理

  1. 核心工具:依托Gemini API的computer_use模块实现人机交互,该模块专门设计用于界面操作指令转换。
  2. 输入与输出
    1. 输入:整合三大数据源——用户指令文本、实时屏幕截图、操作历史日志,支持通过参数过滤敏感操作。
    2. 输出:生成标准化操作指令集,对于资金转账等高危操作强制插入人工确认环节。
  3. 循环流程:采用"感知-决策-执行"闭环机制,每次操作后自动更新环境状态数据,直至任务终止条件触发。
  4. 安全机制:独立安全服务实时监控操作指令流,开发者可配置风险策略,例如禁用医疗设备控制等特定功能。

Gemini 2.5 Computer Use的项目地址

  1. 项目官网:https://blog.google/technology/google-deepmind/gemini-computer-use-model/
  2. 技术论文:https://storage.googleapis.com/deepmind-media/Model-Cards/Gemini-2-5-Computer-Use-Model-Card.pdf

Gemini 2.5 Computer Use的应用场景

  1. UI 测试:实现7×24小时不间断界面压力测试,自动生成交互覆盖率报告提升软件质量。
  2. 个人助理:智能化管理日常事务,如自动比对航班价格并完成订票支付全流程。
  3. 工作流自动化:连接企业ERP/CRM系统,实现销售数据自动归集与报表生成。
  4. 客户服务:构建智能应答系统,实时解析客户问题并调取知识库生成解决方案。
  5. 教育与培训:在虚拟实验室中指导学生完成编程调试,即时反馈操作错误点。

Gemini 2.5 Computer Use通过融合视觉理解与智能决策技术,为浏览器自动化领域带来突破性进展,其安全可靠的任务执行能力正在重塑多个行业的工作方式。

相关标签:

Gemini