Gemini 图像生成器：AI 图像创建与编辑

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

Gemini 图像生成器：AI 图像创建与编辑 - Openclaw Skills

作者：互联网

2026-04-18

AI教程

什么是 Gemini 图像生成器？

Gemini 图像生成器是一款专为 AI 智能体设计的通用工具，用于执行复杂的视觉任务。基于 Nano Banana 框架，它支持文本生成图像、复杂的图像编辑以及多图合成。该技能同时兼容 Google 原生和 OpenAI 兼容的 API 格式，为使用 Openclaw Skills 的开发者提供了灵活的选择。

无论您是需要从头开始创建品牌图标，还是合并多达 14 张不同的图像，此工具都能处理复杂的技术工作。它通过对分辨率、纵横比和模型选择的精细控制，实现了与创意工作流的无缝集成。它支持高达 4K 的分辨率，确保高质量输出，适用于专业设计任务。

下载入口:https://github.com/openclaw/skills/tree/main/skills/wangyan/gemini-image-generator

安装与下载

1. ClawHub CLI

从源直接安装技能的最快方式。

npx clawhub@latest install gemini-image-generator

2. 手动安装

将技能文件夹复制到以下位置之一

全局模式 ~/.openclaw/skills/ 工作区 /skills/

优先级：工作区 > 本地 > 内置

3. 提示词安装

将此提示词复制到 OpenClaw 即可自动安装。

请帮我使用 Clawhub 安装 gemini-image-generator。如果尚未安装 Clawhub，请先安装（npm i -g clawhub）。

Gemini 图像生成器应用场景

根据文本描述生成图标、海报、横幅和图标。
使用自然语言指令编辑或修改现有照片。
将多张图像（最多 14 张）组合并合并为单个视觉资产。
为数字营销活动自动创建品牌视觉效果。
UI 组件和创意图像的快速原型设计。

Gemini 图像生成器工作原理

AI 智能体检测到与图像相关的意图，如绘图、创建图标或编辑照片。
系统验证依赖项，包括 python3 和 uv 包管理器。
该技能使用用户提示词和配置参数执行特定的 Python 脚本。
请求通过 Google 原生或 OpenAI 兼容的端点由 Gemini 模型处理。
脚本监控输出中的 MEDIA: 标签，以确保图像成功创建。
如果生成失败，系统会自动重试以确保可靠性。
最终图像以带有时间戳的文件名保存，并将本地路径返回给用户界面。

Gemini 图像生成器配置指南

要在您的 Openclaw Skills 库中使用此组件，请确保已安装 python3 和 uv。通过环境变量配置您的凭据。

# 基础图像生成
uv run {baseDir}/scripts/generate_image.py --prompt "a futuristic cyber city" --filename "output.png"

# 配置
export GEMINI_API_KEY="your_key_here"
export GEMINI_BASE_URL="https://your-api-endpoint.com/v1"

Gemini 图像生成器数据架构与分类体系

该技能使用以下结构组织生成的资产和元数据：

属性	格式 / 值	描述
文件名	`yyyy-mm-dd-hh-mm-ss-name.png`	用于组织的带时间戳的命名规范
输出目录	`images/`	所有生成媒体的默认存储位置
分辨率	`1K`, `2K`, `4K`	可配置的输出质量和尺寸
媒体标签	`MEDIA:`	用于在聊天界面自动附件的前缀
纵横比	`1:1`, `16:9`, `4:3` 等	支持各种显示格式

name: gemini-image-generator
description: >-
  Generate, edit, and compose images using Gemini models. Activate when user asks to generate images, draw, create logos/posters/icons/banners, edit/modify photos, combine images, or any image creation task.
  画图、生成图片、做图、P图、修图、合成图、做logo、做海报、做图标、做封面、品牌视觉、Nano Banana、Banana。

metadata:
  openclaw:
    emoji: "??"
    category: creative
    homepage: "https://github.com/wangyan/gemini-image-generator"
    requires:
      bins:
        - python3
        - uv
      env:
        - GEMINI_API_KEY
        - GEMINI_BASE_URL
    primaryEnv: GEMINI_API_KEY
    tags:
      - image-generation
      - image-editing
      - image-composition
      - text-to-image
      - logo-design
      - poster-design
      - brand-visual
      - gemini
      - nano-banana
      - nano-banana-pro
      - openai-compatible

Gemini Image Generator

通过 Nano Banana 实现文生图、图片编辑与多图合成，支持 OpenAI 兼容和 Google 原生两种 API 格式，可自定义端点和密钥。

?? 重要规则

必须调用脚本：命中图像生成/编辑/合成意图时，必须执行本技能脚本，禁止用文本描述替代图片输出。
依赖缺失报错：python3 或 uv 不可用时，返回 缺失依赖：{名称} + 安装命令，不做文本兜底。
自检输出产物：执行后检查输出是否含 MEDIA: 行。无产物则自动重试 1 次；仍失败输出 图片生成失败 - 原因/建议。

?? 触发判断

触发：画图、生成图片、做logo/海报/图标/封面、P图、修图、合成图、draw/generate/create image/logo/banner
不触发：图片分析、OCR、格式转换、图片搜索、图片评价

?? 使用方法

生成图片

uv run {baseDir}/scripts/generate_image.py --prompt "图片描述" --filename "output.png"

编辑图片（单图）

uv run {baseDir}/scripts/generate_image.py --prompt "编辑指令" --filename "edited.png" -i "/path/input.png" --resolution 2K

合成多张图片（最多 14 张）

uv run {baseDir}/scripts/generate_image.py --prompt "合成指令" --filename "composed.png" -i img1.png -i img2.png -i img3.png

自定义端点

uv run {baseDir}/scripts/generate_image.py --prompt "描述" --filename "output.png" r
  --base-url "https://example.com/v1" --api-key "sk-xxx" --model "gemini-3-pro-preview"

使用 Google 原生格式

uv run {baseDir}/scripts/generate_image.py --prompt "描述" --filename "output.png" --api-format google

?? 配置参考

优先级：命令行参数 > 环境变量（由 skills.entries.gemini-image-generator.env 注入）

参数	环境变量	说明
`--api-key` / `-k`	`apiKey`（通过 primaryEnv 注入）	API 密钥（必填）
`--base-url` / `-b`	`GEMINI_BASE_URL`	API 端点 URL（必填）
`--model` / `-m`	`GEMINI_MODEL`	模型名称（默认 `gemini-3-pro-preview`）
`--api-format` / `-F`	`GEMINI_API_FORMAT`	`openai`（默认）或 `google`
`--timeout` / `-t`	`GEMINI_TIMEOUT`	超时秒数（默认 300）
`--resolution` / `-r`	`GEMINI_RESOLUTION`	`1K`（默认）、`2K`、`4K`
`--output-dir` / `-o`	`GEMINI_OUTPUT_DIR`	输出目录（默认 `images`）

可选参数：

--input-image / -i：输入图片路径（可重复，最多 14 张）
--quality：standard（默认）或 hd
--style：natural（默认）或 vivid
--aspect-ratio / -a：宽高比（如 1:1、16:9、9:16、4:3、3:4）
--verbose / -v：输出详细调试

支持模型：

gemini-2.5-flash-image
gemini-3-pro-image-preview
gemini-3.1-flash-image-preview

?? 注意事项

文件名使用时间戳格式：yyyy-mm-dd-hh-mm-ss-name.png
脚本输出 MEDIA: 行供 OpenClaw 自动附件到聊天
不要回读图片内容，只报告保存路径
编辑模式下未指定分辨率时，自动根据输入图片尺寸推断
内置 429 限流和超时自动重试（最多 3 次）
API 响应格式详见 references/api-formats.md

上一篇：高德导航：智能 AI 路径规划与出行 - Openclaw Skills 下一篇：HashBox：为 AI 智能体提供的 iOS 推送通知 - Openclaw Skills