Gemini 图像生成器:AI 图像创建与编辑 - Openclaw Skills
作者:互联网
2026-04-18
什么是 Gemini 图像生成器?
Gemini 图像生成器是一款专为 AI 智能体设计的通用工具,用于执行复杂的视觉任务。基于 Nano Banana 框架,它支持文本生成图像、复杂的图像编辑以及多图合成。该技能同时兼容 Google 原生和 OpenAI 兼容的 API 格式,为使用 Openclaw Skills 的开发者提供了灵活的选择。
无论您是需要从头开始创建品牌图标,还是合并多达 14 张不同的图像,此工具都能处理复杂的技术工作。它通过对分辨率、纵横比和模型选择的精细控制,实现了与创意工作流的无缝集成。它支持高达 4K 的分辨率,确保高质量输出,适用于专业设计任务。
下载入口:https://github.com/openclaw/skills/tree/main/skills/wangyan/gemini-image-generator
安装与下载
1. ClawHub CLI
从源直接安装技能的最快方式。
npx clawhub@latest install gemini-image-generator
2. 手动安装
将技能文件夹复制到以下位置之一
全局模式~/.openclaw/skills/
工作区
/skills/
优先级:工作区 > 本地 > 内置
3. 提示词安装
将此提示词复制到 OpenClaw 即可自动安装。
请帮我使用 Clawhub 安装 gemini-image-generator。如果尚未安装 Clawhub,请先安装(npm i -g clawhub)。
Gemini 图像生成器 应用场景
- 根据文本描述生成图标、海报、横幅和图标。
- 使用自然语言指令编辑或修改现有照片。
- 将多张图像(最多 14 张)组合并合并为单个视觉资产。
- 为数字营销活动自动创建品牌视觉效果。
- UI 组件和创意图像的快速原型设计。
- AI 智能体检测到与图像相关的意图,如绘图、创建图标或编辑照片。
- 系统验证依赖项,包括 python3 和 uv 包管理器。
- 该技能使用用户提示词和配置参数执行特定的 Python 脚本。
- 请求通过 Google 原生或 OpenAI 兼容的端点由 Gemini 模型处理。
- 脚本监控输出中的 MEDIA: 标签,以确保图像成功创建。
- 如果生成失败,系统会自动重试以确保可靠性。
- 最终图像以带有时间戳的文件名保存,并将本地路径返回给用户界面。
Gemini 图像生成器 配置指南
要在您的 Openclaw Skills 库中使用此组件,请确保已安装 python3 和 uv。通过环境变量配置您的凭据。
# 基础图像生成
uv run {baseDir}/scripts/generate_image.py --prompt "a futuristic cyber city" --filename "output.png"
# 配置
export GEMINI_API_KEY="your_key_here"
export GEMINI_BASE_URL="https://your-api-endpoint.com/v1"
Gemini 图像生成器 数据架构与分类体系
该技能使用以下结构组织生成的资产和元数据:
| 属性 | 格式 / 值 | 描述 |
|---|---|---|
| 文件名 | yyyy-mm-dd-hh-mm-ss-name.png |
用于组织的带时间戳的命名规范 |
| 输出目录 | images/ |
所有生成媒体的默认存储位置 |
| 分辨率 | 1K, 2K, 4K |
可配置的输出质量和尺寸 |
| 媒体标签 | MEDIA: |
用于在聊天界面自动附件的前缀 |
| 纵横比 | 1:1, 16:9, 4:3 等 |
支持各种显示格式 |
name: gemini-image-generator
description: >-
Generate, edit, and compose images using Gemini models. Activate when user asks to generate images, draw, create logos/posters/icons/banners, edit/modify photos, combine images, or any image creation task.
画图、生成图片、做图、P图、修图、合成图、做logo、做海报、做图标、做封面、品牌视觉、Nano Banana、Banana。
metadata:
openclaw:
emoji: "??"
category: creative
homepage: "https://github.com/wangyan/gemini-image-generator"
requires:
bins:
- python3
- uv
env:
- GEMINI_API_KEY
- GEMINI_BASE_URL
primaryEnv: GEMINI_API_KEY
tags:
- image-generation
- image-editing
- image-composition
- text-to-image
- logo-design
- poster-design
- brand-visual
- gemini
- nano-banana
- nano-banana-pro
- openai-compatible
Gemini Image Generator
通过 Nano Banana 实现文生图、图片编辑与多图合成,支持 OpenAI 兼容和 Google 原生两种 API 格式,可自定义端点和密钥。
?? 重要规则
- 必须调用脚本:命中图像生成/编辑/合成意图时,必须执行本技能脚本,禁止用文本描述替代图片输出。
- 依赖缺失报错:
python3或uv不可用时,返回缺失依赖:{名称}+ 安装命令,不做文本兜底。 - 自检输出产物:执行后检查输出是否含
MEDIA:行。无产物则自动重试 1 次;仍失败输出图片生成失败 - 原因/建议。
?? 触发判断
- 触发:画图、生成图片、做logo/海报/图标/封面、P图、修图、合成图、draw/generate/create image/logo/banner
- 不触发:图片分析、OCR、格式转换、图片搜索、图片评价
?? 使用方法
生成图片
uv run {baseDir}/scripts/generate_image.py --prompt "图片描述" --filename "output.png"
编辑图片(单图)
uv run {baseDir}/scripts/generate_image.py --prompt "编辑指令" --filename "edited.png" -i "/path/input.png" --resolution 2K
合成多张图片(最多 14 张)
uv run {baseDir}/scripts/generate_image.py --prompt "合成指令" --filename "composed.png" -i img1.png -i img2.png -i img3.png
自定义端点
uv run {baseDir}/scripts/generate_image.py --prompt "描述" --filename "output.png" r
--base-url "https://example.com/v1" --api-key "sk-xxx" --model "gemini-3-pro-preview"
使用 Google 原生格式
uv run {baseDir}/scripts/generate_image.py --prompt "描述" --filename "output.png" --api-format google
?? 配置参考
优先级:命令行参数 > 环境变量(由 skills.entries.gemini-image-generator.env 注入)
| 参数 | 环境变量 | 说明 |
|---|---|---|
--api-key / -k |
apiKey(通过 primaryEnv 注入) |
API 密钥(必填) |
--base-url / -b |
GEMINI_BASE_URL |
API 端点 URL(必填) |
--model / -m |
GEMINI_MODEL |
模型名称(默认 gemini-3-pro-preview) |
--api-format / -F |
GEMINI_API_FORMAT |
openai(默认)或 google |
--timeout / -t |
GEMINI_TIMEOUT |
超时秒数(默认 300) |
--resolution / -r |
GEMINI_RESOLUTION |
1K(默认)、2K、4K |
--output-dir / -o |
GEMINI_OUTPUT_DIR |
输出目录(默认 images) |
可选参数:
--input-image/-i:输入图片路径(可重复,最多 14 张)--quality:standard(默认)或hd--style:natural(默认)或vivid--aspect-ratio/-a:宽高比(如1:1、16:9、9:16、4:3、3:4)--verbose/-v:输出详细调试
支持模型:
gemini-2.5-flash-imagegemini-3-pro-image-previewgemini-3.1-flash-image-preview
?? 注意事项
- 文件名使用时间戳格式:
yyyy-mm-dd-hh-mm-ss-name.png - 脚本输出
MEDIA:行供 OpenClaw 自动附件到聊天 - 不要回读图片内容,只报告保存路径
- 编辑模式下未指定分辨率时,自动根据输入图片尺寸推断
- 内置 429 限流和超时自动重试(最多 3 次)
- API 响应格式详见 references/api-formats.md
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
Meme Safe Scanner:加密货币链上安全审计 - Openclaw Skills
Bio Generator:自动化专业简历生成 - Openclaw Skills
AI 写作助手:专业内容自动化 - Openclaw Skills
ClawCierge:AI 餐厅预订与探索 - Openclaw Skills
ClawSavings:以色列折扣与价格比较 - Openclaw Skills
航班查询:实时航空旅行数据检索 - Openclaw Skills
Code Intelligence Pro:高级 AI 代码分析 - Openclaw Skills
OpenClaw 路由器:安装与管理核心路由 - Openclaw Skills
SMTP 发送:通过 Resend 和 SMTP 自动化邮件 - Openclaw Skills
免费 AI 图像生成:Flux 和 DALL-E - Openclaw Skills
AI精选
