图像内容理解-图像智能分析-图片内容理解API接口介绍
作者:互联网
2026-04-14
简介
图像内容理解,即采用图像理解视觉大模型,可多维度识别与理解图片内容,包括人、物、行为、场景、文字等,支持输出对图片内容的一句话描述,同时返回图片的分类标签、文字内容等信息。主要功能包括:
图片理解与内容描述
多维度理解图片内容,支持输出对图片内容的一句话描述,结合大语言模型,可应用于看图问答、视觉推理等场景。物体和场景全识别
识别动物、植物、商品、建筑、风景、动漫、食材、公众人物等10万个常见物体及场景,支持拼接返回大类及细分类名称。图片文字全识别
检测并识别图片内的全部文字信息,涵盖文档、证件等常见场景,支持输出文字内容及文字位置。
API介绍
图像内容理解服务涉及 2 个接口,分别为:
图像内容理解-提交请求:支持传入图片、提问等参数,创建图像内容理解任务,该接口会返回任务ID。
图像内容理解-获取结果:在任务成功创建后,支持传入任务ID,查看任务处理的状态、获取处理完成后返回的结果。
详细说明请参考此处
提交请求
请求参数
| 名称 | 类型 | 必须 | 说明 |
|---|---|---|---|
| image | String | 否 | 图片的base64 |
| url | String | 否 | 图片完整 url,url 长度不超过 1024 字节 |
| question | String | 是 | 提问信息,如“这张图片里有什么?”、“图中的人物是谁,并进行简单介绍”,限制 100 个字符之内 |
- image、url 必须提供一个,优先级:url > base64。大小不超过10M,最短边至少64px,最长边最大8192px,图片格式支持jpg/jpeg/png格式。超过4096px的图片,将被自动等比例压缩至4096px进行处理,压缩后会影响处理效果
返回样例
{ "code": 200,// 返回码,详见返回码说明"msg": "成功",// 返回码对应描述"taskNo": "043439882226367117195632",// 本次请求号"data": { "taskId": "xxxx" //用于获取结果}
}
获取结果
请求参数
| 名称 | 类型 | 必须 | 说明 |
|---|---|---|---|
| taskId | String | 是 | 提交请求接口返回的taskId |
返回样例
``` json
{
"code": 200,//返回码,详见返回码说明
"msg": "成功",//返回码对应描述
"taskNo": "571436032193067500962066",//本次请求号
"data": {
"resultCode": "0",//任务状态,0:处理成功;1:处理中
"description": "这张图里面有:nn1. 一个人正在讲台上讲话, xxxxxx",//针对输入的 question 问题,对图片内容进行分析后输出的答案
"resultMsg": "处理成功" //任务状态描述
}
}
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
小龙虾 AI OpenClaw v2.6.2 安装步骤 无需手动配环境
阿里云大模型服务平台百炼新人免费额度如何申请?申请与使用免费额度教程及常见问题解答
办公 AI 工具 OpenClaw 部署 Windows 系统一站式教程
Qwen3.6 正式发布!阿里云百炼同步开启“AI大模型节省计划”超值优惠
【新手零难度操作 】OpenClaw 2.6.4 安装误区规避与快速使用指南(包含最新版安装包)
OpenClaw 2.6.4 可视化部署 打造个人 AI 数字员工(包含最新版安装包)
【小白友好!】OpenClaw 2.6.4 本地 AI 智能体快速搭建教程(内有安装包)
零基础部署 OpenClaw v2.6.2,Windows 系统完整教程
【适合新手的】零基础部署 OpenClaw 自动化工具教程
开发者们的第一台自主进化的“爱马仕”来了
AI精选
