?XinferenceV2.3.0重磅更新亮点速览不容错过
作者:互联网
2026-03-23
Xorbits Inference(Xinference)作为一款高性能分布式推理框架,支持大语言模型、语音识别及多模态模型等多种AI模型的快速部署。该框架简化了模型部署流程,内置前沿开源模型,助力研究者与开发者高效探索AI技术。
Xinference 的功能和亮点有:
- 模型推理,轻而易举:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。
- 前沿模型,应有尽有:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!
- 异构硬件,快如闪电:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!
- 接口调用,灵活多样:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。
- 集群计算,分布协同:支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。
- 开放生态,无缝对接:与流行的三方库无缝对接,包括 LangChain, LlamaIndex, Dify,以及 Chatbox。
———————————————————————— ————————————————————————
Xinference v2.3.0 更新日志
本次亮点
- 主流模型多格式支持完善 本次版本进一步完善了以下模型在不同推理引擎与模型格式下的支持,包括 vLLM、Transformers、量化模型以及 GGUF 模型:
- GLM-5
- Kimi-K2.5
- MiniMax-M2.5
- Qwen3.5 其中 Qwen3.5 重点修复并完善了在多个推理引擎下的兼容性问题,使其在不同运行环境中的部署更加稳定。
社区版更新
安装方式
- pip 安装:pip install ‘xinference==2.3.0’
- Docker:拉取最新版镜像,或在容器中使用 pip 更新
模型更新
- 完善以下模型的多引擎与多格式支持:
- GLM-5
- Kimi-K2.5
- MiniMax-M2.5
- Qwen3.5
新特性
- vLLM 引擎支持 Qwen3.5
- 新增 seed 与 repetition_penalty 参数,用于精度测试与推理控制
功能增强
- Transformers 引擎支持 Qwen3.5
- 持续更新模型 JSON 配置,提升模型兼容性
Bug 修复
- 修复 WorkerWrapperBase.init() 参数冲突问题 (rpc_rank)
- 修复 qwen3-vl-embedding 在 vLLM 下的检查问题
- 修复多 GPU 聊天推理问题
- 修复 Qwen3.5 在 vLLM 下因缺少 generation_config.json 导致的启动问题
- 修复 UI 表单默认值初始化问题
文档更新
- 新增 v2.2.0 发布说明
- 若干文档细节修正
企业版
Xinference 企业版 1.0 正式发布
- 企业版 1.0 首次正式发布,标志着 Xinference 企业级能力进入稳定阶段。
参考
- https://xinference.cn/release_notes/v2.3.0.html
———————————————————————— ————————————————————————
感谢社区对Xinference的支持,我们将持续优化框架功能,为AI开发者提供更强大的模型推理工具。欢迎通过GitHub获取最新版本信息。
相关标签:
相关推荐
专题
+ 收藏
+ 收藏
+ 收藏
+ 收藏
+ 收藏
最新数据
相关文章
Elasticsearch93新增bfloat16向量支持
解析OceanBase生态工具链之OAT_obd_OCP_obshell
贝叶斯不确定性引导的早停框架ESTune与OceanBase校企联合研究
杈炬ⅵ&浜哄ぇ閲戜粨閫傞厤瀹炴垬锛歋eaTunnel鍦ㄤ俊鍒涙暟鎹钩鍙颁腑鐨勫簲鐢ㄤ笌韪╁潙鎬荤粨
2026年1月中国数据库流行度排行榜:OB连冠领跑贺新元PolarDB跃居次席显锐气
社区译文解析FUD与真相MySQL是否真的被弃用了
英伟达重新规划AI推理加速布局 暂停Rubin CPU转攻Groq LPU
gpress v1.2.2 全新上线 Web3内容平台迎来更新
CMake 4.3.0 正式推出
短剧采用AI换脸技术使角色酷似明星 制作方与播出方构成侵权
AI精选
