Lightricks开源视频生成模型LTX-2.3最新一代-脚本在线

AI智能体脚本智能办公脚本自动化游戏脚本浏览器自动化脚本服务器脚本

Lightricks开源视频生成模型LTX-2.3最新一代

作者：互联网

2026-03-24

AI模型库

作为新一代开源视频生成模型，LTX-2.3凭借其创新的架构和强大的功能，正在重新定义AI视频创作的可能性。这款由知名AI公司开发的工具为创作者带来了前所未有的灵活性。

LTX-2.3是什么

LTX-2.3作为最新开源的视频生成解决方案，基于先进的Diffusion Transformer架构构建，具备220亿参数规模。该模型支持文本、图像和音频三种输入方式，能够输出最高4K分辨率的视频内容，并原生适配9:16竖屏格式。在帧率选择方面，提供24FPS和48FPS两种专业选项。与前代产品相比，LTX-2.3通过全新设计的VAE架构大幅提升了画面细节表现力，有效解决了高分辨率下的纹理模糊问题。同时，该模型还创新性地整合了音频生成功能，实现了音视频同步输出。用户可以通过7个不同的生成端点进行创作，单次最长可生成20秒视频内容，并支持LoRA微调功能。

LTX-2.3的主要功能

多模态视频生成：提供文本生视频、图像生视频和音频生视频三种核心生成模式，全面覆盖各类创作需求。
原生竖屏支持：专门优化了9:16竖屏格式支持，最高可输出1080×1920分辨率，完美适配主流短视频平台。
音视频同步生成：内置音频生成模块，可同步输出环境音效和对话内容，同时也支持通过音频输入驱动视频画面生成。
灵活帧率选择：为用户提供24FPS电影级效果和48FPS流畅运动两种专业帧率选项。
视频延展与重拍：配备视频延长和片段重生成功能，单次最长可生成20秒内容，通过延展功能可进一步增加时长。
快速生成模式：针对效率优先场景，提供文本生视频和图像生视频的加速版本。
高分辨率输出：支持最高4K分辨率输出，配合全新VAE架构确保画面细节和纹理表现达到专业水准。
LoRA 微调支持：允许创作者在本地进行LoRA适配器训练，通常在1小时内即可完成个性化模型微调。
配套超分工具：内置2x/1.5x空间超分和2x帧率提升的后处理模型，显著优化最终输出质量。
本地桌面编辑器：同步推出基于LTX-2.3引擎的开源视频编辑器，所有处理均在本地完成，无需依赖云端服务。

LTX-2.3的技术原理

DiT 扩散Transformer架构：采用创新的Diffusion Transformer架构，将扩散模型与Transformer相结合，通过迭代去噪过程生成高质量视频内容，模型参数规模达220亿。
全新VAE变分自编码器：经过重新训练的Variational Autoencoder显著提升了编码-解码质量，有效改善画面锐度、纹理细节和面部特征清晰度，解决了前代产品在高分辨率下的细节模糊问题。
时空联合建模：运用时空分离的注意力机制处理视频数据，同时建模空间维度的画面内容和时序维度的运动变化，确保生成视频的时序连贯性。
原生音频生成模块：集成专业音频生成子网络，实现音视频端到端同步生成，支持通过音频输入驱动视觉内容生成，保证声画完美同步。
多模态条件注入：采用多种条件编码器将文本、图像和音频三种模态输入统一映射到潜在空间，实现灵活的多模态控制。
蒸馏加速版本：提供经过知识蒸馏技术处理的模型版本，在保持质量的前提下显著提升推理速度。
LoRA低秩适配：支持Low-Rank Adaptation技术，让用户能够在预训练模型基础上快速注入特定风格或概念，实现低成本个性化定制。
超分辨率后处理：配备独立的超分模型，采用空间上采样和帧率插值技术，对生成视频进行二次质量优化。