LTX-2：生产就绪的AI视频与音频生成模型

Name: LTX-2
Rating: 4.8 (1250 reviews)
Author: Lightricks

首个开源DiT架构基础模型，支持同步4K视频和音频生成，拥有190亿参数

🎬 4K视频生成 🎵 同步音频 ⚡ 190亿参数 🔓 开源 (Apache 2.0)

免费图像生成器免费试用演示查看GitHub

试用 LTX-2 在线演示

实时体验AI驱动的4K视频和音频生成

如果持续加载失败，请检查您的网络连接

演示暂时不可用

直接访问

如何使用LTX-2演示

文本生成视频

• 输入描述视频的文本提示
• 选择视频时长和质量设置
• 生成高质量4K视频输出

图像转视频动画

• 上传静态图像作为输入
• 添加动作提示进行动画
• 生成带同步音频的视频

LTX-2 的强大功能

探索使LTX-2成为领先开源AI视频生成模型的先进功能

📝

文本生成视频

使用LTX-2先进的DiT架构，从文本提示生成高质量视频

🖼️

图像转视频动画

将静态图像转换为具有流畅运动和自然过渡的动态视频

🎵

同步音视频

在单一统一模型中创建完美同步的音频和视频内容

🎬

4K高分辨率

生成具有空间放大功能的生产就绪4K视频

🎯

LoRA微调

通过高效的LoRA训练为特定风格、动作或外观定制LTX-2

⚡

多种性能模式

从dev、distilled或量化(fp8/fp4)模型中选择，实现最佳速度质量平衡

先进的DiT架构

LTX-2采用尖端的扩散Transformer技术，拥有190亿参数

模型规格

LTX-2基于扩散Transformer(DiT)架构构建，是首个在单一统一模型中生成同步音频和视频的模型。拥有190亿参数，为专业工作流程提供生产就绪的质量。

可用模型变体：

ltx-2-19b-dev (全精度, bf16)
ltx-2-19b-dev-fp8 (fp8量化)
ltx-2-19b-dev-fp4 (nvfp4量化)
ltx-2-19b-distilled (8步, CFG=1)

放大模型：

空间放大器 (x2分辨率)
时间放大器 (x2帧率)

系统要求：

Python ≥3.12
CUDA >12.7
PyTorch ~2.7

LTX-2 的实际应用

探索LTX-2如何赋能各行业创作者

内容创作

使用LTX-2的文本生成视频功能，从文本描述生成引人入胜的社交媒体视频

影视制作

使用LTX-2的4K生成功能，为电影制作人提供快速原型和预可视化

营销与广告

使用LTX-2的音视频合成功能创建带有同步音频的宣传视频

教育与培训

使用LTX-2的图像转视频动画制作教育内容和教程

研究与开发

使用LTX-2的开源架构进行AI视频生成技术实验

游戏开发

使用LTX-2的视频转视频功能生成电影级过场动画和预告片

LTX-2 视频示例

探索LTX-2生成的精彩示例

文本生成视频：电影场景

山脉上空戏剧性的日落与流动的云彩

4K分辨率 5秒

图像转视频：肖像动画

静态肖像通过自然运动变得生动

1080p 3秒

音视频：音乐视频

同步音频和视频生成

4K 带音频

视频转视频：风格迁移

用新的艺术风格转换现有视频

1080p 4秒

LoRA微调：自定义风格

针对特定艺术风格微调的LTX-2

4K 6秒

放大：4K增强

空间和时间放大演示

4K 50 FPS

开始使用 LTX-2

几分钟内在本地安装并运行LTX-2

安装

git clone https://github.com/Lightricks/LTX-2.git
cd LTX-2
uv sync
source .venv/bin/activate

克隆LTX-2仓库并使用uv包管理器设置环境

系统要求

Python版本

≥ 3.12

CUDA版本

> 12.7

PyTorch版本

~ 2.7

在GitHub查看完整文档

关于 LTX-2 的常见问题

查找关于LTX-2的常见问题答案

LTX-2是一个190亿参数的DiT架构AI基础模型，用于同步音视频生成。它是首个此类开源模型，能够从文本提示、图像或现有视频生成高质量4K视频和同步音频。

LTX-2支持多种生成模式：文本生成视频、图像生成视频、视频转视频、音频生成视频以及联合音视频内容创作。它可以生成高达4K分辨率的视频并带有同步音频。

LTX-2需要Python ≥3.12、CUDA >12.7、PyTorch ~2.7以及具有足够VRAM的NVIDIA GPU。确切的VRAM要求取决于您选择的模型变体和生成设置。

是的，LTX-2在Apache 2.0许可下完全开源。您可以自由使用、修改和分发LTX-2用于个人和商业项目。

LTX-2提供多个变体：dev(bf16全精度)、fp8和fp4量化版本用于更快推理，以及针对速度优化的蒸馏版本。此外，还提供空间和时间放大模型。

是的，LTX-2支持LoRA微调用于自定义风格、动作和外观。在许多设置中，您可以在不到1小时内训练动作、风格或相似度LoRA。

LTX-2支持高达4K分辨率的空间放大功能。基础模型生成各种分辨率的视频，空间放大器可以将它们增强到4K质量。

生成时间取决于您选择的模型变体。蒸馏版本最快，只需8步，而dev版本提供最高质量但需要更长时间。量化版本(fp8/fp4)提供良好的平衡。

是的，LTX-2是首个在单一模型中生成同步音频和视频的DiT模型。它可以为各种应用创建完美匹配的音视频内容。

您可以在HuggingFace Spaces上试用在线演示：huggingface.co/spaces/Lightricks/ltx-2-distilled，或从GitHub安装LTX-2到本地以获得完全控制和自定义。

LTX-2：生产就绪的AI视频与音频生成模型

试用 LTX-2 在线演示

演示暂时不可用

如何使用LTX-2演示

文本生成视频

图像转视频动画

最新文章

LTX-2 的强大功能

文本生成视频

图像转视频动画

同步音视频

4K高分辨率

LoRA微调

多种性能模式

先进的DiT架构

模型规格

可用模型变体：

放大模型：

系统要求：

LTX-2 的实际应用

内容创作

影视制作

营销与广告

教育与培训

研究与开发

游戏开发

LTX-2 视频示例

文本生成视频：电影场景

图像转视频：肖像动画

音视频：音乐视频

视频转视频：风格迁移

LoRA微调：自定义风格

放大：4K增强

开始使用 LTX-2

安装

系统要求

关于 LTX-2 的常见问题