革命性AI创新！一句话即可打造震撼120秒超长视频，免费开源，引爆你的创作激情！

罗布斯2024-04-192024-07-18

# 欣赏 AI 生成的视频效果

最新发布的 StreamingT2V 模型，由 Picsart AI Research 团队倾力打造，引领视频生成领域的革新！超越 Sora 模型，轻松创造长达 2 分钟（1200 帧）的高品质视频！更令人振奋的是，
这一开源模型与 SVD、animatediff 等其他模型完美兼容，为视频生成领域带来了前所未有的突破！

# 亮点总结

创造长达 2 分钟（1200 帧）的视频，超越以往模型
视频质量卓越，呈现高品质效果
与其他主流模型实现无缝衔接，提供更多创作可能性
开源免费，方便开发者使用和进行二次开发

# 免费体验

免费在线试玩：点击跳转

# 本地搭建

安装并安装 Python 3.10 and CUDA >= 11.6 环境 Python 3
、Cuda 下载
克隆开源项目至本地：

1 2	git clone https://github.com/Picsart-AI-Research/StreamingT2V.git cd StreamingT2V/

安装必备的环境：

1
2
3

conda create -n st2v python=3.10
conda activate st2v
pip install -r requirements.txt

可选 如果您的系统上缺少 FFmpeg，请安装 FFmpeg

1	conda install conda-forge::ffmpeg

从 huggingface 下载模型并将它放在 t2v_enhanced/checkpoints 目录下
文本转视频

1 2	cd t2v_enhanced python inference.py --prompt="A white bone spirit riding a motorcycle"

# 基础模型推理时间对比

# ModelscopeT2V 作为基础模型

帧数	更快预览的推理时间 (256×256)	最终结果的推理时间 (720×720)
24 帧	40 秒	165 秒
56 帧	75 秒	360 秒
80 帧	110 秒	525 秒
240 帧	340 秒	1610 秒（约 27 分钟）
600 帧	860 秒	5128 秒（约 85 分钟）
1200 帧	1710 秒（约 28 分钟）	10225 秒（约 170 分钟）

# AnimateDiff 作为基础模型

帧数	更快预览的推理时间 (256×256)	最终结果的推理时间 (720×720)
24 帧	50 秒	180 秒
56 帧	85 秒	370 秒
80 帧	120 秒	535 秒
240 帧	350 秒	1620 秒（约 27 分钟）
600 帧	870 秒	5138 秒（~85 分钟）
1200 帧	1720 秒（约 28 分钟）	10235 秒（约 170 分钟）

# SVD 作为基本模型

帧数	更快预览的推理时间 (256×256)	最终结果的推理时间 (720×720)
24 帧	80 秒	210 秒
56 帧	115 秒	400 秒
80 帧	150 秒	565 秒
240 帧	380 秒	1650 秒（约 27 分钟）
600 帧	900 秒	5168 秒（~86 分钟）
1200 帧	1750 秒（约 29 分钟）	10265 秒（~171 分钟）