TTT-Video五阶段训练策略:如何从3秒扩展到63秒视频生成

张开发
2026/4/20 17:48:48 15 分钟阅读

分享文章

TTT-Video五阶段训练策略:如何从3秒扩展到63秒视频生成
TTT-Video五阶段训练策略如何从3秒扩展到63秒视频生成【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-ditTTT-Video是GitHub加速计划中的一个创新项目它通过Test-Time Training技术实现了从3秒到63秒的长视频生成能力。本文将详细介绍TTT-Video的五阶段训练策略帮助你理解如何通过循序渐进的训练过程让AI模型逐步掌握生成更长视频的能力。五阶段训练策略概述TTT-Video采用了基于视频长度的五阶段课程学习方法每个阶段都建立在前一阶段的基础上逐步提升模型生成视频的能力。这种循序渐进的训练方式使得模型能够平稳地从生成短视频过渡到生成长达1分钟的视频。TTT-Video的五阶段训练策略示意图展示了从3秒到63秒视频生成的扩展过程阶段一3秒视频训练第一阶段从预训练权重开始训练模型生成3秒长度的视频。这一阶段采用全监督微调SFT所有参数都是可训练的。配置文件路径configs/train/ttt-linear/3s.toml和configs/train/ttt-mlp/3s.toml阶段二9秒视频训练第二阶段从第一阶段的最终检查点开始训练模型生成9秒长度的视频。从这一阶段开始只有TTT参数和局部注意力的QVKO投影是可训练的。配置文件路径configs/train/ttt-linear/9s.toml和configs/train/ttt-mlp/9s.toml阶段三18秒视频训练第三阶段从第二阶段的最终检查点开始训练模型生成18秒长度的视频。同样只有TTT参数和局部注意力的QVKO投影参与训练。配置文件路径configs/train/ttt-linear/18s.toml和configs/train/ttt-mlp/18s.toml阶段四30秒视频训练第四阶段从第三阶段的最终检查点开始训练模型生成30秒长度的视频。训练参数继续限制在TTT参数和局部注意力的QVKO投影。配置文件路径configs/train/ttt-linear/30s.toml和configs/train/ttt-mlp/30s.toml阶段五63秒视频训练第五阶段是最后一个阶段从第四阶段的最终检查点开始训练模型生成63秒1分钟长度的视频。这一阶段完成后模型将具备生成长达1分钟视频的能力。配置文件路径configs/train/ttt-linear/63s.toml和configs/train/ttt-mlp/63s.toml模型加载与初始化从CogVideoX开始TTT-Video的微调从HuggingFace上的CogVideoX 5B预训练权重开始。项目提供了一个权重转换脚本可以下载权重并将模型state_dict转换为正确的格式bash scripts/convert_weights_from_hf.sh这个脚本只需要在3秒训练阶段运行一次。对于后续所有阶段应该使用上一个训练阶段结束时的最终检查点。加载模型状态对于每个阶段都需要指定开始训练时使用的模型权重。这通过checkpoint.init_state_dir配置选项完成。对于3秒阶段这将是上面创建的转换后的预训练权重的路径。对于后续阶段这应该是上一个训练阶段结束时的最终检查点。启动训练作业配置文件使用所有训练阶段的配置都预定义在configs/train目录中。要在特定阶段进行训练只需将job.config_file配置选项设置为相应的配置文件。大多数配置都在configs/train中预设但可以从启动脚本中覆盖。你需要更新以下内容checkpoint.init_state_dir模型状态字典的路径training.dataset_path数据集目录的路径training.jsonl_paths数据集元数据的路径单节点运行项目提供了一个在单节点上运行测试的脚本scripts/train_singlenode.sh多节点运行对于多节点的完整训练作业项目提供了一个通过slurm在多个节点上运行的脚本。使用submitit在多个节点上启动训练循环scripts/train_submitit.sh代码实现了恢复、自动恢复、检查点和日志记录的逻辑。如果使用自动恢复确保作业名称不变因为脚本将查找同名实验的检查点。长视频生成效果展示通过五阶段训练策略TTT-Video能够生成连贯、流畅的长视频。以下是一个63秒视频生成的示例展示了从开始到结束的完整故事线TTT-Video生成的63秒视频帧序列展示了完整的故事发展过程总结TTT-Video的五阶段训练策略为从3秒扩展到63秒视频生成提供了一个清晰、有效的路径。通过循序渐进地增加视频长度模型能够逐步适应更长的时间上下文同时保持生成质量。如果你只需要特定长度的视频可以在相应的阶段停止训练。无论是研究人员还是AI爱好者都可以通过这个项目探索长视频生成的奥秘体验Test-Time Training技术带来的创新突破。要开始使用TTT-Video只需克隆仓库并按照训练指南进行操作git clone https://gitcode.com/gh_mirrors/tt/ttt-video-dit更多关于数据集的信息请查看docs/dataset.md。【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-dit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

更多文章