TTT-Video五阶段训练策略：如何从3秒扩展到63秒视频生成

张开发

• 2026/4/20 17:48:48 • 15 分钟阅读

分享文章

TTT-Video五阶段训练策略如何从3秒扩展到63秒视频生成【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-ditTTT-Video是GitHub加速计划中的一个创新项目它通过Test-Time Training技术实现了从3秒到63秒的长视频生成能力。本文将详细介绍TTT-Video的五阶段训练策略帮助你理解如何通过循序渐进的训练过程让AI模型逐步掌握生成更长视频的能力。五阶段训练策略概述TTT-Video采用了基于视频长度的五阶段课程学习方法每个阶段都建立在前一阶段的基础上逐步提升模型生成视频的能力。这种循序渐进的训练方式使得模型能够平稳地从生成短视频过渡到生成长达1分钟的视频。TTT-Video的五阶段训练策略示意图展示了从3秒到63秒视频生成的扩展过程阶段一3秒视频训练第一阶段从预训练权重开始训练模型生成3秒长度的视频。这一阶段采用全监督微调SFT所有参数都是可训练的。配置文件路径configs/train/ttt-linear/3s.toml和configs/train/ttt-mlp/3s.toml阶段二9秒视频训练第二阶段从第一阶段的最终检查点开始训练模型生成9秒长度的视频。从这一阶段开始只有TTT参数和局部注意力的QVKO投影是可训练的。配置文件路径configs/train/ttt-linear/9s.toml和configs/train/ttt-mlp/9s.toml阶段三18秒视频训练第三阶段从第二阶段的最终检查点开始训练模型生成18秒长度的视频。同样只有TTT参数和局部注意力的QVKO投影参与训练。配置文件路径configs/train/ttt-linear/18s.toml和configs/train/ttt-mlp/18s.toml阶段四30秒视频训练第四阶段从第三阶段的最终检查点开始训练模型生成30秒长度的视频。训练参数继续限制在TTT参数和局部注意力的QVKO投影。配置文件路径configs/train/ttt-linear/30s.toml和configs/train/ttt-mlp/30s.toml阶段五63秒视频训练第五阶段是最后一个阶段从第四阶段的最终检查点开始训练模型生成63秒1分钟长度的视频。这一阶段完成后模型将具备生成长达1分钟视频的能力。配置文件路径configs/train/ttt-linear/63s.toml和configs/train/ttt-mlp/63s.toml模型加载与初始化从CogVideoX开始TTT-Video的微调从HuggingFace上的CogVideoX 5B预训练权重开始。项目提供了一个权重转换脚本可以下载权重并将模型state_dict转换为正确的格式bash scripts/convert_weights_from_hf.sh这个脚本只需要在3秒训练阶段运行一次。对于后续所有阶段应该使用上一个训练阶段结束时的最终检查点。加载模型状态对于每个阶段都需要指定开始训练时使用的模型权重。这通过checkpoint.init_state_dir配置选项完成。对于3秒阶段这将是上面创建的转换后的预训练权重的路径。对于后续阶段这应该是上一个训练阶段结束时的最终检查点。启动训练作业配置文件使用所有训练阶段的配置都预定义在configs/train目录中。要在特定阶段进行训练只需将job.config_file配置选项设置为相应的配置文件。大多数配置都在configs/train中预设但可以从启动脚本中覆盖。你需要更新以下内容checkpoint.init_state_dir模型状态字典的路径training.dataset_path数据集目录的路径training.jsonl_paths数据集元数据的路径单节点运行项目提供了一个在单节点上运行测试的脚本scripts/train_singlenode.sh多节点运行对于多节点的完整训练作业项目提供了一个通过slurm在多个节点上运行的脚本。使用submitit在多个节点上启动训练循环scripts/train_submitit.sh代码实现了恢复、自动恢复、检查点和日志记录的逻辑。如果使用自动恢复确保作业名称不变因为脚本将查找同名实验的检查点。长视频生成效果展示通过五阶段训练策略TTT-Video能够生成连贯、流畅的长视频。以下是一个63秒视频生成的示例展示了从开始到结束的完整故事线TTT-Video生成的63秒视频帧序列展示了完整的故事发展过程总结TTT-Video的五阶段训练策略为从3秒扩展到63秒视频生成提供了一个清晰、有效的路径。通过循序渐进地增加视频长度模型能够逐步适应更长的时间上下文同时保持生成质量。如果你只需要特定长度的视频可以在相应的阶段停止训练。无论是研究人员还是AI爱好者都可以通过这个项目探索长视频生成的奥秘体验Test-Time Training技术带来的创新突破。要开始使用TTT-Video只需克隆仓库并按照训练指南进行操作git clone https://gitcode.com/gh_mirrors/tt/ttt-video-dit更多关于数据集的信息请查看docs/dataset.md。【免费下载链接】ttt-video-ditOfficial PyTorch implementation of One-Minute Video Generation with Test-Time Training项目地址: https://gitcode.com/gh_mirrors/tt/ttt-video-dit创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考

更多文章

前端开发 2026/4/20 17:45:21

UBLOX F9P RTK基准站配置详解：如何正确设置TMODE3和RTCM3报文（避坑1005报文变灰）

UBLOX F9P RTK基准站配置实战：从TMODE3参数优化到RTCM3报文调试全指南当你在野外架设好三脚架，接上F9P模块和天线，满心期待开始RTK测量时，却发现流动站始终无法获得固定解——这种挫败感每个测绘工程师都深有体会。问题的根源往往…

Ai论文网站排名（开题报告、文献综述、降aigc率、降重综合对比） TOP1. 千笔AI TOP2. aipasspaper TOP3. 清北论文 TOP4. 豆包 TOP5. kimi TOP6. deepseek 作为智能写作辅助工具的一键论文生成器，能依据用户所输入的主题、关键词或者大纲…

张开发

前端开发 2026/4/20 17:17:24

从‘老王分遗产’到智能指针：用生活例子彻底搞懂C++的dynamic_cast和std::dynamic_pointer_cast

从‘老王分遗产’到智能指针：用生活例子彻底搞懂C的dynamic_cast和std::dynamic_pointer_cast 想象一下，你正在处理一个复杂的家族遗产分配问题。老王有一对儿女——小明和小红，他们各自有不同的财产继承方式。在C的世界里，这种家…

张开发

TTT-Video五阶段训练策略：如何从3秒扩展到63秒视频生成

最新文章

Lumafly：空洞骑士模组管理终极指南，告别繁琐配置的跨平台解决方案

别再为MacBook显卡发愁了！手把手教你用Google Colab免费GPU跑PyTorch/TensorFlow项目

WebGPU入门指南：下一代Web图形API的革命

SAP 事务代码SO10创建的TEXT如何通过TR传输？

别再手动对比MySQL数据了！用官方工具mysqldbcompare一键生成差异SQL（附CentOS 7安装避坑指南）

终极指南：如何免费使用Xenos实现Windows进程DLL注入

推荐文章

5步掌握G-Helper：华硕笔记本轻量级性能控制终极实战指南

如何用Python-miio轻松控制小米智能设备：2025终极教程

还在为电路板文件查看烦恼？OpenBoardView让你轻松掌握.brd文件分析

从ESP8266到STM32：手把手教你为不同MCU移植LwIP 2.1.2协议栈（附源码分析）

软件供应商管理化的合作伙伴关系维护

手把手教你用STM32CubeMX配置MAX30102心率血氧模块（附完整代码与接线图）

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

UBLOX F9P RTK基准站配置详解：如何正确设置TMODE3和RTCM3报文（避坑1005报文变灰）

【微软内部验证通过】：C# 14 原生 AOT 部署 Dify 客户端的5步黄金流程，从本地构建到K8s Pod就绪仅需83秒

5分钟快速上手：Windows风扇控制软件FanControl完全指南

Chrome Music Lab 部署指南：如何将音乐实验项目快速上线

Spring MVC中使用HttpServletRequest和HttpServletResponse

告别黑盒：手把手带你用QEMU模拟运行高通ABL LinuxLoader（基于EDK2环境）

便宜的和贵的降AI率工具哪个好？实测3款给你答案

Matlab数据处理避坑：num2str转换数字时，如何控制小数位数和科学计数法？

数字保险箱密码丢失？这款开源工具帮你找回加密压缩包的访问权限

开发全民基础财税智能知识普及测评答题编程工具，定制普惠题库，答题打分，判定大众财税认知等级定向推送教学内容。

2025届最火的五大AI辅助写作方案横评

从‘老王分遗产’到智能指针：用生活例子彻底搞懂C++的dynamic_cast和std::dynamic_pointer_cast