InfinityStar - 字节开源的统一时空自回归视频生成框架

InfinityStar是字节跳动开源的统一时空自回归框架,专为高分辨率图像和视频生成设计。采用离散自回归方法,能在单一模型中同时处理文本到图像、文本到视频、图像到视频等任务。框架在VBench基准测试中获得83.74分,超过现有自回归模型,并比扩散模型快10倍。核心技术包括时空金字塔建模(将视频分解为首帧图像和动态片段)、高效的离散视觉分词器(通过知识继承和随机量化器深度加速训练),以及优化的Transformer架构(如语义尺度重复和时空稀疏注意力)。用户可通过Discord社区体验其功能,支持单GPU分钟级生成5秒720p视频。InfinityStar - 字节开源的统一时空自回归视频生成框架

>>展开阅读