LongCat-Video - 美团LongCat开源的视频生成模型

LongCat-Video是美团LongCat团队开源的13.6亿参数视频生成模型,采用MIT开源协议,支持文生视频、图生视频和视频续写三大任务。模型通过"粗到细"生成策略和块稀疏注意力机制,能在数分钟内生成720P高清长视频,保持色彩一致性且无质量衰减。技术亮点包括多奖励强化学习优化,性能接近商业级SOTA模型,在内部测试中多项指标超越同类开源模型。模型已在Hugging Face和GitHub开源,提供文本/图像输入、视频续写等一键式部署方案。1761481311-1761481311-LongCat-Video-website1.png

>>展开阅读

Lynx - 字节跳动开源的高保真视频生成模型

Lynx 是字节跳动开源的高保真个性化视频生成模型,仅需单张人像照片,能生成身份一致的视频。基于扩散 Transformer(DiT)基础模型构建,引入 ID-adapter 和 Ref-adapter 两个轻量级适配器模块,分别用于控制人物身份和保留面部细节。Lynx 采用人脸编码器捕捉面部特征,通过 X-Nemo 技术增强表情,LBM 算法模拟光影效果,确保人物身份在不同场景下的一致性。其交叉注意力适配器可将文本提示与人脸特征结合,生成符合场景要求的视频。Lynx 具备“时间感知器”,能理解动作物理规律,保持视频时间连贯性。在大规模测试中,Lynx 在面部相似度、场景匹配度和视频质量等多个维度上表现优异,超越同类技术。Lynx - 字节跳动开源的高保真视频生成模型

>>展开阅读