HappyHorse-1.0:登顶 Artificial Analysis 视频竞技场的开源视频模型
2026/04/09

HappyHorse-1.0:登顶 Artificial Analysis 视频竞技场的开源视频模型

HappyHorse-1.0 以 15B 统一 Transformer 架构同时称霸文本生成视频与图像生成视频榜首,成为 Artificial Analysis 视频竞技场开源第一名。

在 AI 视频生成领域,新一任王者已经诞生——HappyHorse-1.0 在 Artificial Analysis Video Arena 的两项核心赛道中均取得 第一名的成绩:文本生成视频 Elo 1383,图像生成视频 Elo 1413。这不是某个自报的跑分,而是来自真实用户偏好的盲测竞技场。

什么让 #1 排名如此重要

Artificial Analysis 是一个面向真实用户的盲对比评测平台,参与者在不知晓模型身份的前提下,对并排生成的视频进行偏好选择。评分采用 Elo 等级分系统,与国际象棋排名机制相同——每一场比较都会动态调整排名。

这意味着几个关键点:

  • 非合成基准:排名来自真人偏好判断,而非预设的自动指标,更贴近真实使用场景。
  • 双向领先:HappyHorse-1.0 同时在文本生成视频(T2V)和图像生成视频(I2V)两个赛道排名第一,这在开源模型中极为罕见。
  • 盲测公平性:参与者不知道自己正在比较哪两个模型,消除了品牌偏见的影响。

HappyHorse-1.0 的技术架构

HappyHorse-1.0 是一个 150 亿参数的统一 Transformer,专门为联合视频与音频生成而设计。其核心架构包含 40 层自注意力层,采用了一种"三明治式"的模态分布策略:

  • 边缘层:靠近输入和输出的层为视频、音频各自设置模态专用层,处理各自的特征编码与解码。
  • 中间层:核心共享层负责跨模态的特征融合与对齐。

这种设计让模型既能处理各自模态的细节特征,又能在深层实现真正的多模态联合理解。

模型同时提供 基础版本蒸馏版本,以及配套的超分辨率模块和推理代码,全部以 Apache 2.0 许可证 开源。

统一多模态架构的优势

将视频与音频放在同一个 Transformer 中联合生成,而非分别训练两个独立模型,带来几个实质性的优势:

  • 跨模态对齐更自然:画面中人物开口的瞬间,音频自动同步生成,无需后处理对齐。
  • 更低的交接损耗:独立模型管线中,视频模型和音频模型的输出需要额外对齐步骤,而统一架构在生成过程中就保持了时间线的一致性。
  • 更强的 Prompt 忠实度:用户输入的文本指令同时影响视频和音频生成,避免了两个模型对同一指令产生不同解读的情况。

其中,原生多语言唇形同步 是这项优势最直观的体现——用户可以用中文、英文或任何语言描述场景,生成的视频中人物口型与语音自然匹配,无需额外的 Wav2Lip 等后处理工具。

8 步蒸馏推理:速度即能力

HappyHorse-1.0 采用了 DMD-2(Distribution Matching Distillation) 蒸馏技术,将推理步数压缩至仅 8 步。配合 MagiCompiler 优化,在单张 H100 上生成一段 5 秒的 1080p 视频仅需约 38 秒

快速推理不只是工程优化,它直接影响创作效率:

  • 迭代速度:创作者可以在更短时间内尝试更多 prompt 变体,找到最佳效果。
  • 实时预览:接近实时反馈的生成速度让交互式创作成为可能。
  • 生产成本:更少的推理步数意味着更低的 GPU 时间消耗,对大规模部署至关重要。

同时称霸 T2V 与 I2V 的技术意义

文本生成视频(T2V)和图像生成视频(I2V)看似是同一任务的两个入口,实际上对模型的要求存在结构性差异:

  • T2V 要求模型从零开始构建时空一致性,对语义理解和构图能力要求极高。
  • I2V 需要在保持参考图像风格和内容的前提下注入合理的运动和动态,考验模型对静态信息的"动画化"能力。

HappyHorse-1.0 在两项赛道同时登顶,说明其架构并未偏向某一种输入模式,而是建立了一套真正通用的视频生成能力。这对下游应用意味着:无论用户是从文本出发还是从图像出发,都能获得同等质量的生成结果。

对开发者和创作者意味着什么

HappyHorse-1.0 的开源为整个 AI 视频生态带来了新的可能性:

  • 本地部署:Apache 2.0 许可证允许商业使用和修改,开发者可以将模型集成到自己的产品中。
  • API 集成:蒸馏版本的高效推理特性使其适合作为云服务后端,降低运营成本。
  • 创作工作流:原生多语言唇形同步和联合音视频生成能力,让短视频创作、广告制作、动画生产等场景的生产流程大幅简化。

对开源视频生态的影响

一个开源模型登顶以用户偏好为核心的盲测排行榜,正在改变视频生成领域的竞争格局。过去,前沿视频生成能力几乎被封闭的 API 服务垄断。HappyHorse-1.0 的出现表明,开源社区在质量层面已经具备了与商业系统正面竞争的实力。

这对整个行业的信号是明确的:视频生成的"能力天花板"不再是闭源实验室的专属领地。开发者、创业公司和研究团队现在可以基于一个经过真实用户验证的顶级模型进行二次开发和产品化,而不必依赖昂贵的 API 调用。

欢迎访问 https://happyhorse.design/ 体验 HappyHorse-1.0 的视频生成能力。

邮件列表

加入我们的社区

订阅邮件列表,及时获取最新消息和更新