美团开源LongCat-Video-Avatar 1.5:本地跑商业级数字人

美团久不吭声,一开口直接把商业 Avatar 干翻了。

开源 LongCat-Video-Avatar 1.5,136 亿参数,MIT 协议,免费商用。

塞一张照片 + 一段语音,中文英语日语随便来,直接出唇同步爆炸、自然眨眼摇头的说话视频。长视频脸不崩,多人对话各管各的,唱歌都行,动漫动物真人通吃。

之前 HeyGen 每月几十刀、Kling 嘴巴对不上、脸漂的毛病,全寄了。用户偏好评测对 Kling Avatar 2.0 胜率 65.9%,对 HeyGen 胜率 54.3%。

推理 8 步搞定,10 秒视频 1 分钟出,RTX 4090 本地随便批量生成。

能拿来干什么

1、电商带货

商品讲解视频

上传商品图 + 录一段口播文案,自动生成带货视频。不用真人出镜,不用请模特,一天批量做几十条,多语言版本同时出。

2、知识付费

虚拟讲师课程

课件录音转成视频,讲师形象固定,学生看到的是"人"在讲课,不是干巴巴的 PPT。适合做系列课程、企业培训。

3、自媒体

不露脸的 B 站 Up 主 / 博主

不想露脸但不想只靠配音。用一张固定的虚拟形象,配你的声音,做口播、评论、新闻解说,视频质感比纯图文高一个档次。

4、多语言营销

一套素材出 99 种语言版本

同一个虚拟主播,中文录一遍,AI 翻译配音后直接生成英语、日语、西语版视频。跨境电商和出海品牌的刚需。

 5、直播带货

直播回放 / 数字人直播

长视频稳定性好,支持长时间生成。可以做数字人 24 小时直播,或者把直播回放剪成短视频二次分发。

6、多人场景

双人访谈 / 多人对话

支持多主体同时驱动,各管各的口型和动作。做虚拟访谈节目、客服培训对话场景、多角色短剧。

核心场景就一个:一张参考图 + 一段录音 = 唇同步自然、身份不漂移的数字人视频。

开源地址:github.com/meituan-longcat/LongCat-Video