Video-retalking、Wav2lip、SadTalker、GeneFace对比

2024-03-24 2024-03-24 约 1933 字预计阅读 9 分钟

1 Video-retalking 、Wav2lip 、SadTalker 、 GeneFace 、SadTalker-Video-Lip-Sync、VideoRespeak Easy-Wav2Lip、GeneFacePlusPlus 、SyncTalk、flyworks.ai对比

2 Video-ReTalking 使用总结

AI实现视频人物嘴型与输入的声音同步。

Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说，就是输入任意一个视频和一个音频文件，在生成的新视频中，人物的嘴型会与音频同步。 SadTalker我看出一个sadTalker-video-lip-Sync也能实现上传音频和视频、但效果确实不如wav2lip，首先wav2lip和Video-retalking可以上传视频和音频，生成数字人。你要问那个效果好，主要看源素材，识别率来说，经过测试Video-retalking口型合成度高于前者。

SadTalker:图片+音频说话， Wav2lip：将一个不说话的视频说话 Video-retalking：将一个说话的视频，改成说成你要改的话。 https://pan.baidu.com/s/1L_qScwf1Dmw52IBfLO_XmA?pwd=czgl GeneFace 可训练推理的实现实时音频驱动的三维说话人生成,改进唇形同步和视频质量。

3 heygen 注册

已经注册 hnkady@sina.com lfzwyc@gmail.com tong8*U 印度加拿大提示区域限制

[Unable to register. Please avoid VPN and try again. ]

「Service currently not available in your region」

bash WARP-UP.sh 使用warp还是报错。使用全局模式，更换vps还是一样的报错。

最后使用tun 完美解决heygen 限制问题

解决这个注册和登录的区域限制问题，就是加一个插件，或者中间加一层代理服务器都可以，相对来说，用插件还是要方便些的。

4 Wav2lip 使用总结：

声音跟说大概一致长度。声音最好是基本同步的。 wav2lip_gan比wav2lip生成的视频好。原视频人物离镜头不要太近。

识别是否ai脸，要他用手在脸部左右晃动三下，看脸部是否变形或扭曲。真是的脸是不会变样的。黄只能这是老模型，新模型mask训练得很好，无论用什么挡脸都不会有破绽。没法逼真再现素颜状态的皮肤、气色。搞直播没问题，但视频通话很容易识别化妆女生以外的人设。

其中使用了 Easy-Wav2Lip-0229 口型效果一般。

使用万能君的wav2lipV11 稍微好点可以

5

自制免费商业级高清AI数字人说话视频，用到三个AI软件 1、配音软件：https://ttsmaker.cn/ 2、对口型：https://github.com/Rudrabha/Wav2Lip 3、视频高清化：https://github.com/sczhou/CodeFormer https://github.com/Arthurzhangsheng/CodeFormer_GUI

6 GeneFace

官方项目地址：https://github.com/yerfor/GeneFacePlusPlus 傻瓜式部署、训练失败、推理失败请参考文档： https://jqjhya6sjf.feishu.cn/docx/Wb4odtbajovJJjxeKCjcOPemnJb?from=from_copylink 下载度盘：https://pan.baidu.com/s/1hRQhWXjtm9ssOGsVE7h9gQ 提取码:84p4

下载链接看视频简介，盘里有四部分素材，分别是一键包、官方源码、安装依赖（3DMM模型、pytorch3D等按需选择）以及一份从0开始本地部署的教程。

一、一键包后面会优化，因为我两天做了2个WebUI，很多东西比较赶，这个项目相对复杂，因此下次会更好

二、盘里的"关于从0开始部署"，适合想自己尝试部署的小伙伴，我分享了一些个人的经验，希望能对你有帮助

三、时间拖了一会，原作者这几天更新了挺多代码，因此改了代码又测试了两台电脑，看是否正常能跑

四、这个项目适合学习和娱乐，你可以克隆家里的娃娃，让20岁的他和5岁的自己对话，我会觉得挺好玩，所以要遵纪守法不要干坏事

从0部署、训练失败、推理失败请参考：https://jqjhya6sjf.feishu.cn/docx/Wb4odtbajovJJjxeKCjcOPemnJb?from=from_copylink

解压Geneface后运行报错。

7 Real3D-Portrait

PyTorch实现, 用于实现单参考图(one-shot)、高视频真实度(video reality)的虚拟人视频合成

GitHub - yerfor/Real3DPortrait: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis; ICLR 2024 Spotlight; Official code

能用直播才是风口，照片开口说话已经没人看了。要直播还是只能ue5。最新的

8 SyncTalk 看起来不错。清晰度和嘴形还不如wlip

synctalk和wav 2lip和geneface++这三个哪个效果更好？求解惑[思考] sync talk应该是最好的，改进了分割，改进了头部晃动等问题。只是数据处理代码，暂时还没有开源。

keygen更强

9 总结

好的原视频视频非常重要。正脸，不要歪嘴，镜头跟脸不要太远，也不要太近。太近了嘴型容易看出明显的跟声音不同步。而且画面有丢失。太远了看不到嘴型。眼睛要自然的眨几下。

比如下面视频比较好：

guowai-ok-c.mp4

a2e.a_matting.mp4

40668835021-a_0001.mp4

dixiaolu4.mp4

这个视频素材可以 hifly的也可以

国外的素材这个可以

声音语速要适中，声音大小适中。

目录

目录

Video-retalking、Wav2lip、SadTalker、GeneFace对比

1 Video-retalking 、Wav2lip 、SadTalker 、 GeneFace 、SadTalker-Video-Lip-Sync、VideoRespeak Easy-Wav2Lip、GeneFacePlusPlus 、SyncTalk、flyworks.ai对比

2 Video-ReTalking 使用总结

3 heygen 注册

4 Wav2lip 使用总结：

5

6 GeneFace

7 Real3D-Portrait

8 SyncTalk 看起来不错。清晰度和嘴形还不如wlip

9 总结

相关内容

目录

Video-retalking、Wav2lip、SadTalker、GeneFace对比

1 Video-retalking 、Wav2lip 、SadTalker 、 GeneFace 、SadTalker-Video-Lip-Sync、VideoRespeak Easy-Wav2Lip、GeneFacePlusPlus 、SyncTalk、flyworks.ai对比

2 Video-ReTalking 使用总结

3 heygen 注册

4 Wav2lip 使用总结：

5

6 GeneFace

7 Real3D-Portrait

8 SyncTalk 看起来不错。 清晰度和嘴形还不如wlip

9 总结

相关内容

RVC-Go-Realtime、SyncTalk、Azure Speech Studio：虚拟客服、实时变声、 虚拟主播数字人实战指南

AI代理系统全景指南：AI Agents、AutoGPT、MobileAgent、Synctalk 应用与部署

视频换嘴技术大评测：Video-Retalking、Wav2Lip、SadTalker、GeneFace 谁更强？

GPT-SoVITS vs SadTalker：AI 声音与唇动方案全解析

GeneFace 使用技巧与创意玩法集锦

8 SyncTalk 看起来不错。清晰度和嘴形还不如wlip

RVC-Go-Realtime、SyncTalk、Azure Speech Studio：虚拟客服、实时变声、虚拟主播数字人实战指南