Video-retalking、Wav2lip、SadTalker、GeneFace对比

AI实现视频人物嘴型与输入的声音同步。

Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说,就是输入任意一个视频和一个音频文件,在生成的新视频中,人物的嘴型会与音频同步。 SadTalker我看出一个sadTalker-video-lip-Sync也能实现上传音频和视频、但效果确实不如wav2lip, 首先wav2lip和Video-retalking可以上传视频和音频,生成数字人。你要问那个效果好,主要看源素材,识别率来说,经过测试Video-retalking口型合成度高于前者。

SadTalker:图片+音频说话, Wav2lip:将一个不说话的视频说话 Video-retalking:将一个说话的视频,改成说成你要改的话。 https://pan.baidu.com/s/1L_qScwf1Dmw52IBfLO_XmA?pwd=czgl GeneFace 可训练 推理的 实现实时音频驱动的三维说话人生成,改进唇形同步和视频质量。

已经注册 hnkady@sina.com lfzwyc@gmail.com tong8*U 印度 加拿大提示区域限制

[Unable to register. Please avoid VPN and try again. ]

「Service currently not available in your region」

bash WARP-UP.sh 使用warp还是报错。使用全局模式,更换vps还是一样的报错。

最后使用tun 完美解决heygen 限制问题

解决这个注册和登录的区域限制问题,就是加一个插件,或者中间加一层代理服务器都可以,相对来说,用插件还是要方便些的。

声音跟说大概一致长度。声音最好是基本同步的。 wav2lip_gan比wav2lip生成的视频好。 原视频人物离镜头不要太近。

识别是否ai脸,要他用手在脸部左右晃动三下,看脸部是否变形或扭曲。真是的脸是不会变样的。 黄只能这是老模型,新模型mask训练得很好,无论用什么挡脸都不会有破绽。 没法逼真再现素颜状态的皮肤、气色。搞直播没问题,但视频通话很容易识别化妆女生以外的人设。

其中使用了 Easy-Wav2Lip-0229 口型效果一般。

使用万能君的wav2lipV11 稍微好点可以

自制免费商业级高清AI数字人说话视频,用到三个AI软件 1、配音软件:https://ttsmaker.cn/ 2、对口型:https://github.com/Rudrabha/Wav2Lip 3、视频高清化:https://github.com/sczhou/CodeFormer https://github.com/Arthurzhangsheng/CodeFormer_GUI

官方项目地址:https://github.com/yerfor/GeneFacePlusPlus 傻瓜式部署、训练失败、推理失败请参考文档: https://jqjhya6sjf.feishu.cn/docx/Wb4odtbajovJJjxeKCjcOPemnJb?from=from_copylink 下载 度盘:https://pan.baidu.com/s/1hRQhWXjtm9ssOGsVE7h9gQ 提取码:84p4


下载链接看视频简介,盘里有四部分素材,分别是一键包、官方源码、安装依赖(3DMM模型、pytorch3D等按需选择)以及一份从0开始本地部署的教程。

一、一键包后面会优化,因为我两天做了2个WebUI,很多东西比较赶,这个项目相对复杂,因此下次会更好

二、盘里的"关于从0开始部署",适合想自己尝试部署的小伙伴,我分享了一些个人的经验,希望能对你有帮助

三、时间拖了一会,原作者这几天更新了挺多代码,因此改了代码又测试了两台电脑,看是否正常能跑

四、这个项目适合学习和娱乐,你可以克隆家里的娃娃,让20岁的他和5岁的自己对话,我会觉得挺好玩,所以要遵纪守法不要干坏事

从0部署、训练失败、推理失败请参考:https://jqjhya6sjf.feishu.cn/docx/Wb4odtbajovJJjxeKCjcOPemnJb?from=from_copylink

解压Geneface后运行报错。

PyTorch实现, 用于实现单参考图(one-shot)、高视频真实度(video reality)的虚拟人视频合成

GitHub - yerfor/Real3DPortrait: Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis; ICLR 2024 Spotlight; Official code


能用直播才是风口,照片开口说话已经没人看了。要直播 还是只能ue5。最新的

synctalk和wav 2lip和geneface++这三个哪个效果更好?求解惑[思考] sync talk应该是最好的,改进了分割,改进了头部晃动等问题。 只是数据处理代码,暂时还没有开源。

keygen更强

好的原视频视频非常重要。正脸,不要歪嘴,镜头跟脸不要太远,也不要太近。太近了嘴型容易看出明显的跟声音不同步。而且画面有丢失。太远了 看不到嘴型。眼睛要自然的眨几下。

比如下面视频比较好:

guowai-ok-c.mp4

a2e.a_matting.mp4

40668835021-a_0001.mp4

dixiaolu4.mp4

这个视频素材可以 hifly的也可以

国外的素材这个可以

声音语速要适中,声音大小适中。

随机文章