大家好,今天继续聊聊科技圈发生的那些事。
V-Express 是一个在参考图像、音频和 V-Kps 图像序列的控制下生成一个会说话的头像视频的开源项目。
V-Express 能够从单张图像生成带有音频的肖像视频,通过平衡不同的控制信号(如音频、姿势和图像)来实现自然的嘴部和面部动作同步。例如,将一张静态照片转换成对话视频。
类似的项目我们也分享过很多了,不过,每个项目都有其出色之处。V-Express 研究的重点在于,对于一般的视频生成来说,控制信号的强度各异,如文本、音频、图像参考、姿势、深度图等。在这些信号中,较弱的条件(如音频信号)往往难以发挥作用,因为它们容易被较强的条件(如姿势和原始图像)干扰。这就直接导致了生成效果不佳。V-Express 通过一系列渐进的丢弃操作来平衡不同控制信号,很好的解决了这个问题。
这个项目的部署也是类似的。安装 Python 环境下所需依赖(项目主页中已列出),然后克隆项目到本地,就可以体验开发团队提供的demo了。
作者团队还提到,在会说话的人脸生成任务中,当目标视频与参考角色不是同一个人时,选择与参考人脸姿势更相似的目标视频将能获得更好的效果。此外,模型目前在英语上表现较好,其他语言尚未进行详细测试。
项目地址:
https://github.com/tencent-ailab/V-Express
这个项目的简介是,稳定扩散和其他基于扩散的生成图像模型的高级实现。不过从简来说,automatic 就是一个升级版的 Stable Diffusion。
相信 Stable Diffusion 大家已经很了解了,那么对于 automatic(也可以称作 SD.Next ),我们就来简单说说相对于原版 SD,做出了哪些升级。
SD.Next 支持 Diffusers 和 Original 两种主要后端:
Diffusers:基于Huggingface Diffusers实现,支持所有列出的模型,新安装默认使用此后端。
Original:基于LDM参考实现并由A1111显著扩展,兼容大多数现有功能和扩展,支持SD 1.x和SD 2.x模型,其他模型类型需要使用Diffusers后端。
SD.Next 支持非常多种类的模型。简单数了一下,大概是20-30种模型可供支持。而有关使用平台,SD.Next 支持nVidia GPU、AMD GPU、Intel Arc GPU、兼容DirectX的所有GPU、兼容OpenVINO的所有设备、Apple M1/M2、ONNX/Olive等。也就是说,只要你是一台正经设备,基本上都能跑通。另外,项目还设置了更好看的用户界面,支持主题切换。
那么,简单来说说项目的部署吧。项目文件中有一个非常详细的 Step by Step 安装教程,在这里我们简单进行一个概括。
安装 Git,根据自己的系统进行安装即可。
安装 Python 环境
从 GitHub 克隆项目,进入项目的目录
最后,运行适用于您操作系统的启动器来启动Web界面:
Windows: webui.bat --debug 或 .\webui.ps1 --debug
Linux: ./webui.sh --debug
Mac: ./webui.sh --debug
怎么样,是不是很简单?感兴趣的小伙伴,可以动手试试了!
项目地址:
https://github.com/vladmandic/automatic
最后,再来看看B站的新视频吧!
这一期的视频,分享了一个换脸项目 FaceFusion,我们将其制作成了一键启动懒人包,可以通过网盘下载,本地直接部署。
如果本地算力不足,可以使用云平台进行计算,我们也准备了一键镜像,GPU这边选择4090就可以跑了,性价比最高。
潞晨云:
顺提一嘴,本期视频点赞过三万,我们将手把手教大家训练一个 DFM 模型,比起市面上免费的 DFM 模型来说,效果肯定是好上加好的!还请大家多多支持!
视频链接:
https://www.bilibili.com/video/BV1Nw4m1S7Q4/
好了,本期的内容就是这么多,我们下期再见!