『GitHub项目圈选01』一款构建AI数字人项目开源了！自动实现音视频同步！

孜孜孜孜不倦

已于 2023-11-07 20:05:25 修改

阅读量1.4w

点赞数 7

CC 4.0 BY-SA版权

文章标签： github 人工智能音视频

于 2023-11-01 23:35:05 首次发布

本文链接：https://blog.csdn.net/z_ipython/article/details/134172422

从本周开始，小圈正式推出『GitHub项目圈选周刊』计划，精选一些小圈遇到的或行业内大佬们推荐的好玩、有趣、实用、超前的开源项目，以周刊文章形式分享给大家观阅学习，以望一起学习，共同进步。

🔥🔥🔥本周GitHub项目圈选****: 主要包含音视频同步、多代理框架、3D对象模型、适用于开发者的演示文档构建工具、网页程序打包、自构建CRUD应用等热点项目。

1、Video-Tetalking

Video-ReTalking 是一个利用AI实现视频人物嘴型与输入的声音同步的创新技术。简单来说，就是输入任意一个视频和一个音频文件，在生成的新视频中，人物的嘴型会与音频同步。

它不仅可以让嘴型与声音同步，还可以根据声音改变视频中人物的表情。整个过程不需要用户干预，都是自动完成的。很多博主大佬通过此项目构建了属于自己的AI数字人，是不是很有意思。

Star量：2.5K+

在线体验：https://colab.research.google.com/github/vinthony/video-retalking/blob/main/quick_demo.ipynb

项目地址：https://github.com/OpenTalker/video-retalking

系统为实现这一目标，分解为三个连续的任务：

具有规范表达的人脸视频生成；
音频驱动的口型同步；
面部增强以提高照片真实感。

给定一个头部说话的视频，首先使用 表情编辑网络 根据相同的表情模板修改每一帧的表情，从而产生具有规范表情的视频。

然后将该视频与给定的音频一起输入到口型同步网络以生成口型同步视频。

最后，通过身份感知面部增强网络和后处理来提高合成面部的照片真实感。

以上所有三个步骤都使用基于学习的方法，并且所有模块都可以在顺序管道中处理，无需任何用户干预。

2、Autogen

Autogen 是微软团队研发的一个多代理框架，利用它可以轻松定制一系列工作任务，简直太强大了。

Star量：14.2K+

项目地址：https://github.com/microsoft/autogen

举一个例子来说，我们要实现一个爬虫程序，抓取并保存网页图片。如果把这个任务丢给 ChatGPT，它会直接返回一串可执行代码，但是代码通常会存在问题，例如执行报错、缺少依赖等，你需要反复跟 ChatGPT 对话来完善程序。

当然，我们也可以设定一个复杂 Prompt，要求它调用 ChatGPT 的代码执行插件，如果存在报错，则继续修正程序。（案例来源：Barret李靖）

但是这个任务如果交给 AutoGen 来实现，将会变得无比简单，几行代码就可以搞定：

定义一个 Assistant Agent，它的任务是解决问题
定义一个 UserProxy Agent，它的任务是替代人询问问题，同时在本地执行程序

这两个 Agent 都不需要给他们设置 Prompt。当我们把爬虫任务交给 UserProxy 后，它会理解任务， 然后询问 Assistant 应该如何做，Assistant 会把操作过程告诉 UserProxy，接着 UserProxy 会根据指示在本地安装依赖，然后创建文件执行代码，如果执行出现错误，它会把详细报错提交给 Assistant，依次循环，直到可以获取到最终的结果。 任务结束的时候，你会看到目标图片已经保存到本地磁盘了。