我目前从事于数字人视频生成大模型。我于浙江大学计算机学院获得了博士学位，博士导师是赵洲教授。我过去的研究经历主要包括虚拟人视频合成（Talking Face Generation），语音合成（Text-to-Speech, TTS）等任务。在硕士期间我也曾深入地研究过深度强化学习（Deep Reinforcement Learning, DRL）和多智能体系统（Multi-Agent System，MAS）。目前我在高水平期刊和人工智能顶级会议发表了15+篇论文，其中第一作者7篇，包括ICLR、ACL、IJCAI、IEEE TMC等。

🔥 近期进展

2 papers accepted by NeurIPS 2024!
2 papers accepted by ICLR 2024!

📝 学术论文

🦸 说话人视频合成（虚拟人）

NeurIPS 2024

MimicTalk: Mimicking a personalized and expressive 3D talking face in few minutes
Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao

NeurIPS 2024

Project Page

MimicTalk 的目标是在几分钟内训练一个高质量的个性化数字人。
通过ICS-A2M模型，可以zero-shot地生成目标说话人风格的脸部动作。
通过基于Real3D-Portrait大模型的fine-tune，可以在数分钟内完成目标说话人脸动态、静态特性的学习。

ICLR 2024 Spotlight

Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun MA, Zhou Zhao

ICLR 2024 Spotlight

Project Page

Real3D-Portrait 是一个基于NeRF的单图驱动说话人合成算法，它可以合成真实的头部、躯干、背景，以实现真实的视频效果。
它同时支持语音或视频两种驱动方式。

Arxiv

Geneface++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation
Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiangwei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

Under Review

Project Page

GeneFace++ 是一个先进的虚拟人合成系统，它致力于实现高泛化的语音-嘴形对齐、优秀的视频质量和高系统效率。
它大大提升了现有基于NeRF的虚拟人算法的稳定性和运行效率。

ICLR 2023

Geneface: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Jinzheng He, Zhou Zhao, ICLR 2023

ICLR 2023 Poster

Project Page

GeneFace是一个基于NeRF的虚拟人合成算法，它对域外语音（如歌声、跨性别音频）具有较强的鲁棒性。
它首次提出用生成性模型建模语音到面部动作的映射。

🎙 语音合成

ACL 2023

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training

Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Yin Xiang, Zhou Zhao,

ACL 2023 Poster

Project Page

CLAPSpeech是首个聚焦于提取韵律相关的文本表征学习工作。也是首个将文本-语音跨模态对比学习用于语音合成领域的工作。
它为现有的语音合成系统提供了一个方便可插拔的文本编码器，可以明显提升现有语音合成模型的韵律性能。

IJCAI 2022

SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech

Zhenhui Ye, Zhou Zhao, Yi Ren, Fei Wu,

IJCAI 2022 Poster

Project Page

SyntaSpeech是首个句法感知的非自回归语音合成模型。
我们设计了一个从纯文本构建句法图的方法和一个对应的图编码器，它可以从输入的文本中提取有用的句法信息，以提升韵律建模。

Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias, Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao, ICLR 2024