我目前是一名直博四年级的博士生,就读于浙江大学计算机学院,博士导师是赵洲教授。我在2021-2022学年获得了研究生国家奖学金。

我目前感兴趣于语音-视觉领域的生成性人工智能(Generative AI),包括虚拟人视频合成(Talking Face Generation),语音合成(Text-to-Speech, TTS)等任务。在硕士期间我也曾深入地研究过深度强化学习(Deep Reinforcement Learning, DRL)和多智能体系统(Multi-Agent System,MAS)。目前我在高水平期刊和人工智能顶级会议发表了15+篇论文,其中第一作者7篇,包括ICLR、ACL、IJCAI、IEEE TMC等。

🔥 近期进展

  • 2 papers accepted by NeurIPS 2024!

  • 2 papers accepted by ICLR 2024!

📝 学术论文

🦸 说话人视频合成(虚拟人)

NeurIPS 2024
sym

MimicTalk: Mimicking a personalized and expressive 3D talking face in few minutes
Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao

NeurIPS 2024

Project Page img

  • MimicTalk 的目标是在几分钟内训练一个高质量的个性化数字人。
  • 通过ICS-A2M模型,可以zero-shot地生成目标说话人风格的脸部动作。
  • 通过基于Real3D-Portrait大模型的fine-tune,可以在数分钟内完成目标说话人脸动态、静态特性的学习。
ICLR 2024 Spotlight
sym

Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun MA, Zhou Zhao

ICLR 2024 Spotlight

Project Page img

  • Real3D-Portrait 是一个基于NeRF的单图驱动说话人合成算法,它可以合成真实的头部、躯干、背景,以实现真实的视频效果。
  • 它同时支持语音或视频两种驱动方式。
Arxiv
sym

Geneface++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation
Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiangwei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

Under Review

Project Page img

  • GeneFace++ 是一个先进的虚拟人合成系统,它致力于实现高泛化的语音-嘴形对齐、优秀的视频质量和高系统效率。
  • 它大大提升了现有基于NeRF的虚拟人算法的稳定性和运行效率。
ICLR 2023
sym

Geneface: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Jinzheng He, Zhou Zhao, ICLR 2023

ICLR 2023 Poster

Project Page img

  • GeneFace是一个基于NeRF的虚拟人合成算法,它对域外语音(如歌声、跨性别音频)具有较强的鲁棒性。
  • 它首次提出用生成性模型建模语音到面部动作的映射。

🎙 语音合成

ACL 2023
sym

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training

Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Yin Xiang, Zhou Zhao,

ACL 2023 Poster

Project Page

  • CLAPSpeech是首个聚焦于提取韵律相关的文本表征学习工作。也是首个将文本-语音跨模态对比学习用于语音合成领域的工作。
  • 它为现有的语音合成系统提供了一个方便可插拔的文本编码器,可以明显提升现有语音合成模型的韵律性能。
IJCAI 2022
sym

SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech

Zhenhui Ye, Zhou Zhao, Yi Ren, Fei Wu,

IJCAI 2022 Poster

Project Page img

  • SyntaSpeech是首个句法感知的非自回归语音合成模型。
  • 我们设计了一个从纯文本构建句法图的方法和一个对应的图编码器,它可以从输入的文本中提取有用的句法信息,以提升韵律建模。

📚 深度强化学习与多智能体系统

IEEE TMC 2022
sym

Multi-UAV Navigation for Partially Observable Communication Coverage by Graph Reinforcement Learning

Zhenhui Ye, Ke Wang, Yining Chen, Xiaohong Jiang, Guanghua Song.

IEEE transactions on Mobile Computing 2022

Project Page img

  • 我们提出Soft-DRGN算法,以在大规模多智能体写作任务中训练鲁棒高效的随机性策略。
  • 我们提出利用图注意力网络实现多智能体间可学习的通讯协作。
Applied Intelligence 2022
sym

Improving Sample Efficiency in Multi-Agent Actor-Critic Methods

Zhenhui Ye, Yining Chen, Xiaohong Jiang, Guanghua Song, Applied Intelligence 2022

  • 我们提出经验增强(Experience Augmentation)机制,以提升同构多智能体强化学习任务的样本效率。
  • 我们提出了PEDMA,一个高样本效率的MARL训练方案。

🎖 荣誉奖项

  • 2022.12 中国研究生AI应用创新比赛亚军 (2/1217)
  • 2022.10 腾讯奖学金 (博士生) (top 1%)
  • 2021.10 国家奖学金 (硕士生) (Top 1%)
  • 2020.6 浙江大学优秀毕业生 (本科生) (Top 5%)

📖 教育经历

  • 2021.9 - 2025.6 (目前) 博士生, 浙江大学计算机学院
  • 2020.06 - 2021.9, 硕士生, 浙江大学航空航天学院
  • 2016.09 - 2020.06, 本科, 浙江大学航空航天学院

学术兼职

  • 会议审稿人: ICLR 2023, EMNLP 2023, NeurIPS 2023, ACL 2024, ICLR 2024, CVPR 2024