📝 学术论文
🦸 说话人视频合成(虚拟人)

MimicTalk: Mimicking a personalized and expressive 3D talking face in few minutes
Zhenhui Ye, Tianyun Zhong, Yi Ren, Ziyue Jiang, Jiawei Huang, Rongjie Huang, Jinglin Liu, Chen Zhang, Zehan Wang, Xize Chen, Xiang Yin, Zhou Zhao
NeurIPS 2024
- MimicTalk 的目标是在几分钟内训练一个高质量的个性化数字人。
- 通过ICS-A2M模型,可以zero-shot地生成目标说话人风格的脸部动作。
- 通过基于Real3D-Portrait大模型的fine-tune,可以在数分钟内完成目标说话人脸动态、静态特性的学习。

Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis
Zhenhui Ye, Tianyun Zhong, Yi Ren, Jiaqi Yang, Weichuang Li, Jiawei Huang, Ziyue Jiang, Jinzheng He, Rongjie Huang, Jinglin Liu, Chen Zhang, Xiang Yin, Zejun MA, Zhou Zhao
ICLR 2024 Spotlight
- Real3D-Portrait 是一个基于NeRF的单图驱动说话人合成算法,它可以合成真实的头部、躯干、背景,以实现真实的视频效果。
- 它同时支持语音或视频两种驱动方式。

Geneface++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation
Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiangwei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao
Under Review
- GeneFace++ 是一个先进的虚拟人合成系统,它致力于实现高泛化的语音-嘴形对齐、优秀的视频质量和高系统效率。
- 它大大提升了现有基于NeRF的虚拟人算法的稳定性和运行效率。

Geneface: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis
Zhenhui Ye, Ziyue Jiang, Yi Ren, Jinglin Liu, Jinzheng He, Zhou Zhao, ICLR 2023
ICLR 2023 Poster
- GeneFace是一个基于NeRF的虚拟人合成算法,它对域外语音(如歌声、跨性别音频)具有较强的鲁棒性。
- 它首次提出用生成性模型建模语音到面部动作的映射。
🎙 语音合成

CLAPSpeech: Learning Prosody from Text Context with Contrastive Language-Audio Pre-Training
Zhenhui Ye, Rongjie Huang, Yi Ren, Ziyue Jiang, Jinglin Liu, Jinzheng He, Yin Xiang, Zhou Zhao,
ACL 2023 Poster
- CLAPSpeech是首个聚焦于提取韵律相关的文本表征学习工作。也是首个将文本-语音跨模态对比学习用于语音合成领域的工作。
- 它为现有的语音合成系统提供了一个方便可插拔的文本编码器,可以明显提升现有语音合成模型的韵律性能。

SyntaSpeech: Syntax-Aware Generative Adversarial Text-to-Speech
Zhenhui Ye, Zhou Zhao, Yi Ren, Fei Wu,
IJCAI 2022 Poster
- SyntaSpeech是首个句法感知的非自回归语音合成模型。
- 我们设计了一个从纯文本构建句法图的方法和一个对应的图编码器,它可以从输入的文本中提取有用的句法信息,以提升韵律建模。
- Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive Bias, Ziyue Jiang, Yi Ren, Zhenhui Ye, Jinglin Liu, Chen Zhang, Qian Yang, Shengpeng Ji, Rongjie Huang, Chunfeng Wang, Xiang Yin, Zejun Ma, Zhou Zhao, ICLR 2024
📚 深度强化学习与多智能体系统

Multi-UAV Navigation for Partially Observable Communication Coverage by Graph Reinforcement Learning
Zhenhui Ye, Ke Wang, Yining Chen, Xiaohong Jiang, Guanghua Song.
IEEE transactions on Mobile Computing 2022
- 我们提出Soft-DRGN算法,以在大规模多智能体写作任务中训练鲁棒高效的随机性策略。
- 我们提出利用图注意力网络实现多智能体间可学习的通讯协作。

Improving Sample Efficiency in Multi-Agent Actor-Critic Methods
Zhenhui Ye, Yining Chen, Xiaohong Jiang, Guanghua Song, Applied Intelligence 2022
- 我们提出经验增强(Experience Augmentation)机制,以提升同构多智能体强化学习任务的样本效率。
- 我们提出了PEDMA,一个高样本效率的MARL训练方案。
- Multi-agent Deep Reinforcement Learning for Voltage Control with Coordinated Active and Reactive Power Optimization, Daner Hu, Zhenhui Ye, Yuanqi Gao, Zuzhao Ye, Yonggang Peng, Napeng Yu, IEEE transactions on Smart Grid 2022