只需输入一段语音和一张照片,即可自动生成一个形象生动、口型与语音高度同步的视频人物。支付宝多模态应用实验室在 2024 年先后研发并开源了 EchoMimicV1 和 EchoMimicV2 两个生成式数字人项目。相关技术论文分别被 CVPR 2025 和 AAAI 2025 国际顶会接收。