标签视频等信号,生成非常逼真的人类动作视频,涵盖从面部表情到全身动作的细节‌