智能科学与技术前沿系列讲座（十二）——Towards Multi-Modal Visual Generation: From Human Modeling to World Foundation Models

发布者：汤靖玲发布时间：2025-06-20浏览次数：40

2025年6月20日下午14：00，我院准聘助理教授司晨阳邀请英伟达的研究科学家刘锡安博士作题为“Towards Multi-Modal Visual Generation: From Human Modeling to World Foundation Models”的学术报告。

摘要:

多模态视觉生成在研究与应用上取得越来越广泛的关注。本报告将从数字人生成到世界模型的角度阐述多模态视觉生成的发展，并讨论在基础大模型框架下如何提升数字人生成质量，并如何根据特定领域的先验知识提升基础模型的能力。

报告人简介:

刘锡安，NVIDIA Research研究科学家。博士毕业于香港中文大学，师从林达华教授和刘子纬教授。研究方向为计算机视觉和生成模型，聚焦于生成式人工智能基础模型预训练、后训练及其在人体建模、物理智能上的应用。至今在CVPR、NeurIPS、ICLR等国际顶级会议发表论文30余篇，其中第一作者9篇，谷歌学术引用1400余次。作为NVIDIA Cosmos世界模型系列核心贡献者，在图像视频生成基础模型（Cosmos Predict）、图像视频分词器（Cosmos Tokenizer）、多模态可控生成（Cosmos Transfer）等方向有丰富的研究经验。