阿里通义实验室基础视觉智能团队最新招聘-轻识

来源： C VHub

团队介绍

我们团队是通义实验室-基础视觉智能-视频生成团队，主要集中在文生视频、图生视频、可控生成、个性化生成、基于人类偏好视频生成等领域，且已经有了许多积累，近两年在TPAMI、IJCV、NeurIPS、ICLR、CVPR、ICCV等发表论文四十余篇，获得国际挑战赛冠军十余项。开源了视频领域内最完整的视频生成项目VGen，代表性的工作包括ModelScope-T2V、VideoComposer、I2VGen-XL、VideoLCM等。

VGen: https://github.com/ali-vilab/i2vgen-xl

目前我们的RI同学均来自海内外知名高校硕博，目前大部分同学已经毕业或则马上毕业的RI都拿到了"阿里星”、“天才少年”等机会，且我们小组连续两年内有三位实习同学拿到了“阿里巴巴优秀实习生”奖(每年CV方向仅3-4人)，因此大家在这里可以和优秀的同学日常一起交流学习。此外，本团队具有充足的计算资源(管够)和数据资源，在视频生成也有较多的极累能够帮助大家快速成长，实习表现优秀的同学具有转正机会，所以非常期待大家的加入。

岗位名称

人才计划-学术实习生(Research Intern)

岗位要求

目标对象，海内外知名大学在读硕博，2025.12月之后毕业；

具有扎实的计算机视觉或机器学习算法基础；

博士优先，发表过CCF-A论文优先；

研究方向包括但不限于Video/Image Generation、Talking Head Generation、Diffusion Models、LLM等方向；

乐于沟通、分享、交流;

对阿里的业务场景具有浓厚兴趣；有激情，责任心强，具备良好的团队合作、沟通能力。

投递方式

工作地点：杭州，北京

邮箱1：hust.zhangsw@gmail.com (邮件必回)

邮箱2：zhangjin.zsw@alibaba-inc.com (邮件必回)

邮箱主题/简历命名格式：实习生申请-姓名-电话

2023年部分视频生成工作列表：

[NeurIPS2023] VideoComposer: Compositional Video Synthesis with Motion Controllability

[NeurIPS2023] FaceComposer: A Unified Model for Versatile Facial Content Creation

[Preprint2023] ModelScope Text-to-Video Technical Report

[Preprint] I2VGen-XL: High-quality image-to-video synthesis via cascaded diffusion models

[Preprint2023] A Recipe for Scaling up Text-to-Video Generation with Text-free Videos

[Preprint2023] InstructVideo: Instructing Video Diffusion Models with Human Feedback

[Preprint2023] DreamTalk: When Expressive Talking Head Generation Meets Diffusion Probabilistic Models

[Preprint2023] VideoLCM: Video Latent Consistency Model

[Preprint2023] DreamVideo: Composing Your Dream Videos with Customized Subject and Motion

[Preprint2023] Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation！