该死,我又心动了,这都能行
共 1092字,需浏览 3分钟
· 2022-06-10
大家好,我是假期努力肝文的 Jack。
多模态是近几年的热点,文本到图像的合成算法,更是卷上了天。
谷歌的 Imagen 超越 OpenAI 的 DALL・E 2,成为了新的 SOTA。
Imagen 文本到图像的生成可谓是天马行空,能够生成各种有趣的图片。
比如给 Imagen 算法输入:
一张背着旅行包的柴犬户外骑行照,它戴着墨镜,头顶沙滩帽。
![](https://filescdn.proginn.com/39e42b4cc9c97b1c9b562c97ad304aba/21ccd4dcbe135e272443e35f763a717b.webp)
泰迪熊的 400 米蝶泳首秀。
![](https://filescdn.proginn.com/81f6e971f62171dc95e897706750e608/84abd712266619dbcad4048e1bf3beba.webp)
愤怒的小鸟。
![](https://filescdn.proginn.com/b4c80280826386cd981bc469029255b2/e82f19e12091a1559ed966bc311bd3d1.webp)
Imagen 算法原理如下:
![](https://filescdn.proginn.com/7b4059189c82800f2934a555e20de4b4/140a22d6bdb89323f0f4d358e6c77ca7.webp)
首先,算法会采用 frozen T5-XXL 编码器对接收到的文本进行编码。
输出送给文本转图像的扩散模型,并输入给两个超分辨率扩散模型。
文本转图像的扩散模型输出的图像分辨率是 64 * 64的,然后再经过两次超分,得到最终 1024 * 1024 的图像。
项目仓库 3 月份就建好了,不过直到 6 月,也就是这两天,才正式开源。
项目地址:
https://github.com/lucidrains/imagen-pytorch
![](https://filescdn.proginn.com/64cde26a250f47520926b16fc51c7927/f836913b6bc4b39295b958c936f1f523.webp)
对这类算法感兴趣的小伙伴,一定要去试试,效果提升很不错~
在我之前介绍 DALL・E 2 的就有小伙伴脑洞大开留言道:
既然能用文本生成图片,那是不是也能用文本生成视频?
CogVideo 它来了!
咱们先看下 CogVideo 的文本生成视频的效果。
一个视频都是根据一段文本描述生成的。
比如输入文本:
一个男人在海里奔跑。
![](https://filescdn.proginn.com/ea4fdc83a75083c7a8568704d494cc09/9f8bc8803e194e6f35abecd0a05cfe62.webp)
CogVideo 算法会生成一系列的图片,最终生成视频。
CogVideo 算法的流程如下:
![](https://filescdn.proginn.com/598a101a9cb30311155db5b8613b74e2/2457d3d184b76a13f6677c681b688299.webp)
第一部分先基于CogView2,通过文本生成几帧图像,这时候合成视频的帧率还很低;
这个算法是文本生成图片的,大家可以在这里体验第一版的 CogView 效果:
https://wudao.aminer.cn/CogView/index.html
我试了一下,齐刘海的狮子,它可能理解不了,哈哈。
![](https://filescdn.proginn.com/9efebc48631b83bb367cc2bb6fba6da2/aefa6d0f49919e184e20ea9b0f76bbea.webp)
第二部分则会基于双向注意力模型对生成的几帧图像进行插帧,来生成帧率更高的完整视频。
给大家放几组效果,感受一下。
![](https://filescdn.proginn.com/7ea8d578ac073ee81361c49b94876654/3f4f3c2a3e155f65c974bf52f62ad692.webp)
不过这个代码还没有开源,只是建了仓库,可以先 star 标记一下。
https://github.com/thudm/cogvideo
今天主要是介绍这类算法的进展,没教大家怎么部署环境,感兴趣的小伙伴,可以先自己根据 readme 进行配置。
行了,今天就聊这么多吧,我是 Jack,我们下期见!
![](https://filescdn.proginn.com/ffebc1962601ad757dce53af3bb007aa/55f6932104368185c9b49a65d53ca909.webp)