前沿热点: 自监督学习图鉴-轻识

Yann Lecun 曾在演讲中以蛋糕来类明自监督学习。他在演讲中说，

If intelligence is a cake, the bulk of the cake is self-supervised learning, the icing on the cake is supervised learning, and the cherry on the cake is reinforcement learning (RL).

大牛的比喻不用过于较真，而且这个说法也存在争议。但我们可以看到，在自然语言处理领域中应用自监督学习的思想确实已经取得了很大进展（例如 Word2Vec，Glove，ELMO，BERT）。

由于对自监督学习在图像领域的进展感兴趣，因此对一些相关文献做了调研和总结。这篇文章将解释什么是自监督学习，并总结自监督学习在图像领域中的应用。

1Why 自监督学习？

要用深度神经网络进行监督学习，需要足够的带标签数据。然而，人工标注大量数据既耗时又费力。另外，还有一些领域，例如医学领域，要获取足够的数据本身就是一个挑战。因此，当前监督学习范式的一个主要瓶颈就是标注数据或者叫标签生成。

2自监督学习

自监督学习是一种提出以下问题并将一个无监督学习问题转化为监督问题的方法:

如何设计一个任务，从现有图像集中生成几乎无限多的标签，以便用来学习图像的表示呢？

什么意思呢？图像集本身没有标签，只能干点无监督的任务，但是我们还是想用一个网络去学习图像的表示（提取它的特征），怎么办呢？那就用图像自身来制造 ‘标签’，这不就转化为一个监督学习的问题了吗！

在自监督学习中，我们通过创造性地利用数据的某些属性来设置伪监督任务以替代人类标注那个环节。例如，在这里我们可以将图像旋转 0/90/180/270 度，然后训练模型来预测正确的旋转，而不是显式地将图像标注为猫或者狗等类别。我们可以从互联网上免费提供的数百万张图像中生成几乎无限的训练数据。

一旦从数百万张图像中学习图像的表示后，我们可以使用迁移学习实现在一些监督任务（例如猫与狗的图像分类）上用少量几张实例图像进行微调。

让我们来了解一下近年来研究人员提出的利用图像和视频属性的各种方法，以及应用自监督学习来实现表示学习。下面分别从图片和视频两方面来介绍自监督学习。

图像篇

3图像重构

〄图像着色

我们将免费可获取的数百万张彩色图像转化为灰度图，来构建（灰度图, 彩色图）图像对。

我们可以使用基于全卷积神经网络的编码器-解码器（encoder-decoder）网络架构，并计算预测彩色图像与实际彩色图像之间的 L2 损失。

为了完成此任务，模型需要学习图像的表示，即图像中有哪些物体及相关 part，以便用相同颜色来绘制这些 part。模型学习到的图像表示将用于下游任务。

〄图像着色应用。

相关论文:

Colorful Image Colorization
Real-Time User-Guided Image Colorization with Learned Deep Priors
Let there be Color!: Joint End-to-end Learning of Global and Local Image Priors for Automatic
Image Colorization with Simultaneous Classification

〄图像超分辨率

通过对免费获取的数百万张图像进行降采样来构建（小图像, 放大图像）图像对。

基于 GAN 的模型（例如 SRGAN）非常适合这样的任务。生成器使用全卷积网络获取低分辨率图像并输出高分辨率图像。使用均方误差和内容损失来比较实际图像和生成的图像，以模仿人类对图像的质量评估。二分类判别器会将图像识别为真实的高分辨率图像（1）还是伪造的超分辨率图像（0）。这两个模型之间的相互作用导致生成器不断学习最终能够生成具有精细细节的图像。