70页「自监督学习」大全来了!-轻识

自监督学习

转自：机器之心

「如果你想研究自监督学习，那最好看看这本书。」

「关于自监督学习，你想知道但又不敢问的一切都在这里了。」图灵奖得主、Meta 人工智能首席科学家 Yann LeCun 刚刚发了这样一则推文。

在推文中，LeCun 介绍了他和 Meta 人工智能研究院研究员、研究经理田渊栋等人共同撰写的一份「Cookbook」（非常实用、可操作性强、就像一本菜谱一样的论文）。这本 Cookbook 总共 70 页，涵盖了自监督学习的定义、重要性、起源、家族、训练部署方法、扩展方法等方面知识，是一份不可多得的学习材料。「如果你想研究自监督学习，那最好看看这本书。」田渊栋补充说。

论文链接：https://arxiv.org/pdf/2304.12210v1.pdf

自监督学习可以被看作是机器学习的一种「理想状态」，模型直接从无标签数据中自行学习，无需标注数据。它主要是利用辅助任务（pretext task）从大规模的无监督数据中挖掘自身的监督信息，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。自监督学习的优势在于它能够利用大量的无标签数据进行训练，而不需要人工标注。这样可以节省大量的人力和时间成本，并且可以利用更多的数据进行训练，从而提高模型的性能。

众所周知，Yann LeCun 一直是自监督学习的积极支持者。近几年，Meta 发表了一系列关于自监督学习的论文。LeCun 坚定地认为，自监督学习是 AI 系统的必要前提，它可以帮助 AI 系统构建世界模型，以获得类似人类的能力，如理性、常识，以及将技能和知识从一个环境迁移到另一个环境的能力。GPT-4 的成功有力地证明了自监督学习的有效性。不过，Yann LeCun 并不看好 GPT 家族所采用的自回归方法（预测下一个词），而是更倾向于构建「世界模型」。

这份 Cookbook 在社交媒体上受到了广泛好评。

自监督学习是什么？为什么如此重要？

2021 年，Yann LeCun 等人发布了一篇题为「Self-supervised learning: The dark matter of intelligence」的博客。在博客中，他们把自监督学习（SSL）称为「智能的暗物质」，认为这是推进机器学习的一条有前途的道路。

自监督学习（SSL）是深度学习在自然语言处理领域取得成功的基础，它带来了从自动机器翻译到在网络规模的无标签文本语料库上训练的大型语言模型的进步。在计算机视觉方面，它推动了数据规模的新边界，如在 10 亿张图像上训练的 SEER 模型。用于计算机视觉的 SSL 方法已经能够媲美或在某些情况下超过在标记数据上训练的模型，甚至在 ImageNet 等竞争激烈的基准上也是如此。SSL 也被成功地应用于其他模态，如视频、音频和时间序列。

自监督学习定义了一个基于无标签输入的辅助任务，以产生描述性的、可理解的表示。在自然语言中，一个常见的 SSL 目标是掩盖文本中的一个词并预测周围的词。这种预测一个词周围的上下文的目标鼓励模型捕捉文本中的词之间的关系，而不需要任何标签。同样的 SSL 模型表示可用于一系列下游任务，如跨语言的文本翻译、总结，甚至是生成文本，以及其他许多任务。在计算机视觉中，类似的目标存在于 MAE 或 BYOL 学习等模型中，以预测图像或表征中被遮蔽的内容块。其他 SSL 目标鼓励同一图像的两个视图，例如通过添加颜色或裁剪形成，以映射到类似的表示。

在大量无标签数据上进行训练的能力带来了许多好处。传统的监督学习方法是在一个特定的任务上进行训练，而这个任务通常是基于可用的标记数据而预先知道的，SSL 则是在许多任务中学习有用的通用表征。SSL 在医学等领域特别有用，因为这些领域的标签成本很高，或者具体的任务不能事先知道。也有证据表明，SSL 模型可以学习到对对抗性例子、标签损坏和输入扰动更稳健的表征，而且与有监督的模型相比更公平。因此，SSL 是一个越来越受关注的领域。然而，就像烹饪一样，训练 SSL 的方法是一门精致的艺术，有很高的入门门槛。

为什么要编写自监督学习的 Cookbook

虽然研究人员熟悉 SSL 的许多组件，但成功训练 SSL 的方法涉及从辅助任务到训练超参数的一系列令人眼花缭乱的选择。SSL 研究具有很高的进入门槛，包括：

1、计算成本高；

2、缺乏完全透明的论文来详细说明充分实现 SSL 潜力所需的复杂实现；

3、缺乏统一 SSL 的专业词汇和理论观点。

由于 SSL 建立了与传统的基于重建的无监督学习方法 —— 如（去噪、变分）自编码器 —— 不同的范式，因此我们在统一框架下理解 SSL 的词汇量是有限的。事实上，在单一框架下统一 SSL 方法的尝试直到去年才开始出现。因为没有一个共同的基础来描述 SSL 方法的不同组成部分，研究人员着手研究 SSL 方法变得更具挑战性。与此同时，SSL 研究迫切需要新的研究人员加入，以将其部署到现实世界中。然而，关于 SSL 泛化性的保证、公平性以及对对抗性攻击甚至自变体的稳健性，仍然存在许多未解之谜。这些问题对于 SSL 方法的可靠性至关重要。

此外，由经验驱动的 SSL 带有许多可变的部分（主要是超参数），它们是可能会影响最终表示的关键属性，而且在已发表的工作中不一定有详细的说明。也就是说，要开始研究 SSL 方法，首先必须详尽地对这些方法进行经验探究，以充分掌握所有这些部件的影响和行为。这种经验盲点有很大的局限性，因为它们需要大量的计算资源和预先存在的实践经验。总而言之，SOTA 的性能来自于看似不同但又重叠的方法，现有的理论研究很少，而这类模型在现实世界中的部署又很广泛。因此，我们需要一本统一这项技术及其有关方法的 cookbook。这对降低 SSL 的研究门槛至关重要。

研究人员的目标是以 cookbook 的形式奠定 SSL 研究的基础，并呈现与 SSL 有关的最新方法，从而降低 SSL 研究的门槛。

比如要成功烹饪，你必须首先学习基本技术：切碎、炒菜等。研究者从第 2 章开始使用通用词汇介绍自监督学习的基本技术。具体来说，他们描述了系统的方法以及理论线索，以统一的视角连接它们的目标。研究者们在概念框中突出显示出关键的概念，例如 loss terms 或 training objectives。

接下来，「厨师们」必须学会熟练地应用这些技术来形成「美味的菜肴」，这需要学习现有的食谱，组合食材并评估菜肴。在第 3 章中，研究人员介绍了成功实现 SSL 方法的实际注意事项，讨论了常见的训练方法，包括超参数选择、如何组装网络架构和优化器等组件，以及如何评估 SSL 的方法。

他们还分享了一些优秀的研究人员关于常见训练配置和躲避陷阱的实用技巧。希望这本 cookbook 能成为大家成功训练和探索自监督学习的实践基础。

更多细节请参见原论文。

参考链接：https://zhuanlan.zhihu.com/p/66063089

另外，为了聚集更多的人参与到AI生产力工具上来，笔者前几天特意组建了一个名为【ChatGPT实验室】的知识星球，目前已有180+读者加入，星球的主要定位包括： 1. 如何基于ChatGPT提高工作和学习效率。 2. 跟踪NLP、LLM、AIGC和AGI的前沿动态和最新进展。 3. 分享ChatGPT的最新应用和玩法。