三种大模型架构

肉眼品世界

共 853字,需浏览 2分钟

 · 2023-11-01

Transformers构成了革命性的大语言模型的骨干。

虽然像GPT4、llama2和Falcon这样的LLM在各种任务上似乎表现出色,但LLM在某个特定任务上的性能是底层架构的直接结果。

有三种不同的Transformer架构变体为不同的LLM提供动力。

1️⃣ 自编码器(Autoencoders)- 在自编码器中,预训练后会丢弃Transformer的解码器部分,只使用编码器生成输出。广泛流行的BERT和RoBERTa模型就是基于这种架构构建的,并在情感分析和文本分类任务上表现良好。这些模型使用一种称为MLM或掩码语言建模的过程进行训练。

2️⃣ 自回归模型(Autoregressors)- 像GPT系列、bloom等现代LLM是自回归模型。在这种架构中,保留解码器部分,预训练后丢弃编码器部分。虽然文本生成是自回归模型最适用的场景,但它们在各种任务上表现出色。大多数现代LLM都是自回归模型。这些模型使用一种称为因果语言建模的过程进行训练。

3️⃣ 序列到序列模型(Sequence-to-Sequence)- Transformer模型的起源是序列到序列模型。这些模型同时具有编码器和解码器部分,并且可以通过多种方式进行训练。其中一种方法是跨度损坏和重建。这些模型最适合于语言翻译任务。T5和BART系列的模型就是序列到序列模型

推荐阅读:

被 GPT-4 Plus 账号价格劝退了!

世界的真实格局分析,地球人类社会底层运行原理

不是你需要中台,而是一名合格的架构师(附各大厂中台建设PPT)

企业IT技术架构规划方案

论数字化转型——转什么,如何转?

华为干部与人才发展手册(附PPT)

【中台实践】华为大数据中台架构分享.pdf

华为的数字化转型方法论

华为如何实施数字化转型(附PPT)

华为大数据解决方案(PPT)

浏览 257
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报