三种大模型架构

肉眼品世界

共 853字，需浏览 2分钟

·

2023-11-01 12:14

Transformers构成了革命性的大语言模型的骨干。

虽然像GPT4、llama2和Falcon这样的LLM在各种任务上似乎表现出色，但LLM在某个特定任务上的性能是底层架构的直接结果。

有三种不同的Transformer架构变体为不同的LLM提供动力。

1️⃣ 自编码器（Autoencoders）- 在自编码器中，预训练后会丢弃Transformer的解码器部分，只使用编码器生成输出。广泛流行的BERT和RoBERTa模型就是基于这种架构构建的，并在情感分析和文本分类任务上表现良好。这些模型使用一种称为MLM或掩码语言建模的过程进行训练。

2️⃣ 自回归模型（Autoregressors）- 像GPT系列、bloom等现代LLM是自回归模型。在这种架构中，保留解码器部分，预训练后丢弃编码器部分。虽然文本生成是自回归模型最适用的场景，但它们在各种任务上表现出色。大多数现代LLM都是自回归模型。这些模型使用一种称为因果语言建模的过程进行训练。

3️⃣ 序列到序列模型（Sequence-to-Sequence）- Transformer模型的起源是序列到序列模型。这些模型同时具有编码器和解码器部分，并且可以通过多种方式进行训练。其中一种方法是跨度损坏和重建。这些模型最适合于语言翻译任务。T5和BART系列的模型就是序列到序列模型

推荐阅读：

被 GPT-4 Plus 账号价格劝退了！

世界的真实格局分析，地球人类社会底层运行原理

不是你需要中台，而是一名合格的架构师（附各大厂中台建设PPT）

企业IT技术架构规划方案

论数字化转型——转什么，如何转？

华为干部与人才发展手册（附PPT）

【中台实践】华为大数据中台架构分享.pdf

华为的数字化转型方法论

华为如何实施数字化转型（附PPT）

华为大数据解决方案（PPT）

浏览 281

点赞

收藏

分享

举报

评论

图片

表情

PAM朴素架构模型

PAM(PlainArchitectureModel)朴素架构模型是基于JavaEE的Web应用开发模型，没有复杂的框架，结构清晰，简单易上手。PAM采用HTTP协议，简单成熟；PAM不涉及表现逻辑处

PAM朴素架构模型

PAM(Plain Architecture Model)朴素架构模型是基于Java EE的Web应

国内外30个热门大模型架构的信息汇总

LLM 架构配置注意1.RoPE指的是RoPE家族的位置编码，经过了XPos，线性内插，NTK-Aware Scaled RoPE和dynamic NTK等若干次进化，故上表中提及的RoPE并不一定是完全相同的位置编码方法。2.模型类型中若含有MoE，表示该系列的模型中存在使用MoE架构的模型，而并

数据分析必备的三种思考模型

架构设计之三种业务模型:活动资源模型、契约模型、模板模型

JAVA前线欢迎大家关注公众号「JAVA前线」查看更多精彩分享，主要内容包括源码分析、实际应用、架构思维、职场分享、产品思考等等，同时也非常欢迎大家加我微信「java_front」一起交流学习 1 文章概述在实际开发场...

大模型时代的基础架构，大模型算力中心建设指南重磅来袭！

👆点击“博文视点Broadview”，获取更多书讯--文末赠书--在被大模型围绕的今天，大模型可以为个人赋能，让每个人有成为AI超级个体的机会，大模型的基础架构也在为企业核心竞争力赋能，成为大中型企业云计算基础设施的关键组成部分！目前，大中型企业正处于在其数据中心内建设大模型基础设施的关键阶段。但是

双十一秒杀架构模型设计

极客挖掘机

双十一秒杀架构模型设计

双十一秒杀架构模型设计

数据分析必备的三种思考模型

数据分析1480

点赞

收藏

分享

举报