大型语言模型遇上文本中心的多模态情感分析:综述
数据派THU
共 4606字,需浏览 10分钟
·
2024-06-16 17:00
来源:专知 本文为论文介绍,建议阅读5分钟
近年来,大型语言模型(LLMs)展示了令人惊叹的人机对话能力,并在广泛的自然语言处理任务中表现出色,表明它们具有丰富的知识和强大的推理能力。
引言
-
人类能够获取并整合多模态细粒度信号。人类经常处于多模态情境中,通过语言、图像、声音和生理信号的综合效果,能够无缝理解他人的意图和情感。当处理情感时,人类能够敏锐地捕捉并整合来自多种模态的细粒度情感信号,并将其关联起来进行情感推理。 -
多模态表达能力。人类表达情感的方式包括语言、面部表情、身体动作、语音等。例如,在日常对话中,我们的自然语言表达可能是模糊的(如某人说“好吧”),但当结合其他模态信息(如视觉模态中的快乐面部表情或音频模态中的拉长语调)时,表达的情感是不同的。
-
LLMs和LMMs在各种多模态情感分析任务中的表现如何? -
在各种多模态情感分析任务中,利用LLMs和LMMs的方法有什么不同,它们各自的优势和局限性是什么? -
多模态情感分析的未来应用场景是什么?
大型语言模型
大型多模态模型
参数冻结范式和参数调优范式
在[208]中,作者总结了利用大型语言模型(LLMs)的两种范式:参数冻结范式和参数调优范式。
-
参数冻结应用:这种范式直接在LLMs上应用提示方法,而不需要对模型参数进行调整。根据是否需要少样本演示,参数冻结应用包括零样本学习和少样本学习。 -
参数调优应用:这种范式需要对LLMs的参数进行调整。根据是否需要对所有模型参数进行微调,参数调优应用包括全参数调优和参数高效调优。
以文本为中心的多模态情感分析任务
评论
VisualGLM-6B多模态对话语言模型
VisualGLM-6B是一个开源的,支持图像、中文和英文的多模态对话语言模型,语言模型基于ChatGLM-6B,具有62亿参数;图像部分通过训练BLIP2-Qformer构建起视觉模型与语言模型的桥
VisualGLM-6B多模态对话语言模型
0
多模态视觉语言模型 Mini-Gemini
大家好,又见面了,我是 GitHub 精选君!背景介绍随着大数据和人工智能技术的快速发展,多模态视觉语言模型(Multi-modality Vision Language Models)已成为近年来研究的热点。这类模型通过融合图像和文本信息,能够更好地理解和生成复杂的视觉语言内容,广泛应用于图像标注
开源你我他
0
mPLUG-Owl多模态大语言模型
阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于 mPLUG 模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。论文:https://
mPLUG-Owl多模态大语言模型
0