公众号文章分类

DayNightStudy

共 4537字,需浏览 10分钟

 · 2021-09-21

个人方法论文方法研读篇

语法纠错问题

事件抽取

命名实体识别

语义匹配

关键词提取

语义匹配

关系抽取

Transformers

蒸馏

实体链接

转载方法解读

对话系统

  • (一)对话机器人概述

    • 按照知识领域分类:面向限定领域的问答系统、面向开放领域的问答系统、面向常用问题集的问答系统

    • 答案来源分类:基于结构化的问答系统、基于文档的问答系统、基于问答对的问答系统

    • 答案反馈机制分类:基于检索式的问答系统、基于生成式的问答系统

    • 根据任务类型分类:问答机器人、任务机器人、闲聊机器人

    • 机器人的实现技术 之 end-to-end模式:从用户输入到系统输入作为一个整体去训练,希望训练一个从用户端自然语言输入到机器端自然语言输出的整体映射关系;优点:灵活性强、可拓展性高、减少人工成本、解决传统模块之间的隔离、偏置误差小;缺点:模型过于庞大对数据的数量和质量要求很高,训练困难,并且对于填槽、API 调用等过程的建模不够明确,修改任何一个功能,都需要重新训练整个模型;

    • 器人的实现技术 之 pipeline模式:从input->NLU->DST->DPL->NLG->output,一个对话从输入像流水线一样经过系统,最终得到答案输出给用户。

文本匹配方法解读

命名实体识别

关系抽取方法解读

Prompt范式

Query理解

业界盘点|Query理解在搜索中的落地技巧

心法利器[34] | 报告小结:query理解概述

  • query 理解应用背景:推广搜+对话

  • 搜索与对话的技术架构

    • 腾讯搜索:Query理解(预处理、拓展、纠错等)-》检索召回(文本/字面检索和语义/向量检索)-》排序(结合各种特征,来对召回的结果进行排序)

    • 微软小冰:

    • 平安人寿智能问答引擎:quuery理解-》检索模块-》排序模块-》结合现实场景,用户对话的内容,进行对话策略的调整

  • NLU(自然语言理解)的三大任务

    • 意图识别——文本分类。

    • 实体抽取、term分析——命名实体识别。

    • 语义表征——语义相似度。

知识图谱

文本分类

Text2SQL

新词发现

实体库构建:离线大规模新词实体挖掘

  • 什么是新词?

    • 不存在于 实体库 中的词汇

  • 如何新词发现?

    • 无监督方法:使用紧密度加自由度调整阈值就可以提取新词。问题:调整阈值问题;

    • 有监督方法:利用中文分词的方法,将切分出来的不在 词汇库 中的词认为是新词;

  • 新词发现 步骤:

  1. 挖掘频繁项;

  2. 提取频繁项的各种统计特征;

  3. 频繁项和已经有的实体交集作为正样本,负采样得到负样本。使用多个分类器进行集成,训练多个二元分类器;

  4. 搜索日志中搜索次数比较高的词条和正样本的交集作为高质量短语,负样本减去词条作为低质量短语,使用Bert训练质量打分器;

  • 难点:

  1. 阈值确定问题;

  2. Bert打分器这个东西的可靠性;

推荐系统

机器学习

TensorFlow

专栏

美团技术

工具篇

百面百搭

机器学习篇

Trick 篇

深度学习 方法篇

NLP 任务篇

Transformer

预训练

TopicShare

五味杂谈

顶会

AAAI 2021

大数据

Hadoop

Spark 学习


浏览 16
点赞
评论
收藏
分享

手机扫一扫分享

举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

举报