华佗GPT开源中文医疗大模型

联合创作 · 2023-09-25

HuatuoGPT(华佗GPT)是开源中文医疗大模型,基于医生回复和 ChatGPT 回复,让语言模型成为医生,提供丰富且准确的问诊。

HuatuoGPT 致力于通过融合 ChatGPT 生成的 “蒸馏数据” 和真实世界医生回复的数据,以使语言模型具备像医生一样的诊断能力和提供有用信息的能力,同时保持对用户流畅的交互和内容的丰富性,对话更加丝滑。

HuatuoGPT 使用了四种不同的数据集,分别如下:

  • 蒸馏 ChatGPT 指令数据集(Distilled Instructions from ChatGPT):这个数据集受到 Alpaca 模型创建指令集的方法启发,从 ChatGPT 中提炼出医疗相关的指令。与之前工作不同的是,本方法还加入了科室和角色信息,根据采样的科室或角色生成符合条件的指令数据集。
  • 真实医生指令数据集(Real-world Instructions from Doctors):这个数据集来源于真实医生和患者之间的问答。医生的回复通常简洁且口语化,因此本方法通过润色以提高其可读性。
  • 蒸馏 ChatGPT 对话数据集(Distilled Conversations from ChatGPT):这个数据集通过为两个 ChatGPT 模型提供共享的对话背景,让它们分别模仿医生和患者进行对话。
  • 真实医生对话数据集(Real-world Conversations with Doctors):这个数据集来源于真实医生的对话,但对医生的回复使用模型进行了润色。

这些数据集共同为模型提供了一个统一的语言模式、医生的诊断能力以及指令跟随能力。

浏览 2
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

编辑
举报