基于Llama-3的OpenBioLLM-70B和8B:在医疗领域优于GPT-4

开源再次来袭: OpenBioLLM-Llama3-70B 和 8B 的发布。这些模型在生物医学领域超越了Openai 的 GPT-4、Google 的 Gemini、Meditron-70B、Google 的 Med-PaLM-1 和 Med-PaLM-2等行业巨头,为其模型设定了新的最先进水平。尺寸。迄今为止最有能力的公开医学领域大模型。

OpenBioLLM-70B 提供 SOTA 性能,而 OpenBioLLM-8B 型号甚至超越 GPT-3.5 和 Meditron-70B!
这些模型以 LLama-3 70B 和 8B 模型为基础,经过严格的两阶段微调过程,并利用直接偏好优化 (DPO) 来实现最佳性能。

结果可在 Open Medical-L LM 排行榜上查看:https ://huggingface.co/spaces/openlifescienceai/open\_medical\_llm\_leaderboard

在大约 4 个月的时间里,我们与医学专家合作,精心策划了多样化的定制数据集,以确保最高的质量。该数据集涵盖 3000 个医疗保健主题和 10 多个医学主题。

OpenBioLLM-70B 在 9 个不同的生物医学数据集上表现出色,尽管与 GPT-4 和 Med-PaLM 相比参数数量较少,但其平均得分却高达 86.06%。

您今天可以直接从 Huggingface 下载模型。


以下是 OpenBioLLM-70B 和 8B 的顶级医疗用例:

1、总结临床笔记:
OpenBioLLM 可以高效地分析和总结复杂的临床记录、EHR 数据和出院摘要,提取关键信息并生成简洁、结构化的摘要
https://preview.redd.it/toy2s0xc80xc1.png?width=2048&format=png&auto=webp&s=d291ebd12f7ff37e0627d70196279146a3682de4

2、回答医疗问题:
OpenBioLLM 可以为广泛的医学问题提供答案。
https://preview.redd.it/hio197bl80xc1.png?width=1080&format=png&auto=webp&s=a7fe187f9d8f2b9ac02866e55ad8b00be23f6b65

3、临床实体识别
OpenBioLLM-70B 可以通过从非结构化临床文本中识别和提取关键医学概念(例如疾病、症状、药物、手术和解剖结构)来执行高级临床实体识别。​
https://preview.redd.it/z3fsa4um80xc1.png?width=1080&format=png&auto=webp&s=b11b9c34fba09d560f2711307bcb9b62343cab31

4、医疗分类:
OpenBioLLM可以执行各种生物医学分类任务,例如疾病预测、情感分析、医疗文档分类
https://preview.redd.it/jbbxqmvo80xc1.png?width=1080&format=png&auto=webp&s=86b9bccc054505e705116c2604bfac557b2c943b

5、去识别化:
OpenBioLLM 可以检测并删除医疗记录中的个人身份信息 (PII),确保患者隐私并遵守 HIPAA 等数据保护法规。
https://preview.redd.it/ln94fqiq80xc1.png?width=1080&format=png&auto=webp&s=f900a5aca0d12461745e7dca3a092cd977be0f92

6、生物标志物提取:
https://preview.redd.it/mgpj8kzr80xc1.png?width=1080&format=png&auto=webp&s=fd2336df5842fc96d4bea32c79863f2140b38b14

此次发布只是一个开始!在接下来的几个月里,我们将推出

  • - 扩大医疗领域覆盖范围,
  • - 更长的上下文窗口,
  • - 更好的基准,以及
  • - 多模式功能。

更多详细信息请访问:https://twitter.com/aadityaura/status/1783662626901528803

网友测试:
1、我现在在医学院,这个模型太棒了!我在研究骨骼和关节时使用它,答案质量非常好。这无疑是我迄今为止遇到的最好的生物医学模型。我正在使用 AMD 7965WX CPU(GPU 中加载 64 层)的 2xRTX4090 上运行 70B 模型(Q5_K_M GGUF Quant),每秒获得大约 7-8 个令牌。

2、这真的比 meditron 更好吗?
Meditron 继续进行医学领域的预训练和广泛的全面微调(不仅是 LORA)...显然它仍然基于 llama2...我使用了它(我是一名医学生),它确实比 llama 2 更好,我感觉持续的预训练确实给模型增加了新的知识,而不仅仅是改变了语气。
除了基准之外,该模型的表现如何?假设使用微调来添加新知识确实很困难,并且使用 lora 添加知识几乎是不可能的……我不知道 DPO 阶段有什么帮助……

3、我尝试了具有推荐温度和聊天模板的 Q6K 模型,但输出很差。我问的每个问题都得到了回答,就好像我问了一个完全不同的问题一样。顺便说一句,Llama 3 Instruct 回答得很好。

4、我在70B型号上得到的答案非常好,而且绝对不是简短的一句话答案。到目前为止,我主要关注骨组织学和关节学,但所有答案都详细、准确且写得很好。也许是你使用的量化工具,或者 8B 模型不太好(我根本没有尝试过 8B)。

5、这真太了不起了!经过微调的 llama3 在医疗领域表现出色。