基于Llama-3的OpenBioLLM-70B和8B：在医疗领域优于GPT-4

开源再次来袭： OpenBioLLM-Llama3-70B 和 8B 的发布。这些模型在生物医学领域超越了Openai 的 GPT-4、Google 的 Gemini、Meditron-70B、Google 的 Med-PaLM-1 和 Med-PaLM-2等行业巨头，为其模型设定了新的最先进水平。尺寸。迄今为止最有能力的公开医学领域大模型。

OpenBioLLM-70B 提供 SOTA 性能，而 OpenBioLLM-8B 型号甚至超越 GPT-3.5 和 Meditron-70B！
这些模型以 LLama-3 70B 和 8B 模型为基础，经过严格的两阶段微调过程，并利用直接偏好优化 (DPO) 来实现最佳性能。

结果可在 Open Medical-L LM 排行榜上查看：https ://huggingface.co/spaces/openlifescienceai/open\_medical\_llm\_leaderboard

在大约 4 个月的时间里，我们与医学专家合作，精心策划了多样化的定制数据集，以确保最高的质量。该数据集涵盖 3000 个医疗保健主题和 10 多个医学主题。

OpenBioLLM-70B 在 9 个不同的生物医学数据集上表现出色，尽管与 GPT-4 和 Med-PaLM 相比参数数量较少，但其平均得分却高达 86.06%。

您今天可以直接从 Huggingface 下载模型。

- 70B：https://huggingface.co/aaditya/OpenBioLLM-Llama3-70B
- 8B：https: //huggingface.co/aaditya/OpenBioLLM-Llama3-8B

以下是 OpenBioLLM-70B 和 8B 的顶级医疗用例：

1、总结临床笔记：
OpenBioLLM 可以高效地分析和总结复杂的临床记录、EHR 数据和出院摘要，提取关键信息并生成简洁、结构化的摘要
https://preview.redd.it/toy2s0xc80xc1.png?width=2048&format=png&auto=webp&s=d291ebd12f7ff37e0627d70196279146a3682de4

2、回答医疗问题：
OpenBioLLM 可以为广泛的医学问题提供答案。
https://preview.redd.it/hio197bl80xc1.png?width=1080&format=png&auto=webp&s=a7fe187f9d8f2b9ac02866e55ad8b00be23f6b65

3、临床实体识别
OpenBioLLM-70B 可以通过从非结构化临床文本中识别和提取关键医学概念（例如疾病、症状、药物、手术和解剖结构）来执行高级临床实体识别。
https://preview.redd.it/z3fsa4um80xc1.png?width=1080&format=png&auto=webp&s=b11b9c34fba09d560f2711307bcb9b62343cab31

4、医疗分类：
OpenBioLLM可以执行各种生物医学分类任务，例如疾病预测、情感分析、医疗文档分类
https://preview.redd.it/jbbxqmvo80xc1.png?width=1080&format=png&auto=webp&s=86b9bccc054505e705116c2604bfac557b2c943b

5、去识别化：
OpenBioLLM 可以检测并删除医疗记录中的个人身份信息 (PII)，确保患者隐私并遵守 HIPAA 等数据保护法规。
https://preview.redd.it/ln94fqiq80xc1.png?width=1080&format=png&auto=webp&s=f900a5aca0d12461745e7dca3a092cd977be0f92

6、生物标志物提取：
https://preview.redd.it/mgpj8kzr80xc1.png?width=1080&format=png&auto=webp&s=fd2336df5842fc96d4bea32c79863f2140b38b14

此次发布只是一个开始！在接下来的几个月里，我们将推出

- 扩大医疗领域覆盖范围，
- 更长的上下文窗口，
- 更好的基准，以及
- 多模式功能。

更多详细信息请访问：https://twitter.com/aadityaura/status/1783662626901528803

网友测试：
1、我现在在医学院，这个模型太棒了！我在研究骨骼和关节时使用它，答案质量非常好。这无疑是我迄今为止遇到的最好的生物医学模型。我正在使用 AMD 7965WX CPU（GPU 中加载 64 层）的 2xRTX4090 上运行 70B 模型（Q5_K_M GGUF Quant），每秒获得大约 7-8 个令牌。

2、这真的比 meditron 更好吗？
Meditron 继续进行医学领域的预训练和广泛的全面微调（不仅是 LORA）...显然它仍然基于 llama2...我使用了它（我是一名医学生），它确实比 llama 2 更好，我感觉持续的预训练确实给模型增加了新的知识，而不仅仅是改变了语气。
除了基准之外，该模型的表现如何？假设使用微调来添加新知识确实很困难，并且使用 lora 添加知识几乎是不可能的……我不知道 DPO 阶段有什么帮助……

3、我尝试了具有推荐温度和聊天模板的 Q6K 模型，但输出很差。我问的每个问题都得到了回答，就好像我问了一个完全不同的问题一样。顺便说一句，Llama 3 Instruct 回答得很好。

4、我在70B型号上得到的答案非常好，而且绝对不是简短的一句话答案。到目前为止，我主要关注骨组织学和关节学，但所有答案都详细、准确且写得很好。也许是你使用的量化工具，或者 8B 模型不太好（我根本没有尝试过 8B）。

5、这真太了不起了！经过微调的 llama3 在医疗领域表现出色。