BioGPT：微软生物医学文本生成模型的实现

#大语言模型LLM #GitHub工具库推荐 #Python教程

2023-02-10 banq

BioGPT是一个在大规模生物医学文献中预先训练的特定领域生成模型，已经实现了人类平等，优于其他一般和科学LLM，并可以在各种科学发现场景中赋予生物学家权力。

BioGPT对生物医学文献进行了培训，并实现了人类的平价。它现在是PubMedQA基准的领导者（81%）。

import torch
from fairseq.models.transformer_lm import TransformerLanguageModel
m = TransformerLanguageModel.from_pretrained(
        "checkpoints/Pre-trained-BioGPT", 
        "checkpoint.pt", 
        "data",
        tokenizer='moses', 
        bpe='fastbpe', 
        bpe_codes="data/bpecodes",
        min_len=100,
        max_len_b=1024)
m.cuda()
src_tokens = m.encode("COVID-19 is")
generate = m.generate([src_tokens], beam=5)[0]
output = m.decode(generate[0]["tokens"])
print(output)

详细点击标题