BioGPT:​​​​​​​微软生物医学文本生成模型的实现


BioGPT是一个在大规模生物医学文献中预先训练的特定领域生成模型,已经实现了人类平等,优于其他一般和科学LLM,并可以在各种科学发现场景中赋予生物学家权力。

BioGPT对生物医学文献进行了培训,并实现了人类的平价。它现在是PubMedQA基准的领导者(81%)。

import torch
from fairseq.models.transformer_lm import TransformerLanguageModel
m = TransformerLanguageModel.from_pretrained(
        "checkpoints/Pre-trained-BioGPT"
       
"checkpoint.pt"
       
"data",
        tokenizer='moses', 
        bpe='fastbpe', 
        bpe_codes=
"data/bpecodes",
        min_len=100,
        max_len_b=1024)
m.cuda()
src_tokens = m.encode(
"COVID-19 is")
generate = m.generate([src_tokens], beam=5)[0]
output = m.decode(generate[0][
"tokens"])
print(output)

详细点击标题