setzer22/llama-rs: 使用 Rust 在 CPU 上运行 LLaMA 推理


LLaMA-rs是llama.cpp项目的 Rust 端口 。 这允许使用模型的全精度、f16 或 4 位量化版本在 CPU 上以良好的性能运行 Facebook 的LLaMA模型的推理。
就像对应的 C++ 开源项目 一样,它由 ggml张量库提供支持,实现与原始代码相同的性能。

项目背景:
在看到llama.cpp的巨大潜力后,我做的第一件事就是看看将它变成一个库以嵌入到我的项目中有多难。我开始深入研究代码,并意识到繁重的工作是由ggml(C 库,易于绑定到 Rust)完成的,整个项目只有大约 2k 行 C++ 代码(绑定起来并不容易)。在尝试将 HTTP 服务器构建到该工具中的几次(失败)尝试之后,我意识到,如果我将代码移植到 Rust 上,我会更有效率,因为 Rust 会让我感觉更舒服。