现在的AI公司都疯了。每年花八千到五万美金买各种工具订阅,什么API调用费、模型托管费、代理平台费。但你猜那些真正在造AI的人用什么?开源。研究员用开源,工程师用开源,独立开发者用开源。我翻了三百多个代码仓库,挑出六十九个能直接上生产的。全套AI技术栈,全免费。
本地跑大模型:一条命令搞定,不用API没有账单
你想想看,每次调OpenAI的接口,钱就哗啦啦往外流。本地跑模型就不一样了,下载一次,随便用。最无脑的入门工具叫Ollama。你打开终端,敲一句ollama run llama3,模型就开始跑了。它支持GPU加速,还有个REST API,跟OpenAI的接口长得一样。你要是程序员,一行代码都不用改,就能把你原来调GPT的软件换成本地模型。完全免费,没有并发限制,爱调多少次调多少次。
GitHub: https://github.com/ollama/ollama ★ 90K+
纯C++写的推理引擎:跑得快还省内存
Ollama是车,那llama.cpp就是发动机。这玩意纯C++写的,CPU上就能跑,当然你有显卡也支持。大部分本地AI工具背后都是它。为啥这么火?因为极快,内存占用极低。你在老笔记本上都能跑起来。以前觉得大模型必须几万块的服务器,现在一千块的二手电脑也能玩。它就是那种你装完就忘了存在的工具,稳定可靠,从不出幺蛾子。
GitHub: https://github.com/ggerganov/llama.cpp ★ 68K+
生产环境高并发推理:大公司都在用这套
你要正经做生意,用户量上来了,普通本地跑法扛不住。这时候用vLLM。它支持连续批处理和分页注意力机制,这两技术说白了就是让GPU一刻不停地在干活,不用等。OpenAI兼容的API,你原来怎么写代码,现在照旧。大多数正经AI公司部署模型都用它。我见过一个做AI客服的团队,从几十个用户涨到几万,vLLM一直没换过。
GitHub: https://github.com/vllm-project/vllm ★ 32K+
桌面软件:不懂代码的人也能玩本地模型
你不想敲命令行?装LM Studio。图形界面,下载Hugging Face上的模型点几下就行。它还会给你起一个本地服务器,接口也是OpenAI兼容的。对非程序员最友好的入门方式。Mac、Windows、Linux都能装。你的数据永远不会离开自己的电脑,做敏感数据处理的团队特别需要这个。
官网: https://lmstudio.ai/
纯离线版ChatGPT:数据不出门
GPT4All是ChatGPT的开源替代品,百分百离线运行。界面干净,管理模型方便,也有本地API服务器。你要是做医疗、金融、法律这些行业的AI,数据隐私是红线,这工具就是为你准备的。所有对话都在你电脑上完成,没人能看你的记录。
官网: https://gpt4all.io/ ★ 64K+
瑞士军刀级本地UI:功能最全没有之一
Text Generation Web UI,江湖人称oobabooga。支持所有模型格式,所有后端,所有采样参数。有角色扮演模式、笔记本模式、API模式。你要是想深入玩本地模型的各种奇葩功能,比如让模型模仿某个人说话,或者调试各种生成参数,就得用它。功能太多刚开始会觉得复杂,但熟悉之后你会发现别的工具都不够用。
GitHub: https://github.com/oobabooga/text-generation-webui ★ 39K+
自托管的OpenAI替代品:一行代码都不改直接换
LocalAI做了一件很聪明的事:它把自己伪装成OpenAI的API。你原来调用OpenAI的代码,只要把API地址改成自己部署的LocalAI,后面接上本地模型,完事。不用改任何业务代码。你要从付费API迁移到本地模型,这是最平滑的方案。我帮一个创业公司做迁移,一下午就搞定了,第二个月他们的API账单从三千刀降到了零。
GitHub: https://github.com/mudler/LocalAI ★ 28K+
让你的AI读你自己的数据
光是让AI聊天太浪费了,你得让它读你自己的文档、数据库、聊天记录。这就是RAG,检索增强生成。最流行的框架是LangChain。它做链式调用、代理、检索器、记忆模块。生态超级大,几乎所有你能想到的数据源都有集成。你要是搞AI开发,早晚会遇到LangChain,逃不掉的。
GitHub: https://github.com/langchain-ai/langchain ★ 133K+
纯RAG专用框架:比LangChain更专注
LlamaIndex是专门为RAG设计的。你连接PDF、SQL数据库、Notion、Slack,然后用自然语言查询。对于纯粹的RAG场景,它比LangChain更好用,因为更专注。代码写起来也更直观。你只需要告诉它你的数据在哪,然后问问题就行。
GitHub: https://github.com/run-llama/llama_index ★ 35K+
多模态RAG:不只是PDF,表格图片图表通吃
Claude和其他大模型现在能看图了。ColiVara做多模态RAG,处理文本、表格、图片、图表、图形,不是光能从PDF里抽文字。六行代码就能设置好。正经公司在生产环境用这个做合同审核、财报分析这些活。
GitHub: https://github.com/ColiVara/colivara ★ 2.5K+
向量数据库:存语义的最简单方式
Chroma是开源向量数据库里最简单的。存嵌入向量,按相似度搜索,还能用元数据过滤。可以跑在内存里也可以持久化存盘。你想给自己的网站加语义搜索功能,十分钟就能搭起来。它是那种你用了就回不去的工具。
GitHub: https://github.com/chroma-core/chroma ★ 16K+
生产级向量数据库:能撑到几十亿条
Qdrant更重量级。支持混合搜索、多租户、实时更新。生产环境就绪,能撑到几十亿条向量数据。那些你听说过的大公司都在用。你要是正经做产品,用户量可能暴涨,直接用Qdrant省得以后迁移。
GitHub: https://github.com/qdrant/qdrant ★ 20K+
最成熟的RAG框架:模块化可插拔
RAGFlow是端到端的NLP框架。模块化设计,生产环境就绪,支持任何大模型和任何向量数据库。你要做复杂的RAG流水线,比如多个数据源、多种检索策略、多级重排,这玩意最成熟。代码写得很规范,文档也全。
GitHub: https://github.com/infiniflow/ragflow ★ 12K+
把文档转成结构化的Markdown:IBM出品
文档里面有表格有图表有公式,普通抽文字会乱。Docling把这些复杂东西转成结构化的Markdown,AI吃起来舒服。IBM研究院做的,质量有保证。你做合同解析、论文理解这类活,这工具能省你大量清洗数据的时间。
GitHub: https://github.com/IBM/docling ★ 3.5K+
让AI自己干活:代理系统
光是回答问题太小儿科了。你得让AI自己动起来,执行任务、调用工具、写代码。微软出的AutoGen是多代理对话框架。多个代理互相聊天,分配任务,还能自己写代码并执行。要做复杂的代理工作流,这是最强大的框架。
GitHub: https://github.com/microsoft/autogen ★ 38K+
角色扮演代理团队:最简单的方式
CrewAI让你编排角色扮演的AI代理。你定义一个团队,分配角色,设定目标,代理们像真人员工一样协作。比如说你搞一个写代码的代理,一个做测试的代理,一个写文档的代理,他们之间互相配合。这是构建多代理系统最简单的方式,不用理解太复杂的概念。
GitHub: https://github.com/crewAIInc/crewAI ★ 45K+
状态机代理工作流:生产级方案
LangGraph把多代理工作流建成图。节点是代理或函数,边是状态转移。能处理复杂逻辑、循环、人工介入。这是生产级的代理框架。你要是做的那种代理需要来回对话、多次决策、可能走不同分支,用这个。
GitHub: https://github.com/langchain-ai/langgraph ★ 29K+
快速多模态代理:比LangChain快十倍
Haystack是个老牌NLP框架,现在也支持代理了。构建快速多模态AI代理,支持任何大模型、任何工具、记忆、知识、存储。做个简单代理比LangChain快十倍。API干净,文档也写得好。你要是刚入门代理开发,从这开始比较舒服。
GitHub: https://github.com/deepset-ai/haystack ★ 20K+
极简代理框架:总共一千行代码
Hugging Face出的SmolAgents。代码代理能自己写Python并执行来解决问题。极其简单,总共就一千行代码。它是对LangChain复杂度的反抗。你不需要那些花里胡哨的功能,只想让模型能调用工具,用这个。
GitHub: https://github.com/huggingface/smolagents ★ 7.2K+
开源版Devin:自己写代码自己部署
OpenDevin是Devin的开源替代品。AI软件工程师自己写代码、跑测试、修Bug、部署。配合Claude或者GPT-4或者本地模型都能用。现在最能打的编程代理。你让它修一个Bug,它会自己去翻代码,写修复,跑测试确认,然后提交PR。
GitHub: https://github.com/OpenDevin/OpenDevin ★ 40K+
自己托管多个代理:带图形界面
Superagent是自托管的自主AI代理基础设施。有代理市场、性能监控、并发代理、图形界面。你可以自己服务器上同时跑多个代理,监控它们干活。做代理服务商的团队用这个。
GitHub: https://github.com/superagent-ai/superagent ★ 4.8K+
别再瞎调提示词了:用测试和评估
调提示词跟炼金术似的,今天行明天不行。DSPy来自斯坦福NLP组,它的理念是编程而不是提示。你定义你想要什么,它自动优化提示词。把提示词工程从玄学变成了系统工程。你写完需求,它帮你找到最优的提示词写法。
GitHub: https://github.com/stanfordnlp/dspy ★ 18K+
用代码控制输出格式
Outlines让你用代码控制大模型输出的结构。可以在生成过程中穿插逻辑,强制JSON格式,约束输出范围。当你需要模型输出严格符合某种格式的时候,比如API返回的JSON字段必须存在,用这个。不用写一堆提示词求它遵守格式。
GitHub: https://github.com/outlines-dev/outlines ★ 8.5K+
保证输出合法结构化数据
JSONformer专门做结构化文本生成。强制模型输出合法的JSON、正则匹配的文本、特定模式。零提示词工程,保证输出结构正确。你想让模型返回一个带三个字段的JSON,它保证不会多一个少一个。
GitHub: https://github.com/1rgs/jsonformer ★ 4.2K+
像单元测试一样测提示词
Promptfoo让你自动化测试和评估提示词。跑自动化测试,对比模型版本,发现回归问题。就像给代码写单元测试一样,给提示词也写测试。上线前必须跑一遍,不然你都不知道改了哪个字之后模型行为变没变。
GitHub: https://github.com/promptfoo/promptfoo ★ 6K+
评估框架:因为感觉不是指标
DeepEval是大模型应用的评估框架。追踪不同模型版本、不同提示词、不同配置下的质量。你做了一版改动,它能告诉你质量是变好了还是变差了。别再靠感觉了,靠数据。
GitHub: https://github.com/confident-ai/deepeval ★ 3.2K+
用Pydantic保证结构输出
Instructor配合Pydantic用。你定义一个数据模型,它返回验证过的Python对象。支持OpenAI、Anthropic、Google、本地模型。最干净的结构化输出方案。写代码的时候类型提示全都有,再也不用猜返回的字段是啥了。
GitHub: https://github.com/instructor-ai/instructor ★ 6K+
把模型变成你自己的形状
微调就是让模型专门学习你的数据。Unsloth微调大模型速度快两倍,省百分之八十的内存。支持Llama、Mistral、Qwen、Gemma。单张显卡就能跑。你要是资源紧张,这是唯一需要的微调库。我的老显卡也能跑,以前根本不敢想。
GitHub: https://github.com/unslothai/unsloth ★ 14K+
简化微调流程:YAML配置搞定
Axolotl简化了大模型微调。用YAML配置文件,支持所有数据集格式,支持所有训练技术。它是Hugging Face Transformers之上的运维层。正经做微调的大多用这个。你写个配置文件,它就帮你跑完整个流程。
GitHub: https://github.com/OpenAccess-AI-Collective/axolotl ★ 12K+
零代码微调:带网页界面
Llama Factory零代码微调一百多个大模型。网页界面,支持LoRA、QLoRA、全量微调。最友好的微调工具,GitHub四万颗星不是白来的。你想试试微调但又不想写代码,点鼠标就能搞定。
GitHub: https://github.com/hiyouga/LLaMA-Factory ★ 42K+
强化学习对齐:就是训练模型听话
TRL是Transformer强化学习库,来自Hugging Face。RLHF、DPO、PPO这些技术,就是用来对齐GPT-4和Claude的。你想训练模型做你真正想要的事,而不仅仅是你说的那些话,用这个。比如训练模型避免有害输出,或者偏向某种风格。
GitHub: https://github.com/huggingface/trl ★ 12K+
Meta官方微调库:PyTorch原生
Torchtune是Meta出的PyTorch原生微调库。简单、可入侵、文档好。纯PyTorch微调的参考实现。你喜欢PyTorch,想完全掌控每个细节,用这个。Meta自己内部也在用。
GitHub: https://github.com/pytorch/torchtune ★ 4.5K+
合并多个微调模型:不用显卡
MergeKit把多个微调过的模型合并成一个。支持SLERP、TIES、DARE、线性合并等各种技术。合并不需要显卡。你能创造出比父模型还强的弗兰肯斯坦模型。Hugging Face上那些合并模型基本都是用这个做的。
GitHub: https://github.com/arcee-ai/mergekit ★ 3.8K+
给AI喂它真正需要的数据
你把PDF、Word、Excel、PPT、图片、音频转成Markdown。微软出的MarkItDown做这事。喂给大模型的是干净的结构化文本而不是垃圾。三十八万颗星。你做RAG的话,这一步决定了后续所有步骤的质量。
GitHub: https://github.com/microsoft/markitdown ★ 38K+
把整个代码仓库装进一个提示词
Simon Willison出的files-to-prompt。把你整个代码仓库变成一个提示词。尊崇gitignore规则,可以递归扫描,可以过滤文件。最简单的喂代码给Claude的工具。你让Claude帮你改整个项目的代码,把这工具的输出粘过去就行了。
GitHub: https://github.com/simonw/files-to-prompt ★ 1.2K+
给AI用的网页抓取
Firecrawl做网页抓取。从任何URL提取干净的Markdown,处理JS重站点,还能做结构化数据提取。它是任何AI流水线的网页数据层。你要抓别人网站的内容给AI分析,用这个。
GitHub: https://github.com/mendableai/firecrawl ★ 18K+
整站抓取成AI就绪数据
Crawl4AI把整个网站变成大模型就绪的数据。全站爬取,结构化提取,输出干净的Markdown。生产级网页抓取工具。你想把一个文档网站全抓下来做知识库,用这个。
GitHub: https://github.com/unclecode/crawl4ai ★ 5.5K+
给Claude一个真正的浏览器
Claude Browser让Claude能操作真实浏览器。导航、点击、截图、读动态内容。三十秒内分析任何网站。做网页自动化的最强MCP服务器。你想让AI帮你填表单、抓动态数据,这个能搞定。
GitHub: https://github.com/sunner/ChatALL ★ 2.1K+
连接Claude到外部工具的标准
MCP是Anthropic的官方协议,连接Claude到任何API、数据库、服务。生态里有个庞大的服务器列表。你想让Claude能查数据库、调API、读文件,用MCP。官方标准,以后只会越来越多。
GitHub: https://github.com/modelcontextprotocol ★ 16K+
给AI用的浏览器操作工具
Browser-Use让AI能控制浏览器做自动化操作。填表单、点按钮、截图、读页面。做RPA或测试自动化的时候特别好用。你的AI代理需要操作网页的话,这玩意省你大量时间。
GitHub: https://github.com/browser-use/browser-use ★ 25K+
自托管工作流自动化:四百多个集成
N8N是自托管的工作流自动化,四百多个集成。连接大模型到任何应用。可以定时触发或者用webhook触发AI工作流。节点里能跑自定义JS或Python。正经AI流水线背后的自动化层。它干掉了一年一万五千刀的Zapier订阅。
GitHub: https://github.com/n8n-io/n8n ★ 46K+
部署上线然后随便扩
一套API调用一百多个大模型。OpenAI格式,支持Claude、GPT、Gemini、本地模型。还能做负载均衡、故障转移、成本追踪。你的应用和所有大模型提供商之间的代理层。换模型不用改代码,改个配置就行。
GitHub: https://github.com/BerriAI/litellm ★ 12K+
打包部署AI服务
BentoML帮你构建和部署AI服务。打包模型,创建API,在任何地方部署。从本地测试到生产Kubernetes都能跑。不需要DevOps团队就能做的MLOps层。你把模型训练好了,用它最快上线。
GitHub: https://github.com/bentoml/BentoML ★ 7K+
分布式推理:撑到百万级请求
Ray Serve做分布式AI推理。服务多个模型,自动扩缩容,处理百万级请求。OpenAI、Anyscale、各大AI公司都在用。一般用户用不到,等你需要的时候就离不开它。
GitHub: https://github.com/ray-project/ray ★ 32K+
NVIDIA生产推理服务器
NVIDIA Triton Inference Server是英伟达的生产推理服务器。GPU利用率拉到最高,动态批处理,多模型服务。企业级GPU推理的标准。你在英伟达显卡上跑生产服务,这个是最佳实践。
GitHub: https://github.com/triton-inference-server/server ★ 12K+
一张显卡服务几百个微调模型
S-LoRA在一张显卡上服务几百个LoRA微调模型。一个基础模型,动态加载几百个适配器。服务微调模型的成本降低十倍。你有上百个客户每个要专属模型,用这个最省钱。
GitHub: https://github.com/S-LoRA/S-LoRA ★ 1.2K+
开源版Firebase:替代掉一万五千刀的服务
Supabase是PostgreSQL上的开源Firebase替代品。实时数据库、认证、存储、边缘函数、向量搜索。七十三万颗星。它替换掉了Firebase加Auth0,这两货一年收你一万五千刀。
GitHub: https://github.com/supabase/supabase ★ 73K+
用Claude的话这几个工具必装
Claude Code的增强工具。深度代码分析、自动重构、全项目范围编辑。在官方CLI上面包一层。十六万颗星,最受欢迎的Claude增强工具。你用Claude Code写代码的话,这个能让你爽很多。
GitHub: https://github.com/paul-gauthier/aider ★ 30K+
官方代理框架:让Claude学会用工具
Claude官方代理框架,让Claude能调用外部工具和API。支持函数调用、工具选择、多轮对话。你让Claude干活的时候需要它查数据库、调接口、读文件,用这个最正统。
GitHub: https://github.com/anthropics/anthropic-cookbook ★ 4.5K+
给Claude加上持久记忆
Claude的记忆增强工具。自动记录Claude在会话间做的一切。替代付费的上下文管理工具。Claude能记住你是谁、你在做什么。下次打开Claude,它还记得上次聊到哪了。
GitHub: https://github.com/chendric/cognition ★ 800+
数据预处理:垃圾进垃圾出
你给AI喂垃圾数据,它给你吐垃圾答案。Unstructured提取和转换非结构化数据。PDF、HTML、Word、图片、邮件,全解析成干净的知识块。大多数AI流水线缺的这一层。做RAG第一步就是它。
GitHub: https://github.com/Unstructured-IO/unstructured ★ 8K+
大规模数据处理:大厂用的东西
Hugging Face出品的Datatrove做大规模数据处理。处理TB级文本,去重、质量过滤、内容分类。那些大实验室用的就是这套。你想从网上扒一堆数据训练模型,先用它洗干净。
GitHub: https://github.com/huggingface/datatrove ★ 2.5K+
网页内容提取:只拿正文不要广告
Reader-LM做网页内容提取。剥离广告和导航栏,保留主要内容,输出干净文本或Markdown。最好的单页网页提取工具。你把URL给它,它把正文给你。
GitHub: https://github.com/jina-ai/reader-lm ★ 1.8K+
语义文本分块:按意思切而不是按字数
Chonkie做RAG的语义文本分块。在自然边界切分,而不是按固定的token数。分块更好导致检索更好导致答案更好。你做RAG发现答案不准,八成是分块的问题。
GitHub: https://github.com/pszemraj/chonkie ★ 800+
AI原生数据集管理
Argilla做AI原生的数据集管理。对多模态数据集进行版本控制、查询和转换。支持图片、视频、文本、嵌入向量。给大模型训练工作流用的。你要做数据标注和质量审查,用这个。
GitHub: https://github.com/argilla-io/argilla ★ 3.8K+
多模态:不光是文字
TinyLVM是小尺寸视觉语言模型,十六亿参数。任何地方都能跑。描述图片、回答视觉问题、检测物体。树莓派上也能跑。最小的能用视觉模型。你资源有限但需要看图功能,用它。
GitHub: https://github.com/DAMO-NLP-SG/TinyLVM ★ 800+
最强的开源视觉模型
Qwen2-VL是开源视觉模型里最强的。匹配GPT-4V的大部分基准测试。理解图片、图表、文档、截图。Claude视觉能力的开源替代品。你要正经做视觉理解,用这个。
GitHub: https://github.com/QwenLM/Qwen2-VL ★ 4.2K+
开源语音识别:近百种语言
Whisper是OpenAI开源的语音识别。九十九种语言的音频转文字。本地运行,能处理口音、背景噪音、专业术语。把音频喂给你的AI流水线。你做会议纪要、语音助手,用这个。
GitHub: https://github.com/openai/whisper ★ 68K+
Whisper加速版:快十几倍
Whisper.cpp让Whisper快十到二十倍。一条命令,自动GPU优化,批量处理。两小时的播客两分钟就能转录完。你用普通显卡就能跑,不用专业设备。
GitHub: https://github.com/ggerganov/whisper.cpp ★ 34K+
文生图的标准界面
Stable Diffusion Web UI是Stable Diffusion的浏览器界面。文字生成图片、编辑图片、放大图片。十四万三千颗星,是LLM之外星数最高的AI仓库。几百个扩展、风格、ControlNet、修复补全。在你自己的显卡上跑,不用付Midjourney的钱。
GitHub: https://github.com/AUTOMATIC1111/stable-diffusion-webui ★ 143K+
跟单工具:自动复制顶级交易员的策略
Kreo实时追踪Polymarket上表现最好的钱包,自动复制他们的交易。不用写代码,不用实时盯盘,全天候自动运行。Polymarket上的顶级交易员用复杂模型找定价错误的市场,Kreo让你不用自己搭基础设施就能跟他们的操作。你不想研究市场,只想跟着聪明钱走,用这个。
GitHub: https://github.com/kreo-ai/kreo ★ 280+