markdown-crawler:一个多线程Python网络爬虫


这是一个多线程网络爬虫,可以爬行网站并为每个页面创建 markdown 文件。它主要是为大型语言模型文档解析而创建的,以简化 RAG 用例的大型文档的分块和处理。Markdown 本质上是人类可读的,并保持文档结构,同时保持较小的占用空间。

特点:

  • 多线程支持以加快爬行速度
  •  从上次停下的地方继续抓
  •  设置您想要爬行的子项的最大深度
  •  支持表格、图像等。
  •  验证 URL、HTML、文件路径
  • 配置有效基本路径或基本域的列表
  • 使用BeautifulSoup解析HTML
  •  详细日志记录选项
  •  即用型 CLI 界面
用例场景:
  • RAG(检索增强生成)-我的主要用例,用它来标准化大型文档和按标题、段落或句子的块
  • LLM 微调 - 作为第一步创建大型 Markdown 文件语料库,并利用gpt-3.5-turbo或Mistral-7B提取问答对
  • 代理知识 - 将其与autogen结合用于专家代理,例如,如果您希望重建视频游戏或电影的知识语料库,请使用它来生成给定的专家语料库
  • 代理/LLM 工具 - 使用它进行在线 RAG 学习,以便您的聊天机器人继续学习。使用 SERP 并通过 markdown-crawler 抓取 + 索引前 N 个结果

安装包
pip install markdown-crawler

执行 CLI
markdown-crawler -t 5 -d 3 -b ./markdown https://en.wikipedia.org/wiki/Morty_Smith

要求:

  • Python 3.x
  • BeautifulSoup4
  • requests
  • markdownify