MarkItDown是一个轻量级的Python实用程序,用于将各种文件转换为Markdown,以便与LLM和相关的文本分析管道一起使用。
它与textract最相似(PDF转换Gemini 2.0做得最好),但重点是保留重要的文档结构和内容,如Markdown(包括:标题,列表,表格,链接等)。虽然输出通常是合理的外观和人性化的,但它旨在由文本分析工具使用-并且可能不是用于人类消费的高保真文档转换的最佳选择。
目前,MarkItDown支持:
- PowerPoint
- word
- Excel
- 图像(EXIF元数据和OCR)
- 音频(EXIF元数据和语音转录)
- HTML
- 基于文本的格式(CSV、JSON、XML)
- ZIP文件(迭代内容)
- Youtube网址
- EPUBs
- ...还有更多!
为什么是Markdown?
Markdown非常接近纯文本,具有最少的标记或格式,但仍然提供了一种表示重要文档结构的方法。
主流的LLM,比如OpenAI的GPT-4 o,天生就“说”Markdown,并且经常在不提示的情况下将Markdown合并到他们的响应中。这表明他们已经接受了大量Markdown格式文本的培训,并且很好地理解了它。
作为一个附带的好处,Markdown约定也是高度令牌效率的。
安装
要安装MarkItDown,请使用pip:pip install 'markitdown[all]~=0.1.0a1'。或者,您可以从源代码安装它:
git clone git@github.com:microsoft/markitdown.git |