你是不是也受够了用向量数据库检索专业长文档时精度不够的问题?传统向量检索(RAG)依赖语义相似度而非真正相关性——但相似≠相关!我们真正需要的是经过推理判断的相关性。面对需要领域知识和多步推理的专业文档时,单纯找相似片段经常扑空。
受AlphaGo启发,我们推出了PageIndex:一个基于推理的RAG系统。它模拟人类专家阅读长文档时的思维方式——通过树状结构导航、逐步推理定位关键信息。
整个过程分为两步:
- 为文档生成「目录树」索引
- 通过树状搜索进行推理式检索
✨ 核心特点和传统向量检索相比,PageIndex具备:
无需向量:靠文档结构和LLM推理实现检索
无需切块:按自然章节组织文档,告别人工分段
类人式检索:模拟专家阅读复杂文档的思维路径
透明检索过程:基于逻辑链的检索——告别模糊的向量匹配("玄学检索")
在金融专业测试集FinanceBench上,PageIndex驱动的R系统准确率高达98.7%,堪称专业文档分析的新标杆(详见技术博客 blog post )。
索引树结构
PageIndex可以将冗长的PDF文档转换为语义树结构,类似于“目录”,但针对大型语言模型(LLM)进行了优化。非常适合:财务报告,监管文件,学术教科书,法律的或技术手册,以及任何超过LLM上下文限制的文件。
使用PageIndex OCR改进树生成️
这个存储库是为简单的PDF生成PageIndex树结构而设计的,但许多现实世界的用例涉及复杂的PDF,这些PDF很难被经典的Python工具解析。然而,从PDF文档中提取高质量的文本仍然是一个不小的挑战。大多数OCR工具只提取页面级内容,丢失了更广泛的文档上下文和层次结构。
为了解决这个问题,我们引入了PageIndex OCR -第一个长上下文OCR模型,旨在保留文档的全局结构。PageIndex OCR在识别跨文档页面的真实层次结构和语义关系方面明显优于其他领先的OCR工具,例如Mistral和Contextual AI。
案例研究:Mafin 2.5 on FinanceBench
Mafin 2.5是一个最先进的基于推理的RAG模型,专为财务文档分析而设计。在PageIndex的支持下,它在FinanceBench基准测试中达到了市场领先的98.7%的准确率-大大优于传统的基于矢量的RAG系统。
PageIndex的分层索引使精确的导航和提取相关内容从复杂的财务报告,如美国证券交易委员会的文件和收益披露。
查看完整的基准测试结果和我们的博客文章,了解详细的比较和性能指标。