企业海量非结构化数据管理:青铜→白银→黄金


《海量非结构化数据管理实战指南》  作者:Piethein Strengholt | 2025年7月  

(开篇吐槽)  
这些年我给各大企业当"数据救火队员",发现大家有个共同的痛——管理乱七八糟的非结构化数据(比如PDF、图片、聊天记录)。这玩意儿就像你房间里乱丢的袜子,越堆越多却找不到配对!更糟的是,网上根本搜不到靠谱的攻略。现在生成式AI火了,这个问题再不解决,企业就要被数据垃圾淹没了!  

(解决方案预告)  
今天我就来手把手教你怎么用"三层勋章架构"(Bronze→Silver→Gold)给数据大扫除,顺便让AI帮你打工!  

---  

青铜层:数据垃圾回收站  
想象你刚搬完家,所有东西胡乱堆在车库——这就是青铜层的任务:  
1. 无脑收集:用爬虫/API把微信聊天、客服邮件、实验报告统统塞进云存储(比如阿里云OSS)  
2. 贴便利贴:用小AI模型给文件打标签(比如"2025年7月_张三_合同扫描件_PII敏感")  
3. 简单归类:按来源/日期建文件夹,就像把袜子、衬衫分开放  

(黑科技提示)  
用开源工具如LlamaParse自动提取文件内容,比人工整理快100倍!  

为了提取非结构化数据,组织通常使用上传表单、网页抓取工具、API 集成、文件解析器和复制作业等技术。根据数据类型和所需的准确度,他们可以开发自定义提取器,也可以使用预构建的提取器(例如LlamaParseTensorlake),以确保数据提取的高准确率。这些提取器在银级和金级层也非常有用,它们允许使用解析规则和模式进行自定义,以更好地满足特定的数据提取需求。

提取数据后,组织会将原始文件格式(例如 PDF、DOCX 或 TIFF)的数据传输到原始数据存储系统,。在此传输过程中,通常会生成其他元数据,以提供有关数据的更多上下文信息,例如数据的来源、格式、上传文档的人员或流程、创建日期等等。这些元数据通常存储在数据目录中或与非结构化数据一起存储,以确保清晰地记录数据的来源和历史记录。

为了生成元数据,组织可以使用小型语言模型 (SLM)。与大型模型相比,这些模型更高效,并针对特定任务进行了优化。SLM 擅长分类、标记、识别敏感信息和个人身份信息 (PII)、执行实体提取和汇总,使其成为高效处理元数据生成的理想选择。SLM 生成的元数据对于 Medallion 架构的后续层至关重要,因为它提供了有关非结构化数据的上下文和附加信息。这些元数据也有望传递到后续层。例如,青铜层中的 SLM 生成的敏感数据或 PII 标签可用于在白银层和黄金层中强制执行数据访问策略。

青铜阶段的另一个目标是对数据进行初步排序,为后续处理奠定基础。此目标与青铜层中结构化数据的组织类似,其主要目标是保留其原始形式,同时保持可访问性。为了组织数据,组织通常会设置文件夹或容器来镜像业务流程或数据源,例如 Teams 频道或 SharePoint 文件夹。这种方法有助于保持数据有序,使后续访问和处理数据更加便捷。此外,组织经常使用分区策略(例如按日期组织),为不同文档实施基于时间的版本控制。此方法将非结构化数据转换为存档,就像青铜层处理结构化数据时一样,保留其原始形式。

在这个数据湖结构中,维护与模式定义、解析器和提取脚本的强关联至关重要。具体来说,在青铜层,您可以按数据源、项目或业务流程进行组织。每个文件夹或容器内都有用于存放原始数据、中间数据和元数据的子文件夹。在这些元数据中,您可以维护对模式定义(用于半结构化文档)、解析器和脚本的引用,这些引用通常存储在代码存储库中。这种安排允许您追溯每个数据片段的来源,确保您拥有后续阶段处理和分析所需的所有必要信息。

总而言之:在非结构化数据的背景下,青铜层对于捕获最真实、最原始的数据至关重要,它能提供详细的快照以供进一步细化。在整个过程中,保持数据来源的清晰度至关重要。为了有效地识别和分类非结构化数据,可以使用 LLM 和 SLM 生成元数据,为原本非结构化的数据添加一层结构化的信息。这些元数据在后续的处理中起着至关重要的作用。

---  

白银层:数据精加工车间  
现在要给数据"美颜"了:  
1. 大扫除:用AI识别重复文件(比如同一合同的不同扫描版)  
2. 格式统一:把所有文档转成Markdown格式(就像把不同方言翻译成普通话)  
3. 智能标签:  
   - 让AI写摘要(像学生党用GPT划重点)  
   - 自动标密级(比如"商业机密_三级")  
   - 提取关键信息(合同金额/签约方等)  

(避坑指南)  
千万别直接上GPT处理原始数据!就像不能把脏碗筷直接塞进消毒柜,先做好基础清洁!  

在此阶段,至关重要的是要根据语义上有意义的上下文,将先前的原始数据划分为逻辑上组织的单元。这涉及一个详细的数据重构、标记和清理过程,以确保其一致性和可用性。这还涉及噪声检测和重复识别等技术,这些技术有助于过滤掉可能影响人工智能输出准确性的不相关或错误信息。需要注意的是,大模型 (LLM) 在此阶段也发挥着重要作用,因为它们可以帮助识别和纠正数据中的错误,确保信息的准确性和可靠性。

非结构化数据经过质量检查、清理和分区后,通常会被格式化为结构化的、机器可读的格式。使用标记语言(尤其是Markdown)因其轻量级且易读的语法而被公认为最佳实践。使用 Markdown 可以简化文档,使其更易于编程访问,更易于人工智能系统处理,从而增强其与各种分析工具和平台的兼容性。Markdown 的简洁性有助于人工智能模型更有效地解析和理解内容,这对于信息检索、分类和摘要等任务至关重要。

MarkItDownPyMuPDF等框架在此阶段发挥着重要作用,因为它们可以标准化输出,并为更复杂的分析工具准备数据。干净且格式清晰的数据随后可用于更深入的分析和洞察提取。Markdown 的简洁性最大限度地减少了与复杂格式相关的潜在错误,确保数据保持原始和一致。

在此数据转换阶段,通常会生成额外的元数据,以帮助 AI 系统更好地理解数据上下文。银级层的关键活动包括:

  • 简明扼要地总结大量文献。
  • 将复杂文档分解成更小、更易于管理的部分。这可能还涉及提取文档中的图像和表格,并将它们与参考文献分开存储。请注意,此过程不属于分块策略,分块策略通常会推迟到后期阶段,即针对特定 AI 应用对非结构化文档进行细化时。
  • 将不同的语言翻译成相同的组织语言以保持一致性(借助 LLM)。
  • 为数据的敏感度创建分类器和标签。例如,您可以仅根据内容类型应用“机密”分类,并根据访问控制或数据泄露的潜在影响分配“低风险”敏感度标签。
  • 对文本进行分类和归类。
  • 识别和提取实体,例如使用 LLM 识别并将关键信息(如当事人姓名、合同日期和义务)组织到结构化数据库中以供快速参考。
  • 建模主题并分析趋势。
  • 通过将标记文件分成不同的部分来处理文档中的敏感数据,从而实现更细粒度的访问和控制。
  • 以结构化格式存储元数据,例如目录或元数据存储,或与数据湖中的非结构化数据一起存储。
为了支持这些活动,选择合适的数据处理引擎至关重要。这些引擎因各种因素而异,例如它们针对结构化数据还是非结构化数据进行设计,以及它们在单节点还是分布式环境中运行。此外,存储在 Silver 层的数据可以被其他上游应用程序访问。例如,知识图谱工具可以利用 Silver 层中存在的实体和其他元数据。

一旦非结构化数据实现标准化和稳定化,我主张将其推广到数据市场中。这样的市场就像一个集中式门户,利益相关者(例如业务用户和价值工程师)可以在这里发现和访问各种用例的人工智能相关信息,包括代理及其使用的非结构化或结构化数据。通过促进对这些资产的便捷访问,组织可以推动创新,增强协作,并培育数据共享的文化。

这种方法具有巨大的价值,原因如下。首先,它使高质量数据的访问变得民主化,使整个组织内的团队能够利用从先前未开发的资源中获得的洞察。其次,它鼓励跨职能协作,使数据科学家、工程师和业务分析师能够探索新的可能性,并开发出以前可能未曾考虑过的创新解决方案。最后,数据市场可以促进反馈循环,让用户可以提供洞察和建议,从而进一步提高可用数据资产的质量和相关性。

---  

黄金层:AI专属营养餐  
终于到喂饱AI的环节了:  
1. 智能切块:把300页报告切成问答对(就像把牛排切成AI能咽下的小块)  
2. 向量魔法:用embedding模型把文字变成数学向量(类似把菜谱编码成条形码)  
3. 建搜索库:把向量存进Pinecone等数据库,让AI秒速找到相关内容  

(实战案例)  
当客服机器人被问"怎么退费?",系统会:  
① 把问题转成向量 → ② 从黄金层匹配最近向量 → ③ 返回精确条款  

对于利用非结构化数据开发 RAG 等应用程序的团队来说,该流程首先会根据特定标准(例如关键字、主题或实体)选择与特定用例最相关的文档或对象。同样,这与结构化数据流程类似,后者会针对特定的分析用例选择并优化通用数据。

选定数据后,通常会包含另一个数据预处理步骤,以增强数据,使其更符合用例的具体要求。数据增强等技术可以使数据更具代表性、准确性和多样性。此步骤对于确保数据非常适合目标应用至关重要,例如针对特定任务或嵌入过程训练 LLM。同样,语言模型可以在此步骤中发挥作用,因为它们可以生成额外的数据点和上下文,或优化现有的数据点和上下文以增强数据集。

下一个关键步骤涉及数据分块和生成嵌入——这时嵌入模型就发挥作用了,它将文本表示为向量字符串,从而封装数据的语义。这让我们回想起之前关于 RAG 模式的讨论,在该模式中,数据被转换为数值表示并存储在向量数据库中。这个过程很难推广到所有用例,因为每个应用程序都有其独特的需求,例如所需的数据、分块策略以及嵌入模型的选择。虽然分块和嵌入的任务不同,但它们是相互依存的:

  • 分块策略:这种方法涉及将大型文档分解成更小、更易于管理的片段,或称为“块”,然后再使用嵌入模型进行处理。该策略至关重要,因为嵌入模型通常对其有效处理的输入大小有所限制。例如,在问答应用中,文档通常被分块成段落大小,以确保每个块包含足够的上下文来回答潜在问题。此外,模型存在标记限制,超过此限制,其性能可能会下降,甚至可能根本无法处理输入。因此,分块对于确保有效且准确地处理数据至关重要。
  • 嵌入模型:嵌入模型在将文本转换为能够捕捉内容语义的数值表示形式方面起着至关重要的作用。嵌入模型的选择会影响文本中语义关系的捕捉和保存效果。不同的模型在捕捉上下文、处理不同语言和编码领域特定知识方面的能力各不相同。例如,低维嵌入模型专为提高效率和最小化资源消耗而设计,适用于聊天机器人等实时环境。另一方面,高维嵌入模型提供了复杂的表示形式,非常适合需要彻底分析和精确度的任务,例如详细的学术研究。因此,选择符合应用程序特定需求的嵌入模型至关重要。
为了方便 LLM 高效检索语义相关的数据,必须对数据进行矢量化、存储和索引,以便快速有效地进行搜索。在此阶段,选择合适的存储解决方案(例如矢量数据库或数据湖)对于有效管理非结构化数据的数量和种类至关重要。在黄金层,目标是将非结构化数据提炼成一种不仅结构化,而且针对特定应用精心策划的形式。因此,数据将超越其原始的非结构化状态,变得高度针对性,并符合用途。

通常使用诸如PineconeAzure AI SearchMosaic AI Vector Search 之类的数据库引擎来确保数据不仅易于访问,而且能够以支持决策过程和增强 AI 应用的方式进行组织。因此,对于 Medallion 架构而言,这实际上意味着数据是通过针对 AI 应用优化的服务层提供的。


---  

必须搞定的管理规矩  
1. 青铜层门禁:敏感数据进门就加密(像小区快递柜要刷脸)  
2. 白银层质检:定期检查Markdown文档质量(像教导主任查作业)  
3. 黄金层权限:不同部门按需获取数据(像食堂阿姨按饭量打菜)  

(未来预言)  
以后最吃香的是"上下文Context工程师"——既懂业务又懂AI的数据厨师,能把生数据煮成AI米其林大餐!  

在青铜级层级,与采购应用程序团队保持紧密的反馈循环至关重要。如果出现技术验证或数据采集问题,负责文档管理系统或应用程序的提供团队必须及时解决这些问题。这确保了数据管理在整个过程中保持高效和安全。此外,还要确保从数据收集或采集的点开始就采取安全措施。因此,一旦数据进入架构,就(自动)对其进行标记和分类。对称加密框架(可选)可用于保护 PII 或其他敏感数据。因此,事先定义组织范围内的敏感度标签和分类方案至关重要,以确保对 PII 和其他敏感数据进行一致的保护。

接下来是银级和金级,您的治理应优先考虑完整性、一致性和可用性。制定规则来标准化数据:数据格式(例如 Markdown)、图像和视频格式、命名约定、必需的元数据等等。这些规则可确保您处理的非结构化数据的一致性。

在银级层,重点关注维护非结构化数据的可重用性,避免在不同上下文之间混合文档,从而使应用程序团队能够清晰地掌握数据所有权。定期审核对于确保符合治理标准至关重要,有助于在数据在整个架构中迁移的过程中维护其质量和可靠性。最后一步,考虑签核并发布数据产品。数据产品作为逻辑实体,通过提供指向实际存储已处理非结构化数据的位置的链接来引用底层数据资产。

进入黄金层,优先选择适合您用例需求的设计,并强调非结构化数据的细微差别。在此,实施特定的分块策略,将大量数据分解为易于管理的部分,并利用向量存储实现高效的存储和检索。此外,管理与目录的关系并整合数据和文档的语义上下文信息至关重要。这项额外的规范可确保数据井然有序、易于发现且易于理解上下文,从而进一步支持有效的数据管理。

在整体治理框架中,重要的是添加与关键职责相对应的额外角色。数据所有者应与文档所有者保持一致,以维护数据质量和完整性的责任。上下文工程师将负责生成高质量的内容和上下文信息,以增强可重用性。最后,价值工程师将与架构的消费端紧密合作,在人工智能的帮助下将数据转化为价值。这种全面的方法不仅可以保护非结构化数据,还可以增强在各个部门或组织单位部署人工智能应用程序的信心。


总结
完成非结构化数据处理之旅后,我们可以自信地说,Medallion 架构的规定标签可以有效地重复使用,以管理非结构化数据的复杂性。

利用其分层结构,您可以分离非结构化数据管理中的关注点。此外,利用 LLM 生成元数据可以增强结构化和非结构化数据的管理。因此,采用统一的 Medallion 架构来处理这两种类型的数据是有利的,因为它可以协调不同的学科,从而获得更好的结果。

展望未来,Context上下文与价值工程师的角色将日益重要。随着情境感知协议(例如模型情境协议 (MCP))的兴起,引入了资源、工具和任务,对真正了解业务领域、流程及其情境的人才的需求变得至关重要。这些工程师将负责重新设计内容,添加额外的情境,将复杂的业务场景映射到资源、操作和工具中,从而使座席能够有效地运作。
在人工智能的新时代,Medallion 框架旨在解耦关注点,并建立清晰的界限,以促进团队和成员之间的沟通与协作。

通过建立这些界限,该框架不仅简化了流程,还营造了一个让Context上下文工程师能够蓬勃发展的环境,确保从结构化和非结构化数据中获得的洞察能够有效地转化为可操作的业务功能。这种协同效应最终将提升人工智能驱动型应用的性能,并带来更成功的成果。