大数据专题

结构化数据与非结构化数据

  结构化数据是以固定字段驻留在一个记录或文件内。它事先被人为组织过,也依赖于一种确保数据如何存储 处理和访问的模型。结构化查询语言(SQL)通常用于管理在数据库的结构化数据表。

非结构化数据是结构化的反面,是指没有一个预定义的数据模型或不是以一种预先已经定义好的方式进行组织。数据不必以某种方式组织,直接按照学科方式分组分类,主要是文本,但也可以图像、音频和视频。

让我们不要忘记社会媒体。Facebook、Twitter、LinkedIn、Pinterest等等——这些都含有非结构化和半结构化数据。有价值的数据,非常有利于大型和小型企业,。然而,在它们有用之前需要结构化。

半结构化数据是个跨结构化和非结构化的数据。它是结构化数据但不适合正式的关系数据库模型或其他序列来源。很多XML文件也可能属于这一类,虽然也有结构化和非结构化的XML文档。

非结构化数据文件包括:

  • 自由格式文本(.txt)
  • Microsoft Word文档(.doc and .docx)
  • Adobe Portable 文档格式 (.pdf)
  • 可拓展的Markup 语言 (.xml)
  • E-mail消息(.eml)
  • Microsoft Excel 电子表格 (.xls .xlsx)
  • Microsoft PowerPoint 演示文稿 (.ppt .pptx)
  • Microsoft Exchange 和 Outlook (.osd, .pst)
  • 富文本格式 (.rtf)

NoSQL数据建模