大数据主题

大数据Big Data 应用案例之一

需求:大量的设备数据,科技,能源,医疗,制造,电信都有,随着大量设备不断被卖出,这些设备的状态数据将不断地发回家,以便随时监测。(类似物联网)

传统解决方案:

  传统解决方案是将设备日志文件保存到关系数据库中,然后再启动数据库实时分析。我们需要注意的是,这些日志大小悬殊很大,有几M字节也有上G级别的数据,有很多文件格式。

  我们使用大数据架构来处理,首先考虑的是存储设计:

  • Hadoop实现原始文档的存储,可以批量访问;
  • HBase实现分析过的对象存储,实时随机访问比如Key的寻找,
  • Solr实现弹性搜索,全文检索,有时也可以作为一个NoSQL数据库

  其次是提炼出元数据,每一个原始文档都有对应的元数据说明:

  • 操作性的元数据:采集时间 上次操作时间 文件类型 数据历史等
  • 产品元数据:产品标识 客户标识 识别码 等

  然后设计应用程序:

采集程序设计:采集数据来自于事件流数据(EDA),考虑到不同的事件源。
数据转换:各种数据的解析器 需要能够并行运行,分析后的数据存放到BI的关系数据库。

整体架构如下:

大数据专题