13种数据类型 - forbes

19-07-16 banq
                   

这十三种数据类型其实就是不同业务领域中的数据:

1 . 大数据

大数据被定义为:大量的数据实际上不适合标准(关系)数据库进行分析和处理,大数据是由人和机器生成的大量信息引起的过程。

虽然'大数据'的定义可能略有不同,但每个数据集的根源都是非常大的,包含结构化,半结构化和非结构化数据的不同数据集,来自不同来源和不同数量,从字节到zettabytes。传统的关系数据库很难(不是不可能)以低延迟捕获,管理和处理它们,这很复杂。

大数据是驱动机器学习等因素的燃料,机器学习构成了人工智能(AI)的基石。他说,通过挖掘(和分析)大数据,人们能够发现模式,以更好地理解事情发生的原因。然后,他们还可以使用AI来预测未来可能发生的情况,并根据这些见解制定战略方向。

2. 结构化,非结构化,半结构化数据

所有数据都有某种结构。在结构化数据和非结构化数据之间划分,取决于数据是否具有预定义的数据模型以及是否以预定义的方式组织。

3. 带时间戳的数据

带时间戳的数据是一个数据集,它具有时间排序的概念,定义每个数据点被捕获(事件时间)或收集(处理时间)的序列。

这种类型的数据通常用于收集行为数据(例如,网站上的用户操作),因此是一段时间内行动的真实表示。拥有这样的数据集对于正在研究负责预测或估计下一个最佳动作风格模型的系统的数据科学家来说是非常宝贵的,或者可以通过系统重放用户步骤来执行旅程分析。

4. 机器数据

简而言之,机器数据是由为现代企业提供动力的系统,技术和基础设施创造的数字废气。

想象你的工作,驾驶联网汽车到办公室,登录电脑,拨打电话,回复电子邮件,访问应用程序。所有这些活动都会以一系列不可预测的格式创建大量机器数据,这些格式经常被忽略。

机器数据包括来自各种领域的数据,如应用程序编程接口(API),安全端点,消息队列,变更事件,云应用程序,呼叫详细记录和来自工业系统的传感器数据,然而,机器数据很有价值,因为它包含客户,用户,交易,应用程序,服务器,网络和移动设备的所有活动和行为的明确,实时记录。

5. 时空数据

时空数据描述了同一事件的位置和时间 - 它可以向我们展示物理位置中的现象如何随时间变化。它可以描述点位置或更复杂的线,例如车辆轨迹,或构成国家,道路,湖泊或建筑物足迹等地理对象的多边形(平面图)。

时空数据包含时间戳中的日期和时间信息。 有效时间是现实世界中涵盖的时间段。 事务时间 是已知存储在数据库中的事实的时间。

分析人员如何可视化和与时空数据交互的例子包括:跟踪移动车辆,描述人口随时间的变化,或识别电信网络中的异常情况。决策者还可以运行后端数据库计算,以查找对象之间的距离或指定位置内包含的对象的摘要统计信息。

6. 开放数据

开放数据是任何人可以免费获得的数据(有机会对其应用分析)和重新发布的权利,不受版权,专利或其他控制机制的限制。如果它在人们实际上可以理解的方式来分享的内容开放数据才是有用的。它需要以标准化格式共享,并且可以轻松追溯到它的来源。

7. 暗数据

暗数据是未被使用的数字信息,并且以某种形式处于休眠状态。组织在其常规业务活动过程中收集,处理和存储的信息资产,但通常不能用于其他目的。

8. 实时数据 

分析中最具爆炸性的趋势之一是能够流动和处理实时数据。有些人认为这个术语本身就是一种误称,即数据的传播速度与通信速度一样快,这并不比时间本身快......所以,从逻辑上讲,即使实时数据也略微落后于实际的时间流逝在现实世界。但是,我们仍然可以使用该术语来指代即时计算,其发生速度与人类可以感知的速度一样快。

边缘计算和即将到来的5G上升等趋势正在基于实时数据所带来的机会获得动力。数据即时的力量将是实现智能城市的催化剂。实时数据可以帮助解决在道路交通事故中部署紧急资源,以及在全市范围内更加顺畅地帮助交通流量的所有方面。实时数据还可以在消费者和品牌之间提供更好的联系,允许根据位置和偏好在精确的时刻提供最相关的优惠。

9. 基因组学数据

基因组学数据是另一个需要专家理解的领域。基因组学数据涉及分析患者的DNA以识别新药并通过个性化治疗改善护理。

10. 运营数据

公司拥有大数据:他们有应用程序日志和指标,他们有事件数据,他们有来自微服务应用程序和第三方的信息。除数据科学家和IT专家外,他们如何将这些数据转化为决策者和非技术团队可以使用的商业洞察力?

11. 高维数据

高维数据是与面部识别技术相关的一个术语。由于人脸上轮廓的数量非常复杂,我们需要新的数据表达式,这些数据具有多方面的能力,能够处理能够描述面部物理学中存在的所有细微差别和个性的计算。与此相关的是特征脸的概念,即 当它们用于计算以处理人脸识别时给予一组特征向量的名称  。

12. 未验证的过期数据

这是已收集的数据,但没有人知道它是相关的,准确的还是正确的类型。从业务角度来说,如果您信任未经验证的数据,那么您就不应该相信任何基于此的决策。没有验证的数据只是垃圾。