聚合数据会失去上下文信息!


聚合数据能简化它,但让我们失去了信号和我们需要理解我们所看到的内容的上下文。

聚合是分析时间序列数据的标准最佳实践,但它会通过剥离关键上下文而产生问题,以至于您甚至不知道自己失去了多少潜在洞察力。在这篇文章中,我将首先讨论聚合如何成为问题,然后通过前/后示例介绍聚合的三种具体替代方案: 

  • 重新排列数据以比较“喜欢”。
  • 使用重要的概念扩充数据,例如“夏季”与“冬季”或数据定义的类别(例如“高”或“正常”能源使用)。 
  • 通过将数据拆分为“前景(上文)”和“背景(下文)”,将数据本身用作上下文,因此完整的数据集提供了理解我们感兴趣的特定数据子集所必需的上下文。

聚合有什么问题?
出于某种原因,聚合汇总是默认设置。

但每次汇总时,您都会决定数据的哪些特征很重要,哪些是您愿意丢弃的:哪些是信号,哪些是噪音。

知情聚合(了解上下文的聚合)可简化并确定优先级。不知情的聚合意味着您永远不会知道您丢失了哪些见解。
在我们匆忙汇总时,我们有时会忘记数字与真实事物相关联。

解决方案:通过重新排列、扩充和使用数据本身来提供上下文来 接受复杂性。

1:不要聚合:重新排列 

2:先增强,再分组或上色

3:将你的数据分成前景和背景

详细点击标题

接受数据的复杂性
在创建分析时间序列数据集合的过程中,Ian Johnson、Mike Freeman 和我采用了一系列策略来应对数据的复杂性,而不是依赖于将其聚合的标准方法。那些令人沮丧的锯齿状线条是信号,而不是噪音。 
我们通过以下方式拥抱复杂性: 

  • 对数据进行重新排列,以进行 "同类比较"。
  • 根据我们知道的重要的概念和我们在数据中发现的东西来增强我们的数据。
  • 使用更大的数据集来为感兴趣的数据(前景)提供背景。

这些方法对于时间序列数据特别强大,因为潜在的每日、每周和季节性模式让人分心。特别是,考虑这些策略如何通过将传入数据置于更丰富的历史背景中以进行快速视觉模式匹配来识别正常模式与令人担忧的模式,从而为实时数据分析提供动力。同时,这些基础技术也适用于任何让人感觉难以抗拒和嘈杂的数据,例如机器学习分类或高通量科学实验产生的数据。  

在看到这些技术中的每一种技术之后,也许下次您要聚合数据以简化它时,您可能会尝试重新排列、扩充或将数据拆分为前景/背景。查看完整上下文中的数据以揭示意想不到的模式并提示新的数据驱动问题。通过(从字面上)改变您看待数据的方式来拥抱复杂性。