数据分析中最缺少的是数据探索工具?


如果您在工作中与业务数据进行交互,您可能会想:如今拥有大量数据和分析工具,为什么仍然很难回答最重要的业务问题?
传统的商业智能 (BI) 甚至更新的产品分析工具都可以很好地回答报告问题,例如:每天访问我的网站/应用程序的用户数量是多少?但是,它们并不能很好地扩展到更深层次的问题,例如:为什么上个月收入停止增长?我们如何才能提高用户转化率?这些是企业真正追求的可操作问题。
今天的分析工具是针对问题是“什么”而构建的,通常无法回答更多开放式的“为什么”和“如何”的问题,因为回答“探索”问题在结构上与“报告”问题不同。
正如任何数据从业者可以证明的那样,探索问题是一个创造性的过程,它会发现数据中的模式,形成解释观察的假设,找到支持或证伪这些假设的证据,最后构建令人信服的叙述。
我的数据库中有超过一万亿个事件,我可以计算一个按钮的点击次数,但为什么人们会点击呢?他们为什么停下来不点击呢?
为什么 DAU 上升?为什么人们会退出漏斗?为什么这个 A/B 测试的收入下降了?这些是重要的问题。
漏斗、群组、A/B 测试、归因。这些都是序列分析的风格——将事件拼接在一起来讲述“为什么” WHY 的故事。
但是单独使用 SQL 来做这件事很糟糕。
 
要释放探索“为什么”的全部力量,我们需要访问底层数据——原始事件流(日志)。
处理事件通常是在同一用户的时间相邻事件的上下文中完成的(考虑每个用户会话的操作、保留、归因)。
这就是为什么我们认为基于序列的分析是解锁深度数据探索的下一代方法。
 
让我们看看所有增长团队都面临的一个典型问题:
我们如何才能提高用户转化率?
通过基于指标的分析来回答这个问题的常用方法是建立一个用户漏斗。它可以粗略地指出最大的用户流失发生在哪里,但不能指出为什么或如何改进。
相比之下,使用基于序列的分析,我们可以比较转换用户与未转换用户的常见网站/应用会话路径。
这为我们提供了用户离开的确切页面和用户状态,并有助于了解非转换用户的行为。更容易思考用户行为差异的可能原因以及提高转化率的方法!
 
探索事件序列比查看指标具有更高的固有复杂性,并且分析工具尚未发现是什么构成了序列分析的出色界面。常用的方法是桑基图,但您真正发现它们有用的频率是多少?我们可以做得更好。
数据探索本质上是可视化和交互式的,具有人类的好奇心、模式匹配、直觉和反复试验。它几乎是触觉的,就像在你手中玩弄魔方一样。
更好的数据探索工具是什么样的?
可以从其他创意领域的专家从视觉工具中汲取灵感:
  • 界面设计师有 Photoshop 和 Figma,
  • 游戏开发者有 Unity,
  • 建筑师有 AutoCAD,SketchUp工作流程。