• SQL的基础是在关系型数据库的黎明时期奠定的。那时,还没有数据仓库,没有商业智能工具,当然也没有分析工程师这样的东西。然而,SQL仍然是大多数数据专业人员与他们的原始材料进行交互的主要用户界面。底层技术已经有了不可估量的改进,但除了对ANSI标准的少量更新外,语言的核心仍然没有改变。在无数数
  • 如果您参与实时分析,就不能再忽视“更改数据捕获(简称#CDC)”。一些最流行和最先进的架构现在建立在基于 CDC 的解决方案之上。让我们探索是什么让 CDC 如此受欢迎,看看它将如何影响您的商业模式和项目。 虽然云提供了许多好处,例如存储和
  • 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceberg。 目前发表的大多数比较文章似乎仅将这些项目评估为传统的仅附加工作负载的 icon
  • Pandas 是最著名的用于处理结构化数据的 Python 库。从科学家的一次性分析到完整的生产数据管道,它可以在任何地方使用,以实现数据清理、操作和分析的自动化。它的流行可以归因于它的易用性以及它建立在 Python 之上的事实,Python 是最流行的编程语言之一,学习曲线相对较低。</ icon
  • 两个月前我组装了ngods(新一代开源数据堆栈),并从那时起将它用于我的朋友的两个项目。 icon
  • 不管我们喜不喜欢,排名算法都会影响我们看待世界的方式。它们是信息网站(无论是搜索引擎、新闻聚合器还是社交媒体)最重要的部分之一,因为它们从字面上决定了人们所看到的内容,从而决定了人们的体验和想法。 我是Bear的创建者,这是一个最小的博客平台(主要 icon
  • 显著性偏见(又称突出性偏见)描述了我们关注那些更值得注意的项目或信息的倾向,而忽略那些没有引起我们注意的项目。 虽然快速检测什么是重要的和值得注意的资源的能力是一个重要的生存和学习机制,但我们倾向于关注手头最突出的和情感上最引人注目的细节,导致我们 icon
  • 希克定律预测,做出决定所需的时间和努力会随着选项的数量而增加。选择越多,用户做出决定的时间就越多。 解决办法: 找到一个有很多选项或有很多重复的地方。 试着减少选项的数量,或者找到隐藏项目的方法。(它们都需要同时显示吗?或改为渐进式 icon
  • 商业智能平台的使命是启迪......商业决策,这一点并不令人意外。有两种方法可以做到这一点。 提供一个出色的技术平台,允许数据团队向运营团队自我提供高质量的数据。 组织运营团队与数据团队完全解放。也就是说,确保业务团队(=不是数据团队的团队)可以100%地自己产生基于 icon
  • Atheon建立了这样一个dbt案例:CTE(通用表表达式)是passthrough的,性能的影响是可以忽略不计的,因为现代数据仓库优化器识别这种模式。该博客通过比较“导入的 CTE” 和“直接在 CTE 中引用基表”的情况,讲述了 Snowflake 的情况并非如此。其结果是,建立 icon
  • 数据质量问题的具体成本因业务而异,因垂直而异。但是,平均而言,低质量数据使组织 icon
  • 在软件中,设计可能是最重要的增长杠杆之一。2022 年 5 月 11 日,Airbnb 宣布重新设计,根据 CEO Brian Chesky 的说法,这是该应用程序“十年来最大的变化”:在新版本中,您打开应用程序后首先看到的是每种类型的出色属性以及用于在类别之间移动的导航菜单 icon
  • Policygenius是美国领先的在线保险市场。我们的使命是帮助人们在一个地方轻松了解他 icon
  • ABCNFP 非营利组织(不是真名)是由支持一项美好而崇高事业的优秀人才组成。Salesforce 已经在 ABCNFP 使用了几年,并且在咨询合作伙伴的帮助下,高度定制以适应组织的复杂服务模型。用户对他们定制的 CRM 的采用很好,而且他们并不缺乏有价值的数据。他们缺乏的是有意义的洞察力。 icon
  • 大多数情况下,执行数据分析任务是遵循蛋糕食谱做蛋糕,你需要一些工具,不是吗?像搅拌机、勺子、烤箱……有了 pandas,您就拥有了这些用于任何数据分析任务的基本工具,让我们来了解一下您的“厨房”中不能缺少什么? icon
  • 数据仓库有很多定义,现在最重要的两个是: Ralph Kimball对数据仓库的定义 数据仓库是专门为查询和 icon
  • GoCardless 的 ETL 方法侧重于将数据视为 API,避开已经开始巩固的行业标准 ELT 现代数据仓库方法。 上游数据质量挑战在上游遛弯时发现,工程师在修改服务时没有意识到像删除字段这样简单的事情 icon
  • 在 Shopify,我们接受了全栈数据科学的理念,并且经常被问到“成为全栈数据科学家意味着什么?”。该术语最近在数据行业中出现了激增,但似乎没有就定义达成共识。因此,我们与几位 Shopify 数据科学家聊天,分享我们的定义和经验。 icon