Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
Malloy会取代SQL语言吗?- Carlin
SQL的基础是在关系型数据库的黎明时期奠定的。那时,还没有数据仓库,没有商业智能工具,当然也没有分析工程师这样的东西。然而,SQL仍然是大多数数据专业人员与他们的原始材料进行交互的主要用户界面。底层技术已经有了不可估量的改进,但除了对ANSI标准的少量更新外,语言的核心仍然没有改变。在无数数
2022年数据工程现状
数据工程的所有最新工具和趋势: 数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是
什么是数据沿袭、数据世系(data lineage)?
在 Back Market 的数据工程实习期间,我专注于为我们的内部数据消费者设计和集成数据沿袭平台。本文收集了我学到的关于如何快速识别不同类型的数据沿袭(数据世系data lineage)的关键经验。下面的文章将重点介绍实现。 可以将数据沿袭/数
数据治理的人员角色职责 - corymaklin
为了成功实施数据治理,您需要为组织的成员分配角色。以下是可能的职位列表及其职责: 执行发起人:最终负责实施和持续数据治理流程的高级员工。他们充当最高级利益相关者(例如高管、董事会)和数据治理领导或委员会之间的桥梁。 数据治理负责人:负责定义和操作数据治理策略以及支持多
认知谬论:什么是确认性偏差
人们总是倾向于寻找证据来证实他们的想法。人们倾向于以强化个人信念或假设的方式搜索、解释、偏好和回忆信息。 Willard V. Quine 和 JS Ullian 在
数据架构的演变
数据与业务运营和各种分析工作负载(BI、数据科学、认知解决方案等)的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的,因此需要将它们与运行业务运营的 IT 系统分开,以便运营工作负载在没有任何资源限制的情况下平稳运行,从而确保积极的客户体验。
什么是产品设计中的HiPPO效应?
HiPPO:Highest Paid Person's Opinion(收入最高的人的意见),如果你让收入最高的人的意见完全影响你的业务决策,那么你将受到“权威偏见”的高度驱动,而不是数据驱
什么是幂等数据管道? - Alaro
牛津词典中定义的幂等“是集合中的一个元素,当它自身相乘或以其他方式运算时,其值不变。” 1.什么是幂等数据管道运行从源获取数据并将其多次加载到关系数据库中的管道可能会导致数据库中存在重复值,从而导致错误的指
经验教训:Instacart 的实时机器学习之旅 - shu
Instacart 广泛地结合了机器学习,以提高我们“四面市场”中所有参与者的体验质量——在 Instacart 应用程序上下订单以在 30 分钟内获得交货的客户,可以随时上网以满足客户需求的购物者订单、销售产品并可以实时更新其目录的零售商,以及参与 Instacart 广告平台拍卖以推广其
低质量数据损害业务绩效 - hu
数据质量问题的具体成本因业务而异,因垂直而异。但是,平均而言,低质量数据使组织
数据科学面试中8个实用技巧
帮助您在下一次数据科学和/或机器学习面试中取得成功的实用技巧: 1.先了解问题在某些情况下,您可能会被要求说出您将如何使用机器学习解决特定问题。 大多数应用数据科
数据仓库中维度建模
数据仓库有很多定义,现在最重要的两个是: Ralph Kimball对数据仓库的定义 数据仓库是专门为查询和
GoCardless提升数据质量与实施数据合约的7个关键经验
GoCardless 的 ETL 方法侧重于将数据视为 API,避开已经开始巩固的行业标准 ELT 现代数据仓库方法。 上游数据质量挑战在上游遛弯时发现,工程师在修改服务时没有意识到像删除字段这样简单的事情
Etsy使用交错新算法实现更快的ML实验
在线实验在产品开发中起着核心作用。Etsy 写了它如何使用交错实验测试来捕捉用户在个人层面的偏好。 在Etsy,我们的产品和机器学习 (ML) 团队一直在努力改善我们买家和卖家的体验。他们产生的创新必须经过测试,以验证他们做了我们希望他们会做的事情
数据网格的注意事项 - Kineret
数据网格是一种思维方式的改变,一种从一个团队拥有多个可交付成果到多个数据团队各自拥有一个可交付成果的视角转变。数据网格是数据民主化和实现每个组织的梦想的关键--真正的数据驱动。 在BlaBlaCar,Data Mesh与我们的挑战产生了共鸣:经历了
Endeavour的机器学习平台
Endeavor是一家全球体育和娱乐公司,处于所有文化形式的交汇点。无论你是观看终极格斗锦标赛,还是参加纽约时装周,还是在超级碗比赛中体验优质服务,或是欣赏最新的好莱坞大片,在你的体验背后都有Endeavor公司的影子,为你和你的亲人带来终生难忘的回忆。我们的目标是,无论我们的客户在哪里,无
Criteo在大规模数据工程优化上经验 - Nam
如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数十万 TB 的数据,访问正确的信息是保持相关性的关键。从原始、无组织的数据中提取相关信息的能力仍然是业务决策的关键要素。
什么是全栈数据科学家?
在 Shopify,我们接受了全栈数据科学的理念,并且经常被问到“成为全栈数据科学家意味着什么?”。该术语最近在数据行业中出现了激增,但似乎没有就定义达成共识。因此,我们与几位 Shopify 数据科学家聊天,分享我们的定义和经验。
上页
下页
关闭