Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
什么是数据沿袭、数据世系(data lineage)?
在 Back Market 的数据工程实习期间,我专注于为我们的内部数据消费者设计和集成数据沿袭平台。本文收集了我学到的关于如何快速识别不同类型的数据沿袭(数据世系data lineage)的关键经验。下面的文章将重点介绍实现。 可以将数据沿袭/数
Malloy会取代SQL语言吗?- Carlin
SQL的基础是在关系型数据库的黎明时期奠定的。那时,还没有数据仓库,没有商业智能工具,当然也没有分析工程师这样的东西。然而,SQL仍然是大多数数据专业人员与他们的原始材料进行交互的主要用户界面。底层技术已经有了不可估量的改进,但除了对ANSI标准的少量更新外,语言的核心仍然没有改变。在无数数
PayPal 元数据之旅
Paypal 撰写了关于通用数据目录 (UDC) 从 2017 年孵化开始的演变。该博客讲述了 UDC 的增长如何帮助 Paypal 弃用多个重复的基础架构,以及 Paypal 为何采用拉模型来获取元数据。 元数据对 PayPal 来说并不新鲜。创
在 Airbnb 实现数据民主化
Airbnb 开发了 DataPortal 以使数据民主化,并通过帮助数据探索、发现和信任来帮助 Airbnb 员工获得数据知情权。这篇文章非常适合阅读,详细介绍了数据发现工具的碎片化数据格局和数据建模技术。 与许多初创公司一样,Airbnb 的员
Shopify如何解决数据发现的挑战
Shopify 撰写了有关 Artifact、其数据发现和数据管理工具的文章,以提高生产力、提供更大的数据可访问性并允许更高级别的数据治理。该博客讲述了构建数据发现服务的挑战,从获取元数据到转换、建模和应用以使其更易于使用。 数据使用的本质是问题驱
Nemo:Facebook 的数据发现
Facebook 写了关于其数据发现引擎 Nemo 的文章。Nemo 有两个主要组件,索引和服务,前端位于服务部分的顶部。索引又分为每天发生的批量索引和立即更新索引的即时索引。对于 Serving,Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣,该库执行文本解析和 ML 方法进行
优步如何使用 Databook 将元数据转化为洞察力?
优步写了一篇关于其运行 Databook 的经验的反映,并随着时间的推移对其进行了演变。该博客讲述了结构良好、管理良好的元数据、专注于用户体验的集中式元数据系统以及可扩展数据模型的重要性。 每天在全球 10,000 多个城市,数百万人依靠优步出行、
Spotify如何改进数据科学家的数据发现?
Spotify 撰写了有关 Lexicon 的文章,这是一种数据发现服务,旨在改善数据科学家的数据发现体验。该发现侧重于个性化,例如在整个组织中查找流行的数据集,为团队查找相关数据集,并建议每个人都应该注意。 在 Spotify,我们坚信基于数据的
数据架构的演变
数据与业务运营和各种分析工作负载(BI、数据科学、认知解决方案等)的分离与 IT 系统和业务应用程序一样古老。由于分析工作负载是资源密集型的,因此需要将它们与运行业务运营的 IT 系统分开,以便运营工作负载在没有任何资源限制的情况下平稳运行,从而确保积极的客户体验。
什么是全栈数据科学家?
在 Shopify,我们接受了全栈数据科学的理念,并且经常被问到“成为全栈数据科学家意味着什么?”。该术语最近在数据行业中出现了激增,但似乎没有就定义达成共识。因此,我们与几位 Shopify 数据科学家聊天,分享我们的定义和经验。
奈飞Netflix两年数据工程经验 - XInran
首先,我想讨论几个数据工程的具体方面:可见性、协作和多样性(技能)。 可见性鉴于数据工程工作的性质,在许多公司,数据工程经常生活在数据科学的阴影之下。因此,数据工程团队的可见性往往是一个问题,直接影
Schema Ops是数据合约更好的命名? - Ananth
在过去的几周里,数据合约一直是一个热门话题: Chad 发表了数据合约的工程指南, Jake 发表了
认知谬论:什么是确认性偏差
人们总是倾向于寻找证据来证实他们的想法。人们倾向于以强化个人信念或假设的方式搜索、解释、偏好和回忆信息。 Willard V. Quine 和 JS Ullian 在
数据仓库中维度建模
数据仓库有很多定义,现在最重要的两个是: Ralph Kimball对数据仓库的定义 数据仓库是专门为查询和
数据网格的注意事项 - Kineret
数据网格是一种思维方式的改变,一种从一个团队拥有多个可交付成果到多个数据团队各自拥有一个可交付成果的视角转变。数据网格是数据民主化和实现每个组织的梦想的关键--真正的数据驱动。 在BlaBlaCar,Data Mesh与我们的挑战产生了共鸣:经历了
经验教训:Instacart 的实时机器学习之旅 - shu
Instacart 广泛地结合了机器学习,以提高我们“四面市场”中所有参与者的体验质量——在 Instacart 应用程序上下订单以在 30 分钟内获得交货的客户,可以随时上网以满足客户需求的购物者订单、销售产品并可以实时更新其目录的零售商,以及参与 Instacart 广告平台拍卖以推广其
数据科学面试中8个实用技巧
帮助您在下一次数据科学和/或机器学习面试中取得成功的实用技巧: 1.先了解问题在某些情况下,您可能会被要求说出您将如何使用机器学习解决特定问题。 大多数应用数据科
数据治理的人员角色职责 - corymaklin
为了成功实施数据治理,您需要为组织的成员分配角色。以下是可能的职位列表及其职责: 执行发起人:最终负责实施和持续数据治理流程的高级员工。他们充当最高级利益相关者(例如高管、董事会)和数据治理领导或委员会之间的桥梁。 数据治理负责人:负责定义和操作数据治理策略以及支持多
上页
下页