Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
Dagster使用DuckDB从头构建一个穷人的数据湖
数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建立在 DuckDB、Parquet 和 Dagster 之上的实验性数据仓库的文章。 Duc
Spotify如何改进数据科学家的数据发现?
Spotify 撰写了有关 Lexicon 的文章,这是一种数据发现服务,旨在改善数据科学家的数据发现体验。该发现侧重于个性化,例如在整个组织中查找流行的数据集,为团队查找相关数据集,并建议每个人都应该注意。 在 Spotify,我们坚信基于数据的
Metacat:让Netflix的大数据变得可发现且有意义
Netflix 撰写了有关 Metacat 的文章,这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式,其中各个元数据存储仍然是模式元数据的真实来源,而 Metacat 并未在其存储中实现它。
PayPal 元数据之旅
Paypal 撰写了关于通用数据目录 (UDC) 从 2017 年孵化开始的演变。该博客讲述了 UDC 的增长如何帮助 Paypal 弃用多个重复的基础架构,以及 Paypal 为何采用拉模型来获取元数据。 元数据对 PayPal 来说并不新鲜。创
奈飞Netflix两年数据工程经验 - XInran
首先,我想讨论几个数据工程的具体方面:可见性、协作和多样性(技能)。 可见性鉴于数据工程工作的性质,在许多公司,数据工程经常生活在数据科学的阴影之下。因此,数据工程团队的可见性往往是一个问题,直接影
opendatadiscovery/odd-platform:第一个开源数据发现和可观察性平台
ODD 是面向数据团队的开源数据发现和可观察性工具,有助于通过现代用户友好的环境有效地实现数据民主化、加强协作并减少数据发现时间。关键特点: 缩短数据发现阶段 对数据的使用方式和使用者保持透明 通过持续的合规性和数据质量监控来培养数据文化 加速
哈佛大学十门免费在线课程
哈佛大学提供免费在线课程。无需申请或费用。这里有 10 门您不想错过的免费课程: 1.
奈飞使用机器学习创建媒体
ML 能否取代创意内容生成器,还是将创意提升到新高度的绝佳助手?Netflix 撰写有关其 ML 平台的文章以协助其媒体制作。 在 Netflix,我们每年都会为全球会员推出数以千计的新电视节目和电影。每个标题都使用一组定制的艺术作品和视频资产进行
Expedia使用无监督学习对客户反馈进行分类
Expedia 撰写了关于其使用无监督学习对客户反馈进行分类的方法。我的一部分想知道,云提供商可以开箱即用地提供这些解决方案,难道不应该是一个已解决的问题吗? 在Expedia Group ,我们努力为旅客提供无摩擦的方式来提出他们的疑问、投诉或反
Google AI数据卡攻略:数据集文档透明化工具包
Google发布了数据卡,这是一个数据集文件框架,早在提供高数据集生命周期的透明度。数据卡包包括以下内容:
Apache Atlas为企业提供元数据管理和治理能力
当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。Apache Atlas于2017年
聚合数据会失去上下文信息!
聚合数据能简化它,但让我们失去了信号和我们需要理解我们所看到的内容的上下文。 聚合是分析时间序列数据的标准最佳实践,但它会通过剥离关键上下文而产生问题,以至于您甚至不知道自己失去了多少潜在洞察力。在这篇文章中,我将首先讨论聚合如何成为问题,然后通过
Nemo:Facebook 的数据发现
Facebook 写了关于其数据发现引擎 Nemo 的文章。Nemo 有两个主要组件,索引和服务,前端位于服务部分的顶部。索引又分为每天发生的批量索引和立即更新索引的即时索引。对于 Serving,Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣,该库执行文本解析和 ML 方法进行
Uber 如何使用 ML 和线性规划优化推送通知的时间
内部通知是在线商务的重要潜在客户。优步写了问题陈述的复杂性以及它如何采用线性程序(线性优化)来实现最佳结果。推送通知是 Uber Eats 优食客户发现新餐厅、有价值的促销活动、杂货和酒类等新产品以及成为会员的好处等的一个不可或缺的渠道。推送通知由内部各个团队发送,例如营销、城市运营
Schema Ops是数据合约更好的命名? - Ananth
在过去的几周里,数据合约一直是一个热门话题: Chad 发表了数据合约的工程指南, Jake 发表了
优步如何使用 Databook 将元数据转化为洞察力?
优步写了一篇关于其运行 Databook 的经验的反映,并随着时间的推移对其进行了演变。该博客讲述了结构良好、管理良好的元数据、专注于用户体验的集中式元数据系统以及可扩展数据模型的重要性。 每天在全球 10,000 多个城市,数百万人依靠优步出行、
在 Airbnb 实现数据民主化
Airbnb 开发了 DataPortal 以使数据民主化,并通过帮助数据探索、发现和信任来帮助 Airbnb 员工获得数据知情权。这篇文章非常适合阅读,详细介绍了数据发现工具的碎片化数据格局和数据建模技术。 与许多初创公司一样,Airbnb 的员
Shopify如何解决数据发现的挑战
Shopify 撰写了有关 Artifact、其数据发现和数据管理工具的文章,以提高生产力、提供更大的数据可访问性并允许更高级别的数据治理。该博客讲述了构建数据发现服务的挑战,从获取元数据到转换、建模和应用以使其更易于使用。 数据使用的本质是问题驱
上页
下页
关闭