Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
Dagster使用DuckDB从头构建一个穷人的数据湖
数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建立在 DuckDB、Parquet 和 Dagster 之上的实验性数据仓库的文章。 Duc
OpenAI推出ChatGPT对话式AI模型
OpenAI 推出了 ChatGPT 的公开演示,这是一种对话式 AI 模型,可以以更
信息检索的几种方法
信息检索 (IR) 是针对给定问题或查询从可用资源集合中获取相关资源的过程。查询基本上是一组用于在任何平台上搜索资源的关键字。您向 IR 系统提出查询,您将获得一个排名匹配的资源列表作为搜索结果。 我们有多种方法可以解决这个问题。下面列出了一些方法
Metacat:让Netflix的大数据变得可发现且有意义
Netflix 撰写了有关 Metacat 的文章,这是一个充当所有数据存储的联合元数据访问层的系统。各种计算引擎的集中式服务可以用来访问不同的数据集。Metacat 采用了一种有趣的架构模式,其中各个元数据存储仍然是模式元数据的真实来源,而 Metacat 并未在其存储中实现它。
麦肯锡:人工智能在 2022 年的状态以及五年回顾
麦肯锡发布了 2022 年的 AI 状态以及过去五年的回顾。几个亮点 63%的受访者表示,他们预计他们的组织在未来三年内会增加对 AI 的投资。 如今,报告的收入影响最大的领域是营销和销售、产品和服务开发以及战略和企业财务,受访者报告称人工智能在供应链管理中的成本效益
Apache Atlas为企业提供元数据管理和治理能力
当时Hortonworks的Apache Atlas项目加入了Apache孵化器项目,专注于为企业提供开放的元数据管理和治理能力,以建立其数据资产的目录,对这些资产进行分类和治理,并为数据科学家、分析师和数据治理团队提供围绕这些数据资产的协作能力。Apache Atlas于2017年
用知识图谱统一数据、云和人工智能 - Tony
一个强大的想法已经慢慢建立了很多年,最初被称为语义网,后来又被称为关联数据。随着知识图谱的出现,这个想法终于迎来了它的时代。这些技术网络允许一个组织释放束缚在混乱的数据库中的 "自由能量",并将这种能量直接导入人工智能。 正确构建的组织性知识图谱可
Uber 如何使用 ML 和线性规划优化推送通知的时间
内部通知是在线商务的重要潜在客户。优步写了问题陈述的复杂性以及它如何采用线性程序(线性优化)来实现最佳结果。推送通知是 Uber Eats 优食客户发现新餐厅、有价值的促销活动、杂货和酒类等新产品以及成为会员的好处等的一个不可或缺的渠道。推送通知由内部各个团队发送,例如营销、城市运营
Expedia使用无监督学习对客户反馈进行分类
Expedia 撰写了关于其使用无监督学习对客户反馈进行分类的方法。我的一部分想知道,云提供商可以开箱即用地提供这些解决方案,难道不应该是一个已解决的问题吗? 在Expedia Group ,我们努力为旅客提供无摩擦的方式来提出他们的疑问、投诉或反
如何构建连接数据目录? - Tony
如何将组织中的所有数据连接在一起,同时将数据还能留在原处? 什么是数据目录?Gartner 将数据目录定义为“通过发现、描述和组织数据集 [构建] 的数据资产清单。目录提供上下文,使数据分析师、数据科学家、
数据工具本身不是问题,问题在于流程和人员 - angadsg
在过去的十年中,数据工具有了 "寒武纪大爆炸"。每个数据工具都在不同的层面上解决了一个新的问题--但在我看来,"数据驱动的决策 "这个最终的问题与其说是由BI工具解决的,不如说是由人和流程解决的。 Creation > Ingestion > Wa
营销归因:评估产品生态系统中的购买路径 · trivago
在处理数据和分析用户与我们今天的产品的互动时,必须通过跟踪他们过去的行为来了解他们的行为,如打开通知、与博客互动或在平台上创建新的登录。在这种情况下,归因研究指的是将所有这些行为按特定模式组合在一起,以产生一个预期的最终结果的方法。 在本文的范围内
2023年数据工程预测
需求是发明之母,我预测2023年将是技术的辉煌一年,这些技术可以帮助团队保存数据运维方面的时间、收入和资源
哈佛大学十门免费在线课程
哈佛大学提供免费在线课程。无需申请或费用。这里有 10 门您不想错过的免费课程: 1.
聚合数据会失去上下文信息!
聚合数据能简化它,但让我们失去了信号和我们需要理解我们所看到的内容的上下文。 聚合是分析时间序列数据的标准最佳实践,但它会通过剥离关键上下文而产生问题,以至于您甚至不知道自己失去了多少潜在洞察力。在这篇文章中,我将首先讨论聚合如何成为问题,然后通过
Google AI数据卡攻略:数据集文档透明化工具包
Google发布了数据卡,这是一个数据集文件框架,早在提供高数据集生命周期的透明度。数据卡包包括以下内容:
奈飞使用机器学习创建媒体
ML 能否取代创意内容生成器,还是将创意提升到新高度的绝佳助手?Netflix 撰写有关其 ML 平台的文章以协助其媒体制作。 在 Netflix,我们每年都会为全球会员推出数以千计的新电视节目和电影。每个标题都使用一组定制的艺术作品和视频资产进行
opendatadiscovery/odd-platform:第一个开源数据发现和可观察性平台
ODD 是面向数据团队的开源数据发现和可观察性工具,有助于通过现代用户友好的环境有效地实现数据民主化、加强协作并减少数据发现时间。关键特点: 缩短数据发现阶段 对数据的使用方式和使用者保持透明 通过持续的合规性和数据质量监控来培养数据文化 加速
上页
下页