#数据科学
2022年数据工程现状

数据工程的所有最新工具和趋势: 数据摄取 该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。 这里值得一提的演变是 Airbyte 的急剧崛起。Airbyte 成立于 202... 详细
什么是幂等数据管道? - Alaro

牛津词典中定义的幂等“是集合中的一个元素,当它自身相乘或以其他方式运算时,其值不变。” 1.什么是幂等数据管道 运行从源获取数据并将其多次加载到关系数据库中的管道可能会导致数据库中存在重复值... 详细
低质量数据损害业务绩效 - hu

数据质量问题的具体成本因业务而异,因垂直而异。但是,平均而言, 低质量数据使组织每年损失约 1300 万美元 (Gartner,2021 年)。 数据质量的影响 除了上面那个可怕的大数字之外... 详细
Criteo在大规模数据工程优化上经验 - Nam

如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数十万 TB 的数据,访问正确的信息是保持相关性的关键。 从原始、无组织的数据中提取... 详细
什么是产品设计中的HiPPO效应?

HiPPO:Highest P aid P erson's O pinion(收入最高的人的意见),如果你让收入最高的人的意见完全影响你的业务决策,那么你将受到“权威偏见”的高度驱动,而不是数... 详细
Shopify以数据为中心构建基于机器学习的自动客服系统

Shopify Inbox 是一款单一的商务聊天应用程序,可在一个地方管理所有 Shopify 商家的客户通信。 在我们构建产品时,我们必须了解商家的客户如何使用聊天应用程序。他们是否在寻求产品... 详细
Jellysmack如何将数据科学作业编排推向生产就绪水平?

自从数据科学进入 IT 游戏并开始构建大量模型和项目以来,对工作编排的需求已经上升。由于 Jellysmack 的业务主要集中在帮助视频创作者在观众和质量方面增长,我们的许多团队都依赖从 YouTu... 详细
保险公司如何实施Tableau治理策略?- Lily

Policygenius 是美国领先的在线保险市场。我们的使命是帮助人们在一个地方轻松了解他们的选择、比较报价和购买保单,从而帮助他们获得正确的保险。 背景 在过去四年中,随着业务的... 详细
danthelion/trino-minio-iceberg-example:使用Minio、Trino、iceberg搭建数据工程演示案例

这个项目演示了使用Minio、Trino(具有众多连接器)等工具通过 Docker 在我们的机器上部署 MVP 版本来运行一些分析查询. 数据湖 “Data Lakehouse”一词是由 D... 详细
数据科学的12个基本VSCode扩展

Visual Studio Code (VSCode) 是一个免费的集成开发环境 (IDE)。它在开发人员和数据从业者中很受欢迎。VSCode 提供了丰富的功能、扩展(插件)、内置的 Git、... 详细
一种更好的社区文章帖子排名算法 - Herman

不管我们喜不喜欢,排名算法都会影响我们看待世界的方式。它们是信息网站(无论是搜索引擎、新闻聚合器还是社交媒体)最重要的部分之一,因为它们从字面上决定了人们所看到的内容,从而决定了人们的体验和想法。 ... 详细
机器学习与传统软件开发的冲突与融合 - alepiad

在过去的几年里,我一直在用机器学习和数据科学的想法来颠覆传统的软件公司,这些想法直接来自我团队的核心研究。我发现大多数问题来自三个关键领域。 大部分障碍可以归为以下三类之一: 语言 开发过... 详细
JSLLightNLP:使用Spring和LightPipelines为Spark NLP实现API服务的项目

Spark NLP 是一个构建在 Apache Spark 之上的自然语言理解库,利用 Spark MLLib 管道,允许您大规模运行 NLP 模型,包括 SOTA Transformers。因... 详细
lingua: 最准确的Java和JVM自然语言检测库

最准确的Java和JVM自然语言检测库,适用于长文本和短文本 语言检测通常作为大型机器学习框架或自然语言处理应用程序的一部分来完成。如果您不需要这些系统的完整功能或不想了解这些系统的原理,那么一个... 详细
思考工具之推理阶梯 | Untools

避免草率下结论。根据实际情况做出决定。 我们根据得出的结论采取行动并做出决定。但我们倾向于跳到这些结论,跳过推理过程的重要部分。 由前哈佛教授克里斯·阿吉里斯(Chris Argyris)开发的推... 详细