Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
数据科学教程
danthelion/trino-minio-iceberg-example:使用Minio、Trino、iceberg搭建数据工程演示案例
这个项目演示了使用Minio、Trino(具有众多连接器)等工具通过 Docker 在我们的机器上部署 MVP 版本来运行一些分析查询. 数据湖“Data Lakehouse”一词是由 Databricks
2022年数据工程现状
数据工程的所有最新工具和趋势: 数据摄取该层包括提供从操作系统到数据存储的管道的流技术和 SaaS 服务。这里值得一提的演变是
lingua: 最准确的Java和JVM自然语言检测库
最准确的Java和JVM自然语言检测库,适用于长文本和短文本 语言检测通常作为大型机器学习框架或自然语言处理应用程序的一部分来完成。如果您不需要这些系统的完整功能或不想了解这些系统的原理,那么一个小型灵活的库会派上用场。到目前为止,为这项任
思考工具之推理阶梯 | Untools
避免草率下结论。根据实际情况做出决定。 我们根据得出的结论采取行动并做出决定。但我们倾向于跳到这些结论,跳过推理过程的重要部分。由前哈佛教授克里斯·阿吉里斯(Chris Argyris)开发的推理阶梯是一种工具,可帮助您填补思维空白并根据现
数据科学的12个基本VSCode扩展
Visual Studio Code (VSCode) 是一个免费的集成开发环境 (IDE)。它在开发人员和数据从业者中很受欢迎。VSCode 提供了丰富的功能
一种更好的社区文章帖子排名算法 - Herman
不管我们喜不喜欢,排名算法都会影响我们看待世界的方式。它们是信息网站(无论是搜索引擎、新闻聚合器还是社交媒体)最重要的部分之一,因为它们从字面上决定了人们所看到的内容,从而决定了人们的体验和想法。 我是Bear的创建者,这是一个最小的博客平台(主要
什么是产品设计中的HiPPO效应?
HiPPO:Highest Paid Person's Opinion(收入最高的人的意见),如果你让收入最高的人的意见完全影响你的业务决策,那么你将受到“权威偏见”的高度驱动,而不是数据驱
什么是幂等数据管道? - Alaro
牛津词典中定义的幂等“是集合中的一个元素,当它自身相乘或以其他方式运算时,其值不变。” 1.什么是幂等数据管道运行从源获取数据并将其多次加载到关系数据库中的管道可能会导致数据库中存在重复值,从而导致错误的指
机器学习与传统软件开发的冲突与融合 - alepiad
在过去的几年里,我一直在用机器学习和数据科学的想法来颠覆传统的软件公司,这些想法直接来自我团队的核心研究。我发现大多数问题来自三个关键领域。 大部分障碍可以归为以下三类之一: 语言 开发过程 预期结果
JSLLightNLP:使用Spring和LightPipelines为Spark NLP实现API服务的项目
Spark
低质量数据损害业务绩效 - hu
数据质量问题的具体成本因业务而异,因垂直而异。但是,平均而言,低质量数据使组织
保险公司如何实施Tableau治理策略?- Lily
Policygenius是美国领先的在线保险市场。我们的使命是帮助人们在一个地方轻松了解他
Shopify以数据为中心构建基于机器学习的自动客服系统
Shopify Inbox是一款单一的商务聊天应用程序,可在一个地方管理所有 Shopify 商家的客户通信。在我们构建产品时,我们必须了解商家的客户如何
Jellysmack如何将数据科学作业编排推向生产就绪水平?
自从数据科学进入 IT 游戏并开始构建大量模型和项目以来,对工作编排的需求已经上升。由于 Jellysmack 的业务主要集中在帮助视频创作者在观众和质量方面增长,我们的许多团队都依赖从 YouTube(或其他社交平台,如 Facebook、Snapchat 等)提取的数据。这正是定义工作的
GoCardless提升数据质量与实施数据合约的7个关键经验
GoCardless 的 ETL 方法侧重于将数据视为 API,避开已经开始巩固的行业标准 ELT 现代数据仓库方法。 上游数据质量挑战在上游遛弯时发现,工程师在修改服务时没有意识到像删除字段这样简单的事情
Etsy使用交错新算法实现更快的ML实验
在线实验在产品开发中起着核心作用。Etsy 写了它如何使用交错实验测试来捕捉用户在个人层面的偏好。 在Etsy,我们的产品和机器学习 (ML) 团队一直在努力改善我们买家和卖家的体验。他们产生的创新必须经过测试,以验证他们做了我们希望他们会做的事情
Endeavour的机器学习平台
Endeavor是一家全球体育和娱乐公司,处于所有文化形式的交汇点。无论你是观看终极格斗锦标赛,还是参加纽约时装周,还是在超级碗比赛中体验优质服务,或是欣赏最新的好莱坞大片,在你的体验背后都有Endeavor公司的影子,为你和你的亲人带来终生难忘的回忆。我们的目标是,无论我们的客户在哪里,无
Criteo在大规模数据工程优化上经验 - Nam
如何将 230 PB 的原始数据转化为可行的解决方案? 在我们快节奏的数字时代,每天通过 Internet 传输数十万 TB 的数据,访问正确的信息是保持相关性的关键。从原始、无组织的数据中提取相关信息的能力仍然是业务决策的关键要素。
上页
下页