Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
中台数据工程教程
Netflix万亿级实时数据基础设施的四个创新阶段
徐振中于201 年加入 Netflix,担任实时数据基础架构团队的创始工程师,后来领导了流处理引擎团队。他分享了他的团队的主要成就: 在 Netflix 的所有组织中将流数据用例从 0 增加到 2000 多个。 构建和发展了成功的产品,例如
区块链与分布式数据库的比较
随着限制一些数据库开始支持版本控制和校验,而区块链开始能存储更多类型数据,数据库和区块链这两种技术是否正在相互融合?这是来自
数据科学家会被机器学习工程师取代吗? - KDnuggets
在大多数数据驱动的组织中,只需要基本的数据科学技能即可解决问题。这个角色可以很容易地被机器学习工程师取代——一个具有数据科学算法基本知识的人,他还拥有部署 ML 模型的知识。数据科学家的角色将被 AutoML 等工具取代,而另一些人则将数据科学称为“垂死的领域”,很快就会被数据工程和
IBM大蓝Cognos与微软Power BI比较 - eweek
IBM Cognos Analytics("大蓝 ")和微软Power BI是两个顶级商业智能(BI)和数据分析软件。这两个应用程序都有很大的需求,因为企业寻求利用庞大的数据库--每小时创造的数据越来越多。 无论是来自非结构化数据、社交媒体、关系型
如何面对后Hadoop时代?
Apache Hadoop作为一个完整的开源大数据套件,在过去十年深刻影响了整个大数据世界。然而,随着各种新兴技术的发展,Hadoop生态系统发生了翻天覆地的变化。2021 年 4 月,Apache 软件基金会宣布退出 13 个大数据相关项目,其中 10 个属于 Hadoop 生态系
什么是商业智能 (BI) ?
商业智能 (BI) 是一个流行词,只要公司试图使用数据来获得竞争优势,它就一直存在。
如何实施数据网格? - thenewstack
数据网格克服了由数据湖和数据仓库设计引起的限制和减速,而是以分散的点对点方式连接数据 - 将其网格化。该想法由 Thoughtworks 新兴技术总监 Zhamak Dehghani 提出,并建立在四个基础上:面向领域的数据所有权、数据即产品、自助数据和适当的治理。我相信这些对于帮助我们在未
从战略到产品的六大步骤 - johncutlefish
大多数团队是从高级战略或目标直接跳到产品实施阶段,也就是用产品的成功与否来衡量战略的成功或失败,其实这中间有很多步骤:最成功的团队总会这样做: 1.决策出一个战略 2. 将战略转化为模型 3. 添加最小可行性的测量 4. 确定杠杆点 5
Tantivy与Quickwit:类似Lucene的Rust全文搜索引擎库
Tantivy 是一个受 Apache Lucene 启发并用 Rust 编写的全文搜索引擎库。Tantivy是一个用 Rust 编写的全文搜索引擎库。它更接近
以最经济方式运行GPT-3开源模拟:GPT-J
生成式预训练转化器(Generative Pre-trained Transformer简称GPT)是一种NLP语言生成模型,能根据一些初始文本(对话的一部分或某些任务)生成类人文本。最“炒作”的型号之一是 GPT-3。当您看到 GPT-3 生成的内容时,您会感觉“未来就在这里”。<
Python中处理大型数据集而不会耗尽内存的方式推荐
使用pandas的最大问题之一是大型数据集的解析器需要很长时间才能读取数据。也许这里有一些很酷的提示可以提供帮助!如果缺少 CPU,您的程序运行速度较慢;如果缺少内存,您的程序会崩溃。但是您可以在 Python 中处理大于 RAM 的数据集,正如您将在以下系列文章中学习的那样
Ray:用于扩展和分发Python和ML应用的框架
Ray 为构建分布式应用程序提供了一个简单、通用的 API。通过以下方式完成了这一使命:为构建和运行分布式应用程序提供简单的原语。使最终用户能够并行化单个机器代码,而代码更改几乎为零。在核心 Ray 之上包括一个由应用程序、库和工具
Apache Druid是基于事件的亚秒级的万亿行响应的开源数据库
Netflix 使用开源 Druid 分析数据库来了解和量化用户设备如何处理浏览和播放。 一家名为 Metamarkets 的广告技术公司最初于 2011 年将 Druid 设计为分布式实时数据存储,以提供 SaaS 分析。Metamarkets 为广告商提供交互式分析仪表板
Excel可以作为商业智能BI工具吗? - Imene
Excel 公式和数据透视表可以说是世界上最流行的编程语言。#Excel作为可靠的电子表格和商业智能工具是业界最喜欢的工具——全球有超过 190 万家公司使用 Office 365。 优点和缺点: + 易用性 专业人员对该工具有宾至如归的感觉,可以轻
Spark和Hadoop之间的主要技术差异和选择
Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它的增长速度远快于 Hadoop,后者不再是该领域无可争议的领导者。随着 Spark 的
Pinterest为何迁移到新的大数据处理工作流平台Apache Airflow?
在这篇文章中,我们将解释我们如何处理和设计将旧系统迁移到Apache Airflow、以及与我们所有的工程师团队协调以将 3000 多个工作流无缝迁移到 Airflow。 Pinterest 的理念始终以数据为中心。作为一家数据驱动的公司,这意味着所有摄取的数据都将被存储以供
Slack使用开源组件构建自动驱动Kafka集群
Slack工程师介绍了他们如何构建和操作 Kafka 集群以大规模运行。Slack 将 Kafka 广泛用于他们的作业队列和移动关键任务数据(分析、日志记录、计费数据等)这篇博文介绍了 Slack 如何(以及为什么)使用 Chef 和 Terraform 自动化管理 Kafk
Twitter如何使用自然语言查询实现下一代数据洞察?
在 Twitter,我们实时处理大约 4000 亿个事件并每天生成 PB 级数据。Twitter 的各个团队可以通过不同的方式利用这些数据为每个人构建更好的 Twitter。 从广义上看,我们可以将一个全面而强大的大数据平台的基础设施和工具分为三类——数据处理、数据存储和数据消费。在
上页
下页
关闭