#数据工程

IBM大蓝Cognos与微软Power BI比较 - eweek

22-03-04 660 1 banq

IBM Cognos Analytics("大蓝 ")和微软Power BI是两个顶级商业智能(BI)和数据分析软件。这两个应用程序都有很大的需求,因为企业寻求利用庞大的数据库--每小时创造的数据越... 详细

区块链与分布式数据库的比较

22-03-04 656 1 banq

随着限制一些数据库开始支持版本控制和校验,而区块链开始能存储更多类型数据,数据库和区块链这两种技术是否正在相互融合? 这是来自 thenewstack 的一篇文章,文试图调解这两者之间的对立矛盾,从... 详细

比较Apache Kafka与各大云计算的分布式日志技术 - scottlogic

22-03-22 298 1 banq

Apache Kafka、Amazon Kinesis、Microsoft Event Hubs 和 Google Pub/Sub 等分布式日志技术在过去几年中已经成熟,并且在为某些用例移动数据时添... 详细

使用Avro处理不兼容的架构变动 - Elliot

22-03-22 234 banq

Apache Avro有数据结构模式兼容性的概念,它允许我们确定一个数据结构是否与一个或多个较早或较新的数据结构在某些兼容性约束方面兼容。我们可以有兼容的变化,这必然意味着我们也可以有不兼容的变化。... 详细

Apache Wayang :跨平台数据处理系统

22-03-18 221 banq

Wayang 使用户能够在多个数据处理平台上运行数据分析。为此,Wayang 在现有平台之上提供了一个抽象,以便在任何平台集之上运行数据分析任务。因此,用户可以专注于其应用程序的逻辑,而不是底层平台... 详细

Slack使用开源组件构建自动驱动Kafka集群

22-03-13 258 banq

Slack工程师介绍了他们如何构建和操作 Kafka 集群以大规模运行。 Slack 将 Kafka 广泛用于他们的作业队列和移动关键任务数据(分析、日志记录、计费数据等) 这篇博文介绍了 Slac... 详细

Tantivy与Quickwit:类似Lucene的Rust全文搜索引擎库

22-03-11 605 banq

Tantivy 是一个受 Apache Lucene 启发并用 Rust 编写的全文搜索引擎库。 Tantivy是一个用 Rust 编写的全文搜索引擎库。 它更接近 Apache Lucene ,而... 详细

Netflix万亿级实时数据基础设施的四个创新阶段

22-03-04 317 banq

徐振中于201 年加入 Netflix,担任实时数据基础 架构 团队的创始工程师,后来领导了流处理引擎团队。 他分享了他的团队的主要成就: 在 Netflix 的所有组织中将流数据用例从 ... 详细

Spark和Hadoop之间的主要技术差异和选择

22-03-02 367 banq

Hadoop 和 Spark 都是开源软件的集合,由 Apache 软件基金会维护,用于大规模数据处理。Hadoop 是两者中较老的一个,曾经是处理大数据的首选。然而,自从 Spark 推出以来,它... 详细

Pinterest为何迁移到新的大数据处理工作流平台Apache Airflow?

22-03-01 314 banq

在这篇文章中,我们将解释我们如何处理和设计将旧系统迁移到Apache Airflow、以及与我们所有的工程师团队协调以将 3000 多个工作流无缝迁移到 Airflow。   Pinterest 的... 详细

Excel可以作为商业智能BI工具吗? - Imene

22-02-26 308 banq

Excel 公式和数据透视表可以说是世界上最流行的编程语言。#Excel作为可靠的电子表格和商业智能工具是业界最喜欢的工具——全球有超过 190 万家公司使用 Office 365。   优点和缺点... 详细

Twitter如何使用自然语言查询实现下一代数据洞察?

22-02-25 184 banq

在 Twitter,我们实时处理大约 4000 亿个事件并每天生成 PB 级数据。Twitter 的各个团队可以通过不同的方式利用这些数据为每个人构建更好的 Twitter。  从广义上看,我们可以... 详细

以最经济方式运行GPT-3开源模拟:GPT-J

22-02-24 429 banq

生成式预训练转化器(Generative Pre-trained Transformer简称GPT)是一种NLP语言生成模型,能根据一些初始文本(对话的一部分或某些任务)生成类人文本。 最“炒作”的... 详细

Apache Druid是基于事件的亚秒级的万亿行响应的开源数据库

22-02-23 362 banq

Netflix 使用开源 Druid 分析数据库来了解和量化用户设备如何处理浏览和播放。   一家名为 Metamarkets 的广告技术公司最初于 2011 年将 Druid 设计为分布式实时数据... 详细

Python中处理大型数据集而不会耗尽内存的方式推荐

22-02-23 449 banq

使用pandas的最大问题之一是大型数据集的解析器需要很长时间才能读取数据。也许这里有一些很酷的提示可以提供帮助! 如果缺少 CPU,您的程序运行速度较慢;如果缺少内存,您的程序会崩溃。 但是您可以... 详细

共有 215 上一页 1 2 3 4 5 6 ... 15 下一页