Hadoop大数据 https://www.jdon.com/tag-10433/ Hadoop大数据 Apache Flink 是实时流处理的行业标准 https://www.jdon.com/66542.html 在 Decodable,我们长期以来一直认为 Apache Flink 是最好的流处理系统,在满足世界上一些最大和最复杂的企业(如 Netflix、Uber、Stripe 等)的需求方面有着良好的记录。 未来是实时流处理 企业正在使用流处理,通过对时间敏感和任务关键的事件采取行动,进行实时分析,并建立具有实时交付给最终用户的功能的应用程序,从而做出更智能、更快速的决策。 虽然用例的范围在不断扩大,但流处理的常见应用包括欺诈检测、应用事件的实时转换和摄取、处理物联网传感器数据、网络监控、生成 上下文 感知的在线广告、网络安全分析、地理围栏和车辆跟踪,以及许多其他应用。 Deco.. stream流处理模式 Hadoop大数据 ApacheSpark大数据工具 数据中台工程 Fri, 26 May 2023 01:20:00 GMT https://www.jdon.com/66542.html banq 2023-05-26T01:20:00Z Druid:实时分析数据存储 https://www.jdon.com/63636.html Apache Druid是一个 开源 数据库,专为低延迟的近实时和历史数据分析而设计, Druid 被Netflix 、 Confluent 和 Lyft 等公司用于各种不同的用例。 这个领域有Clickhouse、trino、kylin、bigquery、snowflake、Apache doris等很多竞争对手,但Druid 的速度惊人地快。 Druid 支持近实时和历史访问模式的目标使其独一无二,近乎实时的摄取允许像基于日志的生产警报(类似于Netflix的使用案例)这样的应用快速找到问题,同时也针对大量的历史数据进行执行。 相比之下,许多数据仓库产品是在重复的 "批处理 "基础上.. 数据中台工程 Hadoop大数据 ApacheSpark大数据工具 大数据架构 Sun, 04 Dec 2022 05:39:00 GMT https://www.jdon.com/63636.html banq 2022-12-04T05:39:00Z Uber实时数据基础设施:分布式计算架构 https://www.jdon.com/63197.html Uber 的实时数据基础设施: Apache Kafka 用于流式存储, Flink 用于流处理, Pinot 用于 OLAP, HDFS 用于归档存储, Presto 用于交互式查询 数据来源与挑战 Uber 生成的主要数据来源是其数据中心内的最终用户应用程序,例如 Uber(拼车)和 UberEats。这些数据包括客户端事件和来自优步应用程序中运行的 微服务 的系统日志。实时数据的生成还来自生产数据库的变更日志,其中正在处理实时事务。对这些数据进行处理以涵盖可以在这三个类别中较高级别涵盖的大量使用。 消息平台 流处理 在线分析处理 构建满足上述.. 数据中台工程 Flink实时流处理系统 Kafka消息系统 Hadoop大数据 Wed, 09 Nov 2022 00:39:00 GMT https://www.jdon.com/63197.html banq 2022-11-09T00:39:00Z Dagster使用DuckDB从头构建一个穷人的数据湖 https://www.jdon.com/63139.html 数据的价值与数据的新近程度成正比。我们可以使用内存数据库来提高速度和价值生成吗?DuckDB 在这一承诺上获得了很多关注,Dagster 团队撰写了关于其建立在 DuckDB、Parquet 和 Dagster 之上的实验性数据仓库的文章。 DuckDB 现在很火。可能有几个原因: 它功能丰富,在其功能集中匹配了许多常见的数据仓库 它很快 它可以在本地运行,因此您的测试可以使用与生产相同的引擎 它与 Python 配合得非常好,包括 深度 Pandas 集成 它可以 有效地访问远程数据集 它是MIT许可的 但我认为围绕 DuckDB 的炒作背后有不同的原因。 .. 数据中台工程 数据科学 Hadoop大数据 Tue, 01 Nov 2022 01:16:00 GMT https://www.jdon.com/63139.html banq 2022-11-01T01:16:00Z 超级表:领英构建可靠和可发现的数据产品之路 https://www.jdon.com/63138.html 正如 LinkedIn 数据团队所述,自从十年前采用 Apache Hadoop 以来,包括 LinkedIn 在内的许多公司都经历了指数级的数据增长。随着自助数据创作工具和发布平台的激增,不同的团队已经创建和共享数据集以快速满足业务需求。虽然使用自助服务工具和平台是各种团队释放数据价值的一种可扩展且灵活的方式,但它引入了多个问题。 自助服务不是免费的,而且会带来挑战。 1)多个相似的数据集经常导致结果不一致和资源浪费, 2) 缺乏数据质量和可靠性标准使得在长长的潜在匹配列表中很难找到值得信赖的数据集,以及 3)数据集之间复杂且不必要的依赖关系导致可维护性差且难以维护。 .. 数据中台工程 数据目录 Hadoop大数据 Tue, 01 Nov 2022 01:13:00 GMT https://www.jdon.com/63138.html banq 2022-11-01T01:13:00Z