大数据Big Data

　　2012年本站曾对大数据预测：如果说2012年是大数据概念为人所知、引人瞩目、小试牛刀的一年，那么2013年大数据将会实现产品部署，早期投资获得回报，一小部分的产业被颠覆。到了2014年，各种大数据项目和系统很可能成为标准配置，到处可见。2017年：云和大数据、数据仓库合并起来，成为了一项服务，"分析即服务"和"数据即服务"成为主流

　　"大数据"[1]作为时下最火热的IT行业的词汇，随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

　　谈到大数据不只是云计算Hadoop这类底层技术，而是基于其构建的组件或引擎，如Shark或Hive/Pig。从大数据的定义通常和速率（数据移动得快），体积（数据规模庞大），和种类（非结构化和结构化的信息）三点有关。

　　对于"大数据"（Big data）研究机构Gartner给出了这样的定义。"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

　　大数据分析相比于传统的BI OLAP或数据仓库应用，具有数据量大、查询分析复杂等特点。如果说云计算提供了业务数据处理能力，那么大数据提供了业务数据的挖掘分析能力，数据科学家是对那些专门从事大数据分析者的称谓。

文章与教程

什么是大数据？

如何为大数据项目选择最好的工具？

实时流大数据：Storn,Spark和Samza异同比较

In-Stream大数据处理模式

Hadoop大数据批处理架构

Storm大数据实时处理架构

Spark大数据Big Data处理框架

为什么使用Spark?

在笔记本上实现Spark-GPU集群开发教程

纽约证券交易所的实时Map/Reduce

大数据Big Data性能基准测试

Hive架构

Hive, Pig, Scalding, Scoobi, Scrunch 和 Spark等hadoop框架比较

Apache Kafka简单介绍

Kafka Stream简介

日志是每个软件工程师关心的统一数据抽象

大数据工作流开源系统一览表

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

Spring Batch批处理

Redis概率数据结构之计数器HyperLogLog

Redis概率数据结构之布隆过滤器

使用Apache Flink和Kafka进行大数据流处理

单变量、双变量和多变量分析之间的区别？

机器学习

不久我们将不用计算機编程，只需像狗一样训练它们

機器學習流行算法一覽

Java機器學習軟件介紹

使用機器學習進行文本處理

深入學習教程：從感知到深度神經網路

Flickr使用Hadoop和Storm擴展計算機視覚处理能力

大數檛會替代BI吗？

30種數檛可視化工具推虲

使用Spark和Scala分析Apache訪問日誌

几种基于云计算的日志分析管理工具

使用TensorFlow实现深度學習原理介紹

Tensorflow简單教程

Hello, TensorFlow入門教程

如何安裝Tensorflow 0.9 GPU源碼版本?

使用Python matplotlib繪製股票走勢圖

神經網路最基本形式感知器的入門教程

深度学习之卷积神经网络教程

卷积神经网络入门理解

更多機器學習粗項

更多

分布式系统

分布式架构

分布式 CAP 定理

分布式共识一致性教程

NoSQL数据库

中台数据工程教程

软件弹性工程与设计

分布式事务

分布式事务教程

Spring Batch数据批处理

数据科学专题

大数据专题

数据工程

Hadoop大数据处理生态系统

关系数据库文章排行榜

NoSQL

业务数据分析

機器學習专項

大数据Big Data

文章与教程

机器学习

更多

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道