大数据Big Data

  2012年本站曾对大数据预测:如果说2012年是大数据概念为人所知、引人瞩目、小试牛刀的一年,那么2013年大数据将会实现产品部署,早期投资获得回报,一小部分的产业被颠覆。到了2014年,各种大数据项目和系统很可能成为标准配置,到处可见。2017年:云和大数据、数据仓库合并起来,成为了一项服务,"分析即服务"和"数据即服务"成为主流

  "大数据"[1]作为时下最火热的IT行业的词汇,随之数据仓库、数据安全、数据分析、数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点。

  谈到大数据不只是云计算Hadoop这类底层技术,而是基于其构建的组件或引擎,如Shark或Hive/Pig。从大数据的定义通常和速率(数据移动得快),体积(数据规模庞大),和种类(非结构化和结构化的信息)三点有关。

  对于"大数据"(Big data)研究机构Gartner给出了这样的定义。"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

  大数据分析相比于传统的BI OLAP或数据仓库应用,具有数据量大、查询分析复杂等特点。如果说云计算提供了业务数据处理能力,那么大数据提供了业务数据的挖掘分析能力,数据科学家是对那些专门从事大数据分析者的称谓。

文章与教程

什么是大数据?

如何为大数据项目选择最好的工具?

实时流大数据:Storn,Spark和Samza异同比较

In-Stream大数据处理模式

Hadoop大数据批处理架构

Storm大数据实时处理架构

Spark大数据Big Data处理框架

为什么使用Spark?

在笔记本上实现Spark-GPU集群开发教程

纽约证券交易所的实时Map/Reduce

大数据Big Data性能基准测试

Hive架构

Hive, Pig, Scalding, Scoobi, Scrunch 和 Spark等hadoop框架比较

Apache Kafka简单介绍

Kafka Stream简介

日志是每个软件工程师关心的统一数据抽象

大数据工作流开源系统一览表

全新角度总结Twitter Facebook和LinkedIn业务模型与架构

Spring Batch批处理

Redis概率数据结构之计数器HyperLogLog

Redis概率数据结构之布隆过滤器

使用Apache Flink和Kafka进行大数据流处理

单变量、双变量和多变量分析之间的区别?

机器学习

不久我们将不用计算机编程,只需像狗一样训练它们

机器学习流行算法一览

Java机器学习软件介绍

使用机器学习进行文本处理

深入学习教程:从感知到深度神经网络

Flickr使用Hadoop和Storm扩展计算机视觉处理能力

大数据会替代BI吗?

30种数据可视化工具推荐

五个有关推荐系统的资料 

使用Mahout实现自然语言处理

使用Spark和Scala分析Apache访问日志

几种基于云计算的日志分析管理工具

使用TensorFlow实现深度学习原理介绍

Tensorflow简单教程

Hello, TensorFlow入门教程

如何安装Tensorflow 0.9 GPU源码版本?

使用Python matplotlib绘制股票走势图

神经网络最基本形式感知器的入门教程

深度学习之卷积神经网络教程

卷积神经网络入门理解

更多机器学习专题

 

参考

Spring Batch数据批处理

#大数据

云计算

数据网格

NoSQL

业务数据分析