了解数据分析项目生命周期

在处理数据分析项目时，应该遵循一些固定的任务来获得预期的输出。所以在这里我们将构建一个数据分析项目周期，这将是一组标准的数据驱动流程，以有效地将数据引导到洞察力。项目生命周期的定义数据分析过程应遵循使用输入数据集有效实现目标的序列。该数据分析过程可能包括识别数据分析问题、设计和收集数据集、数据分析和数据可视化。

识别问题
如今，业务分析趋势通过对 Web 数据集执行数据分析以促进业务增长而发生变化。由于他们的数据规模每天都在逐渐增加，他们的分析应用程序需要具有可扩展性，以便从他们的数据集中收集洞察力。
借助网络分析；我们可以解决业务分析问题。假设我们有一个大型电子商务网站，我们想知道如何增加业务。我们可以通过按受欢迎程度将它们分为高、中和低来识别我们网站的重要页面。根据这些流行页面、它们的类型、它们的流量来源和它们的内容，我们将能够决定通过改善网络流量和内容来改善业务的路线图。

设计数据需求
要对特定问题执行数据分析，它需要来自相关领域的数据集。基于领域和问题规范，可以根据问题定义决定数据源；可以定义这些数据集的数据属性。
例如，如果我们要执行社交媒体分析（问题说明），我们将使用 Facebook 或 Twitter 作为数据源。为了识别用户特征，我们需要用户个人资料信息、喜欢和帖子作为数据属性。

预处理数据
在数据分析中，我们不会一直使用相同的数据源、数据属性、数据工具和算法，因为它们不会使用相同格式的数据。这导致数据操作的性能，例如数据清理、数据聚合、数据增强、数据排序和数据格式化，以支持的格式向所有数据工具以及将在数据中使用的算法提供数据。数据分析。
简单来说，预处理就是在将数据提供给算法或工具之前，进行数据操作，将数据转换成固定的数据格式。然后将使用此格式化数据作为输入启动数据分析过程。
在大数据的情况下，数据集需要格式化并上传到 Hadoop 分布式文件系统 (HDFS)，并由 Hadoop 集群中具有 Mappers 和 Reducers 的各个节点进一步使用。

对数据进行分析
在数据分析算法所需格式的数据可用后，将执行数据分析操作。执行数据分析操作是为了从数据中发现有意义的信息，以便通过数据挖掘概念对业务做出更好的决策。它可以对商业智能使用描述性或预测性分析。
可以使用各种机器学习以及自定义算法概念（例如回归、分类、聚类和基于模型的推荐）执行分析。对于大数据，通过将数据分析逻辑转换为将在 Hadoop 集群上运行的 MapReduce 作业，可以将相同的算法转换为 MapReduce 算法，以便在 Hadoop 集群上运行它们。这些模型需要通过机器学习概念的各个评估阶段进一步评估和改进。改进或优化的算法可以提供更好的见解。

可视化数据
数据可视化用于显示数据分析的输出。可视化是一种表示数据洞察力的交互式方式。这可以通过各种数据可视化软件以及 R 包来完成。R 有多种用于数据集可视化的包。它们如下：

ggplot2：这是 Hadley Wickham 博士 ( http://had.co.nz/ )的图形语法的实现。有关更多信息，请参阅 http://cran.r-project.org/web/packages/ggplot2/。
rCharts：这是一个 R 包，通过使用 Markus Gesmann 和 Diego de Castillo 熟悉的点阵式绘图界面，从 R 创建、自定义和发布交互式 JavaScript 可视化。有关更多信息，请参阅 http://ramnathv.github.io/rCharts/。

使用 R 进行可视化的一些流行示例如下：

facet scales (ggplot)的图：下图显示了不同度量的男性和女性的比较；即教育、收入、预期寿命和识字率，使用 ggplot：
仪表盘图表：这是一种 rCharts 类型。使用它，我们可以使用 R 构建交互式动画仪表板。