100 天数据分析:完整指南

如今,几乎所有公司都需要能够理解数据及其流程并使用数据的人员。这就是数据分析师的用武之地。由于他们可以解释公司收集的大量数据,因此对他们的需求很大。如果您是初学者并考虑在数据分析领域从事职业,那么您来对地方了,因为我们的100 天数据分析指南将对您非常有益。在接下来的 100 天里,我们将指导您完成每一步所需的知识。

在本指南中,我们首先解释了数据分析的基础知识,然后最终我们继续学习各种必要的主题。最后,您将对数据分析有详细的了解,并准备好开始在这个令人着迷的领域工作。跟随我们,我们将进一步探讨数据分析的主题!

什么是数据分析?
数据分析是检查和解释数据集以得出有意义的见解、得出结论和支持决策的过程。在当今数据驱动的世界中,它在制定战略、优化运营和获得竞争优势方面发挥着关键作用。每天生成的数据量不断增加,需要先进的分析技术。数据分析使组织能够做出明智的决策、识别模式并适应不断变化的市场动态。

为什么要进行数据分析?
在进入 100 天数据分析 指南之前,让我们先谈谈数据分析的重要性。​数据分析通常是指通过使用各种工具和技术进行深入分析,从未处理的信息或数据中获取或获得信息,并将该信息用于未来的各个方面。这个过程基本上可以帮助不同的组织获得竞争优势,因为数据分析过程可以增强整体决策。 

学习数据分析的 100 天路径
我们的 100 天计划旨在为您提供涵盖基本数据分析主题的结构化学习路径。每天都专注于一个特定的主题或技能,在整个计划中逐渐建立您的专业知识。以下是您可以期待的内容的详细说明:

数据分析入门(第 1-20 天)
(第 1-2 天):数据分析简介

  • 首先学习数据分析的基础知识。了解它的意义和用途。研究未被注意到的趋势、它们的相关性以及其他有助于整体决策的观点。
  • 了解数据分析如何应用于各种不同的领域或领域,例如医疗保健系统、金融或电子商务组织、营销等等。如果我们举个例子,了解金融组织如何使用数据分析方法来检测欺诈交易。
  • 花点时间分析和思考为什么你需要学习数据分析,你是否对这个领域感兴趣,以及为什么你希望在数据分析领域从事职业。

(第 3-6 天):统计基础知识
  • 了解描述性统计
    • 均值
    • 中位数
    • 模式
    • 方差
    • 标准差
    • 协方差和相关性
  • 学习推论统计
    • 假设检验
    • 置信区间
    • P值
  • 了解概率论及其在数据分析中的应用。
  • 研究不同类型的概率分布
    • 普通的
    • 二项式
    • P-value
  • 数据分析的其他已知概念
    • 中心极限定理
    • 总体和样本

(第 7-15 天):使用数据整理进行 Python 编程简介
学习核心Python:

  • Python 基础知识
    • 数据类型
    • 表达式
    • 变量
    • 字符串方法
  • Python 数据结构
    • 列表和元组
    • Set
    • 字典
  • Python 编程基础
    • 条件语句
    • 循环语句
    • 函数
      • 用户定义函数
      • 内置函数
    • 对象和类
    • 列表理解
  • OOP
    • Python面向对象编程
  • 文件处理和异常处理
    • Python异常处理
    • Python 文件处理

数据整理
数据整理基本上意味着清理、转换和准备原始数据以供分析。
  • 学习Pandas,它是基本上提供数据分析工具的 Python 库之一。
  • 研究如何将来自多个不同来源(例如CSV 文件、Excel 电子表格和数据库)的数据读取到Pandas DataFrame中。
  • 探索各种不同的数据清理技术,包括处理缺失值、删除重复项等。
  • 了解如何使用 Pandas 中的函数来操作 DataFrame 来过滤、排序和聚合数据。

(第 16-20 天):数据可视化
  • 研究不同的数据可视化库:
    • MatPolib
      SeaBorn
  • 了解如何创建不同类型的绘图(例如散点图、条形图和直方图)以可视化数据分布。
  • 了解绘图的类型以及何时使用它们。

数据分析中级:(第 21-40 天)
 (第 21-27 天):Excel 数据分析简介
  • Excel界面概述
  • 导航和使用工作表的基础知识
  • 单元格、行、列和范围简介
  • 了解基本函数(SUM、AVERAGE、COUNT)
  • 使用数学和统计函数
  • 用于数据操作的文本函数简介

高级公式和函数
  • 使用逻辑函数(IF、AND、OR)
  • 探索查找函数(VLOOKUP、HLOOKUP、INDEX、MATCH)
  • 数组公式简介
  • 识别和处理缺失数据
  • 删除重复项并处理错误
  • 文本到列和数据分割技术
  • 格式化数据以供分析
  • 创建基本图表和图形
  • 有效数据呈现的技巧
  • 用于动态数据分析的数据透视表简介
  • 创建数据透视图以获得视觉洞察
  • 自定义和格式化数据透视表和数据透视图
  • 节省时间的快捷方式和生产力技巧
  • 人工智能与 Excel

(第 28-31 天):探索性数据分析 (EDA)
  • 什么是EDA?
  • EDA技术
    • 数据可视化
    • 数据汇总
    • 假设检验
  • 简要分析类型
    • 单变量分析
    • 双变量分析
    • 相关性分析
    • 异常值检测
    • 缺失值插补
  • 了解如何使用 EDA 识别数据中的模式、趋势和轮廓。

(第 32-35 天):使用 Python 进行统计分析
  • 使用 Python 库更深入地进行统计分析:
    • NumPy
      SciPy
    • 统计模型
  • 研究常见的统计测试,例如:
    • T检验
    • 卡方检验
    • 方差分析

(第 36-40 天):机器学习基础知识
  • 什么是机器学习?
  • 机器学习的类型
    • 监督学习与无监督学习的区别
    • 强化学习
  • 机器学习——应用
  • 分类入门
  • 分类的基本概念
  • 回归
  • 回归技术的类型
  • 分类与回归
  • 机器学习 | 学习类型——监督学习
  • 欠拟合和过拟合
  • 偏差方差权衡

此外,了解使用标记数据训练机器学习模型的过程。
理解以下概念:
  • 训练集
  • 验证集
  • 测试装置

使用以下指标评估模型的重要性:
  • 分类
    • 准确性
    • 精确
    • 记起
    • F1分数
    • 混淆矩阵
    • Auc-roc曲线
  • 回归
    • 平均绝对误差 (MAE)
    • 均方误差 (MSE)
    • R平方
    • 调整后的 R 平方

数据分析高级:(第 41-70 天)
(第 41-45 天):时间序列分析
  • 什么是时间序列分析?
    • 时间序列数据
    • 时间序列数据的组成部分
  • 时间序列的分解
  • 时间序列的预测方法
  • 用 Python 实现时间序列分析
  • 时间序列模型:
    • ARIMA
    • SARIMA

(第 46-50 天):大数据分析
什么是大数据?
大数据被定义为大量且复杂的数据集合,用传统的数据处理技术很难处理。它基本上由结构化、非结构化和半结构化数据集组成。为了控制、评估并将其转化为见解,通常需要更多的基础设施。
  • 什么是大数据分析?
  • 大数据分析技术
    • Hadoop
      • Hadoop生态系统
      • Hadoop架构
      • Hadoop 中的 MapReduce

(第 51-60 天):用于数据分析的 SQL
  • 什么是 SQL
    • DDL、DQL、DML、DCL 和 TCL 命令
    • WITH clause
    • ALTER (RENAME) 
    • GROUP BY
    • ORDER BY
    • DESCRIBE 
    • INSERT INTO 
    • SEQUENCES
  • 高级SQL
    • 规范化
    • 连接(内连接、左连接、右连接和全连接)
    • Views
    • Trigger  
    • CTE

(第 61-65 天):数据分析工具和平台
  • 探索数据分析中使用的各种工具和平台:
  • 了解如何根据数据分析项目的具体要求检查和选择最好、最合适的工具或平台。
  • 了解将数据分析工具集成到现有工作流程中的重要性,以及如何确保团队内的无缝协作和数据共享。

(第 66-70 天):数据挖掘和文本分析
  • 什么是数据挖掘?
    • 数据采集
    • 数据预处理
    • 模式发现
    • 模型评估
  • 关联规则挖掘

文本分析涉及分析非结构化文本数据和趋势以获取见解。
  • 什么是文本分析?
  • 文本预处理
  • 情绪分析
  • 名称实体识别(NER)
  • 主题建模

第 71-100 天:项目的实际应用
(第 71-75 天):案例研究
  • 分析金融、医疗保健、电子商务、营销、教育技术等各个不同领域的现实案例研究,以了解数据分析在现实场景中的一般应用方式。
  • 学习成功的分析项目和最佳实践。

(第 76-90 天):里程碑项目
  • 开展一个数据分析项目,整合您过去几天的学习成果。
  • 选择感兴趣的数据集并应用您学到的各种分析技术,以获得有意义的见解和结果。

天(91-95):专业化
  • 选择一个特定的数据分析领域,例如医疗保健分析或财务分析来专攻。
  • 研究与您选择的专业相关的不同高级主题和工具。

第 96-100 天:投资组合建设
  • 创建一个基本上展示您的技能、您的熟练程度、您的专业知识以及您在数据分析领域创建的项目的作品集。
  • 在 GitHub 和 LinkedIn 等不同平台上分享您的作品集,以便向潜在雇主或客户展示您的熟练程度。

结论
在此旅程中,我们成功完成了学习数据分析的 100 天计划。我们从统计和 Python 等编程语言等基础知识开始,然后慢慢地转向机器学习和大数据分析等各种不同的高级主题,并详细介绍了各个方面。通过遵循此计划,您将获得分析数据、做出明智决策以及最终开展实际项目所需的基本技能。请记住,学习数据分析通常是一个持续的旅程,需要以严格的方式不断练习,并且了解最新的趋势和技术也非常重要。