分层随机抽样——概述

分层随机抽样是一种用于机器学习和数据科学, 从大量群体中选择随机样本用于训练和测试数据集。当总体不够大时,随机抽样可能会引入偏差和抽样误差。分层随机抽样可确保样本充分代表整个总体。

分层随机抽样通过将总体划分为较小的子组并从中随机选取样本,消除了样本数据集中存在偏差的问题。在本文中,我们将深入研究随机采样的世界,看看分层随机采样如何比传统随机采样更好。

什么是分层随机抽样?
与传统的随机抽样方法不同,其中一些值是从总体中随机选取的 /span>,这是根据数据中存在的特定特征来完成的。简单来说,数据是根据总体特征从总体中筛选出来的。Strata(Strata 的单数术语 - Stratum,意思是单个子组,所有层统称为层)在不考虑任何因素或特征的情况下,分层随机抽样首先将整个总体分成更小的子集,称为

现在,根据特征将整个总体划分为较小的子组后,将进行从这些子组中进行随机抽样的过程Strata 。由于这种方法,整个群体中存在的所有特征或特征都将反映在样本数据集中,从而消除了其中存在的偏差。在随机抽样的情况下,由于总体中存在的偏差,总是有可能出现抽样误差。但使用分层方法,数据集中存在的元素或值的所有特征将被同等考虑,并将它们反映在样本数据集中,这将使机器学习模型更加准确。

简单来说,整个分层随机抽样由两个主要步骤组成——

  • 形成分层 - 根据特征从数据集中过滤出值并形成更小的子组。
  • 分层随机抽样 - 从这些子组中随机选取样本以形成样本数据集,而不考虑整个总体。

分层随机抽样有哪些类型?
主要有两种类型的分层随机抽样可能 -

  1. 按比例分层随机抽样
  2. 不成比例分层随机抽样

按比例分层随机抽样 –
它是分层随机抽样的一种,其中从每个层(一组层)中抽取的随机样本数量,该数量仅基于该层与整个总体相比的大小。换句话说,从某一层中抽取的样本的数量或比例与该层在整个群体中所占的比例相匹配。
在比例分层随机抽样中,每个层的样本量与该层在总体中的规模成正比。这意味着,如果某个层代表总体的 20%,则应从该层中选择 20% 的样本。

当分层大小相对均匀时,最常使用这种类型的分层随机抽样。它确保样本能够代表整个总体,但如果某些层比其他层小得多,则它可能不如其他采样技术有效。

示例:调查大学一年级、二年级、三年级和四年级学生的满意度。

不成比例分层随机抽样
在不成比例分层随机抽样中,每个层的样本量与该层在总体中的规模不成比例。这意味着被认为对分析更重要的层可能会被过采样,而不太重要的层可能会被欠采样。

当分层大小不同或某些分层被认为比其他分层更重要时,最常使用这种类型的分层随机抽样。它可能比比例分层随机抽样更有效,但它可能无法代表整个总体。

在这种分层随机抽样方法中,不考虑比例或任何其他因素,我们只提供一个特定的数量来从总体中获取样本。

示例:在不同人口规模的三个地区调查居民对公共交通系统的看法。

分层随机抽样有什么好处?
分层随机抽样的好处是 -

  1. 提高精度 - 根据总体中存在的元素的特征和特性,将整个总体划分为称为“层”的较小子组,分层抽样可通过以下方式提高精度:很多,因为所有特征在样本数据集中都得到了同等的体现。
  2. 增强比较 - 当主要目标是比较总体中存在的每个元素的特征时,分层抽样是最好的选择。它确保总体中存在的所有特征都在样本数据集中得到很好的呈现。这使得创建无偏见且更准确的机器学习模型变得容易。
  3. 资源效率 - 将人口划分为阶层有助于有效地分配资源,因为这些子群体需要得到重视。可以轻松地为他们分配更多资源,反之亦然。

如何进行分层随机抽样?
现在,我们将看到如何以逐步的方式执行分层随机抽样。

步骤 – 1:定义您的人口和亚组
任何抽样过程的第一步都是定义我们将从中收集样本的总体。然后,主要任务是识别和选择某些特征,根据这些特征我们要划分总体并创建子组(即阶层)。这是非常重要的一步,因为我们将使用它来定义独特的特征,将人口分为子组并形成阶层。建议选择一个清晰且独特的特征,可以清楚地区分彼此,以便可以将它们放入不同的阶层。否则,如果存在特征重叠,则形成地层可能会变得困难。
还可以使用多个列/特征来对数据集和创建者子组进行分层,只要它们能够与数据集的其他列/特征唯一区分。

步骤 2:将人口分层
现在,考虑人口中的每一个成员,并根据他们的特征和独特特征将他们添加到不同的阶层。所有地层的集合称为地层。

步骤 3:确定每个层的样本量
在决定每个层的样本量之前,有必要决定我们将使用哪种类型的分层随机抽样:按比例或不成比例。在比例抽样的情况下,每个层的样本大小与该层占总体的比例成正比。如果该阶层占总体的很大一部分,那么我们将考虑该阶层的大量样本,反之亦然。
在不成比例抽样的情况下,无需考虑阶层与总体的比例。

决定使用哪种方法后,就需要决定样本量了,样本量应该足够大,以便各个层次的数据在样本数据集中得到平等的代表,这样我们就可以在其中正确地进行统计分析。

步骤 4:从每个层中随机抽样
现在我们将采用随机抽样方法从每个层中随机收集数据并形成我们的样本数据集。一旦我们从每一层中采样,我们需要将所有样本组合成一个代表性样本。这可以通过简单地将样本连接在一起来完成。

分层随机抽样的应用
分层随机抽样通常用于许多研究和事实序列场景,以及

  • 市场研究 - 如果数据用于市场研究目的,则将消费者反馈分为不同类别,如性别、地点、年龄等,有助于进行分析更有效地了解每种类型消费者的偏好。
  • 教育研究 - 就教育研究而言,收集的学生数据可以根据班级、部门、年龄等分为不同的阶层,以分析他们的学业表现。
  • 健康研究 - 在健康研究中,研究人员可能会根据年龄、性别、常见疾病症状将人群分为不同的阶层。分析变得更加容易,并更快地提供补救措施。

何时使用分层随机抽样?
在某些情况下,分层随机抽样比简单随机抽样方法效果更好。下面列出了其中一些 –

  • 异质总体 - 当提供的总体高度多样化且具有大量特征时,随机抽样可能无法保证所有独特特征都被覆盖示例数据集。
  • 显着变异性 - 当总体特征存在显着变异性时,如果某个特征在总体中差异很大,则随机抽样可能无法正确代表该变异性,并且采样偏差可能是可见的。
  • 比较分析 – 如果总体由调查数据组成,用户需要根据不同的特征进行分析,可以使用分层随机抽样将其分为单独的子组,以便每个组类别同样反映在样本中。
  • 提高精度 - 当用户想要提高机器学习模型的精度时,建议使用分层随机采样,因为它消除了样本数据集中的采样偏差,这最终提高了数据集的精度。
  • 人口研究 - 在流行病学领域,需要拥有各种不同人口群体的代表性或数据,为此目的,分层随机抽样是理想的选择。