中心极限定理:公式、定义和意义

介绍

统计中最重要和最核心的概念是什么,它使我们能够进行预测建模,但它经常让有抱负的数据科学家感到困惑?是的,我说的是中心极限定理(CLT)。这是每个数据科学家都必须了解的强大的统计概念。现在,这是为什么呢?

中心极限定理 (CLT) 是假设检验的核心——数据科学和机器学习生命周期的关键组成部分。没错,让我们探索所获得数据的巨大可能性的想法源于 CLT。这实际上是一个很容易理解的概念,但大多数数据科学家在采访中都对这个问题感到困惑。

在本初学者教程中,我们将了解本文中的中心极限定理 (CLT) 的概念。我们将了解它为何如此重要以及它的用途,并学习如何在 R 和 python 中应用它。

学习目标

  • 在本教程中,我们将学习中心极限定理和中心极限定理的条件。
  • 我们还将了解中心极限定理的假设、意义以及在 R 语言中的实现。

1、什么是中心极限定理? #

中心极限定理指出,当样本量较大时,样本均值的分布将呈正态分布。无论总体的原始分布如何,无论是正态分布、泊松分布、二项式分布还是任何其他类型,这都成立。

解释这个复杂定义的含义可能很困难。这就是这篇文章的主题!我将引导您了解中心极限定理 (CLT) 定义的各个方面,并向您展示为什么它在统计学中至关重要。

集中趋势测量 #

集中趋势测度(中心位置/中心测度)是一种汇总测度,试图用代表分布中间或中心的单个值来解释整个数据集。

2、通过示例理解 CLT #

让我们通过一个例子来理解中心极限定理。这将帮助您直观地掌握 CLT 的底层工作原理。

假设一所大学的科学系有 15 个部门,每个部门容纳大约 100 名学生。我们的任务是计算科学系学生的平均体重。听起来很简单,对吧?

我从有抱负的数据科学家那里得到的方法是简单地计算平均值:

  • 首先,测量科学系所有学生的体重。
  • 添加所有重量。
  • 最后,将权重总和除以学生总数,得到平均值。

但如果数据量巨大怎么办?这种方法有意义吗?事实并非如此——测量所有学生的体重将是一个非常烦人且漫长的过程。那么,我们能做什么呢?让我们看看另一种方法。

  • 首先,从班上随机抽取几组学生。我们将其称为样本。我们将抽取多个样本,每个样本包含 30 名学生。
  • 现在,计算这些样本的个体平均值。
  • 然后,计算这些样本平均值的平均值。
  • 该值将为我们提供科学系学生的大致平均体重。
  • 此外,学生样本平均体重的直方图将类似于钟形曲线(或正态分布)。

3、中心极限定理公式 #

无需对总体进行重复抽样即可确定均值抽样分布的形状。参数基于人口:

4、变量在总体中的分布 #

中心极限定理的部分定义指出,“无论变量在总体中的分布如何”。这部分很简单!在总体中,变量的值可以遵循不同的概率分布。这些分布的范围包括正态分布、左偏分布、右偏分布和均匀分布等。

  • 正态分布:也称为高斯分布。它关于均值对称,表明接近均值的数据比远离均值的数据出现的频率更高。
  • 右偏:也称为正偏。大多数数据位于图表峰值的右侧/正侧。
  • 左偏:大多数数据在峰值时位于图表的左侧,而不是右侧。
  • 均匀:这是数据在图表中均匀分布的情况。
  • 定义的这一部分是指您从中抽取随机样本的总体中变量值的分布。

中心极限定理几乎适用于所有类型的概率分布,但也有例外。例如,总体必须具有有限方差。该限制排除了柯西分布,因为它具有无限方差。

此外,中心极限定理适用于独立同分布变量。换句话说,一个观察值的值并不依赖于另一观察值的值。并且该变量的分布在所有测量中必须保持恒定。

5、正式定义中心极限定理 #

让我们给 CLT 下一个正式的定义:

给定一个未知分布的数据集(可以是均匀分布、二项式分布或完全随机分布),样本均值将近似正态分布。

这些样本的大小应该足够。随着样本规模的增大,通过重复采样计算得出的样本均值分布将趋于正态分布。

中心极限定理在许多领域都有广泛的应用,可以与 python 及其库(如 numpy、pandas 和 matplotlib)一起使用。让我们在下一节中看看它们。

6、中心极限定理的条件 #

中心极限定理指出,在以下条件下,均值的抽样分布将始终遵循正态分布:

  • 样本量足够大。如果样本数量n ≥ 30,则通常满足此条件。
  • 样本是独立同分布的,即随机变量。抽样应当是随机的。
  • 总体分布具有有限方差。中心极限定理不适用于具有无限方差的分布。

7、中心极限定理的意义 #

中心极限定理既有统计意义又有实际应用。这难道不是我们学习新概念时所追求的最佳点吗?作为一名数据科学家,你应该能够深入理解这个定理。您应该能够解释它并理解为什么它如此重要。其有效的标准以及可以从中得出的统计推论的详细信息。我们将研究这两个方面来衡量我们可以在哪里使用它们。

CLT 的统计意义 #

分析数据涉及假设检验和构建置信区间等统计方法。这些方法假设总体呈正态分布。在未知或非正态分布的情况下,我们根据中心极限定理将抽样分布视为正态分布。

如果我们增加从总体中抽取的样本,样本均值的标准差将会减小。这有助于我们更准确地估计总体平均值。此外,样本平均值可用于创建称为置信区间的值范围(可能由总体平均值组成)。

8、CLT 的实际应用 #

中心极限定理在不同领域有许多应用。

政治/选举民意调查是 CLT 的主要应用。这些民意调查估计了支持特定候选人的人数百分比。您可能已经在带有置信区间的新闻频道上看到了这些结果。中心极限定理有助于计算相同的结果。

置信区间是 CLT 的一种应用,用于计算特定地区的平均家庭收入。

9、中心极限定理背后的假设 #

在我们深入研究中心极限定理的实现之前,了解该技术背后的假设非常重要:

  • 数据必须遵循随机化条件。必须随机抽样
  • 样本应该相互独立。一个样本不应影响其他样本
  • 不放回抽样时,样本量不应超过总体的 10%
  • 样本量应该足够大。现在,我们如何计算出这个尺寸应该有多大?嗯,这取决于人口。当总体偏斜或不对称时,样本量应该很大。如果总体是对称的,那么我们也可以抽取小样本。

一般来说,当总体对称时,30 个样本量就足够了

样本均值的平均值表示为:

µ  = µ

在哪里,

  • µ   = 样本平均值
  • µ= 总体平均值

样本均值的标准差表示为:

σ  = σ/sqrt(n)

在哪里,

  • σ   = 样本均值的标准差
  • σ = 总体的标准差
  • n = 样本量

这就是中心极限定理背后的概念。是时候启动 RStudio 并深入研究 CLT 的实现了!

中心极限定理在应用机器学习中具有重要意义。该定理确实为线性回归等线性算法的解决方案提供了信息,但不适用于人工神经网络(深度学习)等复杂模型,因为它们是使用数值优化方法来解决的。

10、什么是标准误差? #

它也是从抽样分布中衍生出来的一个重要术语,它与中心极限定理非常相似。标准 误。  分布的 SD由 样本均值 形成 。

 几乎所有统计检验都使用标准误差。这是因为它是一种概率度量,可以显示您接近事实的程度。当样本量增加时它会减少。样本越大,总体的近似效果越好。

11、在 R 中实现中心极限定理 #

您是否很高兴看到我们如何在 R 中编写中心极限定理?那么我们就来深入探讨一下吧。

理解问题陈述 #

管道制造组织生产不同种类的管道。我们获得某些类型管道壁厚的月度数据。您可以在此处下载数据

该组织希望通过执行假设检验和构建置信区间来分析数据,以在未来实施某些策略。挑战在于数据的分布不正常。

注意:此分析基于一些假设,其中之一是数据应呈正态分布。

解决方案方法论 #

中心极限定理将帮助我们解决人口不正常的数据问题。因此,我们将在 R 中逐步模拟给定数据集上的 CLT。那么,让我们开始吧。

#Step 1 - Importing Data
#_______________________________________________________
#Importing the csv data
data<-read.csv(file.choose())

#Step 2 - Validate data for correctness<br>#______________________________________________________

#Count of Rows and columns
dim(data)

#View top 10 rows of the dataset
head(data,10)

输出:

#Count of Rows and columns
9000 1

#View top 10 rows of the dataset
   Wall.Thickness
1        12.35487
2        12.61742
3        12.36972
4        13.22335
5        13.15919
6        12.67549
7        12.36131
8        12.44468
9        12.62977
10       12.90381

#View last 10 rows of the dataset
     Wall.Thickness
8991       12.65444
8992       12.80744
8993       12.93295
8994       12.33271
8995       12.43856
8996       12.99532
8997       13.06003
8998       12.79500
8999       12.77742
9000       13.01416

接下来, 计算总体平均值并绘制数据的所有观测值。

#Step 3 - Calculate the population mean and plot the observations
#___________________________________________________________________

#Calculate the population mean
mean(data$Wall.Thickness)

#Plot all the observations in the data
hist(data$Wall.Thickness,col = "pink",main = "Histogram for Wall Thickness",xlab = "wall thickness")
abline(v=12.8,col="red",lty=1)

输出:

#Calculate the population mean
[1] 12.80205

看到上面的红色垂直线了吗?这就是人口的意思。从上图我们也可以看出,人口数量并不正常,对吧?因此,我们需要抽取足够多的不同大小的样本并计算它们的均值(称为样本均值)。然后,我们将绘制这些样本均值以获得正态分布。

在我们的示例中,我们将抽取 m 个大小为 n 个大小为 10 的足够样本,计算它们的平均值,并将它们绘制在 R 中。我知道所取的最小样本大小应该是 30,但让我们看看当我们抽取 10 个样本时会发生什么:

#We will take sample size=10, samples=9000
#Calculate the arithmetice mean and plot the mean of sample 9000 times

s10<-c()
n=9000
for (i in 1:n) {
s10[i] = mean(sample(data$Wall.Thickness,10, replace = TRUE))}
hist(s10, col ="lightgreen", main="Sample size =10",xlab = "wall thickness")
abline(v = mean(s10), col = "Red")
abline(v = 12.8, col = "blue")

现在,我们知道随着样本量的增加,我们将得到一条非常漂亮的钟形曲线。现在让我们增加样本量,看看我们得到了什么:

#We will take sample size=30, 50 & 500 samples=9000
#Calculate the arithmetice mean and plot the mean of sample 9000 times

s30 <- c()
s50 <- c()
s500 <- c()
n =9000
for ( i in 1:n){
s30[i] = mean(sample(data$Wall.Thickness,30, replace = TRUE))
s50[i] = mean(sample(data$Wall.Thickness,50, replace = TRUE))
s500[i] = mean(sample(data$Wall.Thickness,500, replace = TRUE))
}
par(mfrow=c(1,3))
hist(s30, col ="lightblue",main="Sample size=30",xlab ="wall thickness")
abline(v = mean(s30), col = "red")

hist(s50, col ="lightgreen", main="Sample size=50",xlab ="wall thickness")
abline(v = mean(s50), col = "red")

hist(s500, col ="orange",main="Sample size=500",xlab ="wall thickness")
abline(v = mean(s500), col = "red")

在这里,我们得到了一个很好的钟形曲线,并且随着样本量的增加,样本分布接近正态分布。因此,我们可以将抽样分布视为正态分布,管道制造组织可以利用这些分布进行进一步分析。

您还可以尝试采用不同的样本大小并绘制不同数量的样本。让我知道它对你来说效果如何!

结论 #

中心极限定理是统计学中非常重要的概念,因此也是数据科学中的一个非常重要的概念,它也有助于理解其他属性,例如偏度和峰度。在进入数据科学领域,甚至参加数据科学面试之前,温习统计知识是多么重要,这一点我怎么强调都不为过。

我建议参加数据科学导论课程——它是在介绍数据科学之前对统计学的全面了解。

要点 #

  • 中心极限定理表明,在样本量足够大之前,均值的抽样分布将始终呈正态分布。
  • 抽样应该是随机的。样本不应相互关联。一个样本不应影响其他样本。

经常问的问题? #

Q1.中心极限定理有公司吗?

答:是的,中心极限定理 (CLT) 确实有一个公式。它指出,随着样本量的增加,样本均值的抽样分布接近正态分布,无论总体分布的形状如何。

Q2:中心极限定理的三点是什么?

答:中心极限定理的三个关键点是:
1、无论总体分布的形状如何,随着样本量的增加,样本均值的抽样分布都会趋近于正态分布。
2. 抽样分布的平均值将等于总体平均值。
3. 抽样分布的标准差(也称为标准误差)随着样本量的增加而减小。

Q3:中心极限定理为什么叫中心?

答:中心极限定理被称为“中心”,因为它是统计学的基础,并且是许多统计技术的中心支柱。它的核心在于它允许统计学家根据样本统计数据对总体参数进行推断,即使总体分布未知或非正态分布也是如此。

Q4:中心极限定理为什么叫中心?

答:中心极限类型定理是经典中心极限定理对经典 CLT 条件可能不完全成立的情况的推广或扩展。这些定理提供了独立且同分布的随机变量的总和或平均值的分布接近正态分布的条件,即使变量本身不是同分布的或者它们具有重尾分布。

Powered by BetterDocs