DoE基础：为何是“参数检验”而非“统计量检验”？

最近阅读《实验员的统计学》（中文出版书名《试验应用统计》）时，我对之前"习以为常"的基本概念——参数和统计量的区别——有了更深刻的理解，又联系到了更多知识点。就像《遥远的救世主》所说的"只有自己觉到、悟到的，我才有可能做到，我做到的才是我的"。现将这番领悟整理分享。

《实验员的统计学》（Statistics for Experimenters）

2.3 统计量和参数 Statistics and Parameters

为了区别样本和总体的相应量，将η称为总体均值（mean），而 ȳ称为样本平均（average）。像均值η这样的一个参数是直接涉及总体的量。而像平均ȳ这样的一个统计量是根据一组数据计算出来的量，这组数据视为取自总体的某个样本。参数通常用希腊字母来表示，而统计量用罗马字母来记。综述一下：

To distinguish between the sample and population quantities, η is called the population mean and ȳ the sample average. A parameter like the mean η is a quantity directly associated with a population. A statistic like the average ȳ is a quantity calculated from a set of data often thought of as some kind of sample taken from the population. Parameters are usually designated by Greek letters; statistics by Roman letters. In summary:

总体：一个由N个观测组成的很大的集合，使得你的观测样本可以想像为来自于这个集合。
样本：实际可用的小的一组n个观测.
参数：总体均值 η=∑y/N.
统计量：样本平均 ȳ\=∑y/n

Population: a very large set of N observations from which your sample of observations can be imagined to come.
Sample: the small group of n observations actually available.
Parameter: population mean η= ∑y/N.
Statistic: sample average ȳ\= ∑y/n

以上内容，可以重新整理到以下表格。

总体 Population

样本 Sample

参数 Parameters

统计量 Statistics

希腊字母

例如：μ σ σ² ρ β α

罗马字母

例如：ȳ s s²

总体方差σ²（population variance）

总体标准差σ （population standard deviation）

总体均值η （mean）

样本方差s²（sample variance）

样本标准差s （sample standard deviation）

样本平均 ȳ （average）

从这个表格中，我悟到或理解更深刻的三点：

参数和统计量分别对应总体和样本。参数是固定但常未知的（就像此时此刻14亿全体中国人的平均收入，无人知晓），而样本统计量是不固定但容易计算出的（比如从14亿中国人中随机抽样一万人的平均收入，每次随机抽样，结果都不同），所以有“总体参数”和“样本统计量”，但没有“样本参数”和“总体统计量”一说。
标准差（standard deviation，SD）究竟是参数还是统计量？这取决于其计算来源。标准差本身是一个描述数据离散度的概念。当指总体的固有属性时，则是总体标准差（σ），它是一个固定但常未知的参数。当基于样本数据计算时，得到的是样本标准差（s），它是一个不固定但已知的统计量。
标准差对应总体，标准误（standard error，SE）对应样本吗？并非如此！——我最初就在这儿犯糊涂了，回顾《试验设计》的内容，才彻底弄明白这两者的差异，相关思考整理在《试验设计》：试验精度。

（多次抽样的）样本均值的标准差称为样本均值的标准误差。

The standard deviation of the average, s/√n, is the square root of the variance of the average, and is referred to as the “standard error” of the average.

《实验员的统计学》

明白了以上内容，就更容易理解其他统计基础知识，比如统计推断、抽样分布、中心极限定理、参数检验等。

统计推断（Statistical inference）：连接参数和统计量的桥梁

假设我们能获取总体数据，就可以直接使用标准差公式数据计算出总体标准差σ；但是我们无法获取总体数据，就像人口普查无法覆盖到14亿人中的每一位，所以要用样本标准差估计总体标准差。这就是统计推断（statistical inference）：使用样本统计量估计总体参数！

所以统计有"参数检验"（parameter test），但没有"统计量检验"，因为后者能直接从样本数据中计算出来，但前者却只能“推断”出来。

参数检验：估计总体的参数，并做出统计结论

参数检验是最常用的统计推断（当然非参数检验也很常见，比如《世界级质量管理工具》中通过排序计算“终结计数”确认x和y之间的相关性程度）。

常见的总体参数是均值和标准差。

常见的参数检验是，使用样本平均值和样本标准差估计总体均值和总体标准差，并进行检验——与特定值进行比较，或者给出参数的置信区间（confidence interval）——最后给出统计性结论。

《试验设计》：试验精度中有一个参数检验的经典应用，首先计算出样本误差的标准差，然后基于中心极限定理估计总体残差的标准差，最后进行参数检验（t检验），判断区组之间、处理之间是否存在显著性差异。

参数检验中，有三个我认为重要的内容，未来再分享我的理解

一是随机性假设（randomness），这也是DoE三大原则之一，算是最基础的试验原则。

二是抽样分布（sampling distribution）或参照分布（reference distribution）

三是中心极限定理（central limit theorem）

回到DoE：参数估计的实践

参数检验的思想，正是DoE中分析实验的核心。我们通过实验获得的数据（样本），去估计工艺或因子的真实效应（总体参数），并进行检验。无论是计算主效应、交互作用，还是评估模型系数，本质上都是在用样本统计量推断总体参数，并基于中心极限定理和抽样分布进行决策。这正是“统计推断”在科学实验中的生动体现。

往期相关文章：

《试验设计》：试验精度

《实验员的统计学》：试验是一种演绎-归纳的迭代学习过程

如果本文对你有所启发，欢迎点赞👍、推荐❤️、分享📣

学习，实践，解决问题！