作者:达瓦里希你好
链接:https://www.zhihu.com/question/265451246/answer/294784305
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
回答问题差异性和同质性是统计研究的基础。在一个总体中,如果没有一点同质的地方,没有研究的意义,比如说,要研究成绩,就得被研究的对象都得有学生这个属性。
差异性也是基础,被研究的标志应该是有分别的,如果一百个人成绩都一样还研究什么呢?
变量与变量之间的关系可以分为两种,函数关系和相关关系,函数关系是存在的确定关系,比如一条直线的函数,确定x,y也确定。相关关系是存在的不确定关系,比如今天干旱,小麦歉收,但你却无法准确对应歉收了多少。但是,就算是相关关系,人们也想用一个函数式子去近似它,这个过程就叫回归。
可以用样本来验证总体之间的关系的原理支撑是概率论,其中包括大数定理,切比雪夫,中心极限等一系列理论。但对于一般只需要理解统计学的,只要知道按照随机原则抽取样本是可以反映总体特征的就可以了。并且样本和总体之间的误差是可以计算并控制的。
比较两个总体,需要从中抽取样本,用样本来假设检验或者其他方法,这是为了节省成本,无论是时间还是资金,并且对于一些研究对象来说,是无限总体,只能抽取样本,虽然误差可以控制,但这样也有问题。以假设检验为例,假如我们要比较三组总体是否两两相等,那要比较,就得是做三次假设检验,假如一次出错的概率是百分之五,正确为95%.那三次全对的概率就是百分之九十五的三次方。这样就增大了错误发生概率。于是统计学家提出了方差检验,方差检验可以让多组样本一次检验,提高效率,减少误差。
至于方差检验又是一个其他的故事了,内容好多,高铁一直进隧道耳朵疼,我就不打字了,题主可以看看书,不过题主想问的问题,我应该都回答了一点了。有错误,请指正。
编辑于 2019-07-18
---------
作者:Yeung Evan
链接:https://www.zhihu.com/question/265451246/answer/295510794
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
链接:https://www.zhihu.com/question/265451246/answer/295510794
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
这是一个非常好的问题。
先厘清一些基本概念。
相关性一般指的是两个随机变量(或随机向量)之间的(线性)相关性,它代表了两个变量之间的某种量化关系,其大小可以直接由均值方差等公式给出。注意将其与独立性进行对比和区别。关联性和差异性在统计场合没有统一明确的定义,一般应该视作者前后文的解释。
一般的线性模型,我们是指的线性回归模型,特点在于因变量/相应变量
是连续地取值,自变量/回归变量(行向量)
也是连续地取值,而其参数的系数
和随机误差
,从而满足
,或者相应地矩阵形式
。
对于线性回归模型来说,重要的在于对参数系数
以及误差方差
的估计以及检验
(服从
分布)。
方差分析是一类特殊的线性模型,特点在于因变量/相应变量
是连续地取值,自变量/回归变量(行向量)
仅仅取值0或者1,而其效应(以Two-Way ANOVA without Interaction模型举例)作为参数
和随机误差
,其矩阵形式也满足
,但我们一般写作分量形式,即
。方差分析中的设计矩阵
一定是不满秩的,所以一般要人为地添加条件(side condition),比如
,这是一般教材不会涉及的地方,这也是为什么用软件输出的结果总是从第二个分量开始,因为一般(比如R)中会默认添加side condition 是 第一个分量为0,即
。
对于方差分析模型来说,虽然它是线性模型的一个特殊类别,但其特殊性使得其解法和思路完全和回归模型不同。对方差分析来说,一般关注的重点不在于参数的估计(因为
的不满秩导致了某些参数组合的不可估性),而是可估参数的检验,比如每一个因子下不同水平间是否有显著差异,即
或
(服从
分布)。所以,方差分析是用于,检验分类变量(如因素A)内部的不同水平(
)之间,是否存在显著差异。
特别地,如果
中部分连续取值,部分仅取值0或1,即一部分是连续变量,一部分是二分类变量,那么模型被称为协变量模型。协变量模型可以看成回归模型+方差分析模型。这也就是为什么在医学类或者生物统计类书籍干脆把自变量
直接称为协变量covariates而不是一般的variables,因为这些领域遇到的线性模型几乎都是协变量模型。协变量模型的解法更加复杂。而如果方差分析里的效应不再是固定效应,而是随机效应,那么模型被称为混合(mixed)模型。
前面几类模型都是
的类型发生变化,从而导致了不同的模型。相应地,如果
的取值发生变化,那么可以归为广义线性模型(GLM)里。比如
取值0或1对应的logistic模型,
取整数对应的Possion模型或者最常见的Binomial模型。这类模型的解法又完全地不一样,和上述其他模型又有本质上地区别,比如前面的模型都可以直接用最小二乘求解,而GLM必须依赖于极大似然估计MLE。多分类变量的关联分析和检验分布是否相同,本质上是Pearson的
检验,即理论上的数据和观测到的数据之间到底是否存在某种差异(比如,检验分布是否相同的时候,实际上是把数据分成若干段,然后计数区间中的个数)。这可以看成是GLM模型的一部分。比如,多分类变量的问题本质上是检验某些参数作比例是否相等,比如每一个分类来自于Binomial(
),则检验
。为什么这个代表差异的统计量是服从
而不是什么正态或者
分布呢。我没有读Pearson的原文,但Pearson的检验本质上等价于似然比检验(LRT),而似然比检验根据Wilks定理,是服从卡方检验的。
对于线性回归模型来说,重要的在于对参数系数
对于方差分析模型来说,虽然它是线性模型的一个特殊类别,但其特殊性使得其解法和思路完全和回归模型不同。对方差分析来说,一般关注的重点不在于参数的估计(因为