- 一般线性模型
也有表示为
必须满足
1、误差项 满足变异一致
2、X,Y都是取连续值的变量,如农作物的产量,人的身高体重之类的
3、Y 的分布为正态,或接近正态分布之分布且互相独立
- 一般线性模型的局限性
总的来说,一般线性模型,通过一系列连续型和/或类别型预测变量来预测正态分布的响应变量,当在很多情况下,假设因变量为正态分布(甚至连续型变量)并不合理,例如下面这几种情况
a、结果变量是类别型的:二值变量(比如:是/否,通过/未通过,活着/死亡)和多分类变量(比如差/良好/优秀)都显然不是正态分布
b、结果变量可能是计数的:一周的交通事故的数目,每日酒水消耗数量,这些都是非负的有限值,而且他们的均值和方差通常都是相关的(正态分布变量间不是如此,而是互相独立)
- 广义线性模型
是自变数的一个线性预测
g()叫做连接函数,是一个非递减的可微函数,描述 y 的期望与 之间的关系
也有表示为
g(μy)是条件均值的函数(称为连接函数),另外可以放松 Y 为正态分布的假设,该为 Y 服从指数分布族中的一种分布即可,设定好连接函数和概率分布后,便可以通过最大似然估计的多次迭代推导出各参数值
注意
广义线性模型通过 响应变量的条件均值的一个函数(不是响应变量的条件均值),假设响应变量服从指数分布族中的某个分布(并不限于正态分布)
指数分布族的定义:
- 指数分布族下的广义线性模型
是与方差有关的参数,叫做尺度参数(scale parameter)
- 广义线性模型的适用场景
广义线性模型是常见的正态线性模型的直接推广,它可适用于连续数据和离散数据,如计数数据、属性数据
- 广义线性模型变量类型
自变量:尺度变量,分类变量,其交互项
因变量:连续变量,两分类变量和计数数据
- 广义线性模型的特例以模型范围
线性回归模型、方差分析模型、用于列联表分析的对数线性模型和两分类数据的logistic回归模型等都是广义线性模型