R中规范曲线拟合的主力是 lm() , glm() 和 nls() . 对我而言,拟合优度是模型选择中较大问题的一个子问题 . 事实上,错误地使用拟合优度(例如,通过逐步回归)可能会产生严重错误的模型(参见Harrell 's book on 622648 ). Rather than discussing the issue from scratch, I recommend Harrell'的书籍 lm 和 glm . 维纳布尔斯和里普利的圣经是简洁的,但仍然值得一读."Extending the Linear Model with R" by Faraway这些来源并不包含这些内容,但Ritz和Streibig的"Nonlinear Regression with R"填补了这一空白,并且非常实用 .
6 回答
最好保持简单,看看线性方法是否“很好” . 您可以通过查看R平方AND F统计数据来判断您的适合度,并且永远不会分开 . 在模型中添加与因变量无关的变量可以增加R2,因此您还必须考虑F统计量 .
您还应该将模型与其他嵌套或更简单的模型进行比较 . 只要因变量相同,使用对数似然比检验即可 .
Jarque-Bera检验有助于检验残差分布的正态性 .
只是问题的第一部分可以填满整本书 . 只是一些快速选择:
lm()
用于标准线性模型glm()
用于广义线性模型(例如用于逻辑回归)来自MASS包的
rlm()
用于稳健的线性模型lmrob()
来自strong robustbase,用于稳健的线性模型loess()
用于非线性/非参数模型然后有特定于域的模型,例如,时间序列,微观计量经济学,混合效应等等 . 例如,几个任务视图Econometrics更详细地讨论这个问题 . 至于适合度,这也是一本可以轻松花费整本书讨论的东西 .
R中规范曲线拟合的主力是
lm()
,glm()
和nls()
. 对我而言,拟合优度是模型选择中较大问题的一个子问题 . 事实上,错误地使用拟合优度(例如,通过逐步回归)可能会产生严重错误的模型(参见Harrell 's book on 622648 ). Rather than discussing the issue from scratch, I recommend Harrell'的书籍lm
和glm
. 维纳布尔斯和里普利的圣经是简洁的,但仍然值得一读."Extending the Linear Model with R" by Faraway这些来源并不包含这些内容,但Ritz和Streibig的"Nonlinear Regression with R"填补了这一空白,并且非常实用 .nls()
函数(http://sekhon.berkeley.edu/stats/html/nls.html)是非线性最小二乘曲线拟合的标准 . Chi平方(残差平方和)是在这种情况下优化的度量,但它没有标准化,因此您不能确定自动执行此操作的方法 .Quick R网站对用于拟合模型和测试拟合的基本函数以及样本R代码进行了合理的总结:
可能会修改
qqnorm()
以找到样本分位数与理论分位数之间的相关性 . 从本质上讲,这只是对正常分位数图的数值解释 . 也许为不同的分位数范围提供几个相关系数值可能是有用的 . 例如,如果中间97%的数据的相关系数接近于1,而尾部的相关系数则低得多,这告诉我们残差的分布大致正常,尾部有一些有趣的情况 .