方法：如何选择统计模型？

发布日期：2017-12-12

核心提示：统计模型的选择并不简单。认为每个数据集都有自己的适应性模型是错误的。如果您是统计模型的新手，那么在探索下面的网格之前，这个简单的介绍可能是有用的。

　　根据情况选择统计建模工具的指南

　　统计模型的选择并不简单。认为每个数据集都有自己的适应性模型是错误的。如果您是统计模型的新手，那么在探索下面的网格之前，这个简单的介绍可能是有用的。

　　每个建模工具都回答特定的问题。例如，与特定糖尿病有关的糖血症可以用定性变量(例如性别)来解释。在这种情况下，可以使用ANOVA模型。我们也可以使用年龄数据(定量变量)来观察是否有线性增加或减少的血糖趋势，根据患者的年龄，使用相同的数据。在这种情况下，我们使用线性回归。

　　统计模型的选择也可以由依赖和解释变量之间的关系的形状来指导。对这些关系的图形化探索可能非常有用。有时这些形状可能是弯曲的，因此多项式或非线性模型可能比线性模型更合适。

　　模型的选择也可以与你正在调查的特定问题密切相关。例如，michaelis - menten酶动力学的Vmax和Km参数的估计意味着考虑到特定的michaelis - menten方程，将反应速率(因变量)与底物浓度(解释变量)联系起来，以一种非线性的方式。

　　如果研究的目的只是为了预测大量的变量，那么可以考虑参数模型以外的解决方案。举例来说，偏最小二乘回归是一个特定的工具，它可以从无限多个可能相关的解释变量中预测一个因变量。在化学计量学中，使用偏最小二乘回归非常流行，在这种情况下，输出常常被大量波长的波长所预测。

　　模型中应该包含哪些参数?

　　一旦您选择了合适的建模工具，在许多情况下，您可能会问您应该在模型中包含多少参数。您所包含的参数数量越高，模型对数据的适应能力就越好(例如，降低残差，这意味着更高的R2统计量)。那么，模型中参数的数量应该最大化吗?不是真的。一个符合数据的模型太过代表特定样本的使用，而对整个种群的泛化将不那么准确。

　　模型质量是衡量数据的公平性与最小数量的参数之间的平衡，可以使用诸如Akaike的信息标准(AIC)或贝叶斯信息标准(BIC或SBC)等指标来评估。当将几个参数模型相互比较时，具有最低索引的模型在集合中具有最好的质量，在绝对上下文中，对这些指标的解释是没有意义的，换句话说，只考虑了一个模型。

　　网格

　　下面的网格将帮助您选择一个可能适合您的情况的统计模型(类型和依赖和解释变量的数量)。网格还包括一个列，在每种情况下都有一个示例。

　　参数模型的有效性条件在网格后的段落中列出。

　　显示的解决方案是统计中最常用的工具。它们都在XLSTAT中可用。这个列表并不是详尽无遗的。存在许多其他的解决方案。

　　条件的有效性

　　我们提出的有效性条件是经验法则。在文学上没有精确的规则。我们强烈建议你参考你的领域的具体建议。

　　条件的有效性

　　个人是独立的。

　　方差是均匀的。

　　残差遵循正态分布。

　　至少20人(推荐)。

　　无多重共线性(如果目的是估算模型参数)。

　　没有比个人更多的解释变量了。

　　多变量残差的常态。

　　方差在每个因变量内是齐次的。各因变量之间的相关性是齐次的。

下一篇：一个微生物代谢组学研究的微平台
上一篇：肉制品加工技术简答题选摘

[ 检测应用搜索 ] [ 加入收藏 ] [ 告诉好友 ] [ 打印本文 ] [ 违规举报 ] [ 关闭窗口 ]

• 山药-蛹虫草双向发酵的抗氧化活性增效性	• 酸热诱导大豆分离蛋白纳米颗粒形成及其荷载姜黄
• 亚麻籽调节糖脂代谢作用的研究进展	• 原花青素对小鼠血脂代谢紊乱与肠道菌群干预的影
• 辣木源多肽组分改善D-半乳糖致衰小鼠氧化损伤作	• 乳铁蛋白对三唑酮诱导骨髓间充质干细胞损伤的修
• 灵芝菌丝体多糖对人皮肤成纤维细胞氧化应激损伤	• 甜玉米芯多糖对糖尿病大鼠的降血糖作用
• 原花青素对铁超载大鼠肾脏铁含量、氧化应激及Fa	• 烟酰胺核糖对酒精暴露小鼠抑郁样行为及肠黏膜通