cart决策树算法例题 工业上有哪些实用的决策树模型?
工业上有哪些实用的决策树模型?
树模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。
目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。
不同树模型差异:差异在于对变异/杂质的定义不同。比如P值、方差、熵、Gini指数(基尼指数)、Deviance等作为测量指标。
树模型分类:根据预测的因变量类型,树结构模型可以分为分类树、回归树两大类。
常用算法:
CHAID(卡方自交互侦测决策树)—Chi-squared Automatic Interaction Detector
CRT(分类回归树)—Classification Regression Tree;
C5.0以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。面对数据遗漏和输入字段很多的问题时非常稳健。
QUEST:Quick、Unbiased、Efficient Statistical Tree的缩写。
决策树需要计算结点的纯度来选择最具显著性的切分(split)。通常,CART以Gini,C5以信息增益(熵),CHAID以卡方。虽然存在这样的差别,但他们树形状的不同更为重要一些。
C5起源于计算科学领域,讲究小样本上的重复测试比较(cross validation),进一步地,C5会进行规则(Rule Set)的概化以自动产生更为简洁的规则表达形式。牺牲一些精度来换取更好记的规则,对于业务人员来说无疑是值得的。
cart决策树算法例题 cart回归树实例 cart树和决策树的区别
版权声明:本文内容由互联网用户自发贡献,本站不承担相关法律责任.如有侵权/违法内容,本站将立刻删除。