2015年7月28日星期二

回归树与分类树的区别

一、决策树的类型 
在数据挖掘中,决策树主要有两种类型:

分类树 的输出是样本的类标。
回归树 的输出是一个实数 (例如房子的价格,病人呆在医院的时间等)。

术语分类和回归树 (CART) 包含了上述两种决策树, 最先由Breiman 等提出.分类树和回归树有些共同点和不同点—例如处理在何处分裂的问题。

CART与ID3区别:
CART中用于选择变量的不纯性度量是Gini指数;
如果目标变量是标称的,并且是具有两个以上的类别,则CART可能考虑将目标类别合并成两个超类别(双化);
如果目标变量是连续的,则CART算法找出一组基于树的回归方程来预测目标变量。

在R中的实现 回归树和分类树
rpart通过method 方法来区别,回归树method 为默认,分类树 method = 'class'
randomForest  分类树是时候需要将因变量变为factor类型

没有评论:

发表评论