1、C4.5算法是在ID3算法的基础上采用信息增益率的方法选择测试属性。
2、CART算法采用一种二分递归分割的技术,与基于信息熵的算法不同,CART算法对每次样本集的划分计算GINI系数,GINI系数,GINI系数越小则划分越合理。
(资料图)
3、2、决策树算法是一种逼近离散函数值的方法。
4、它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。
5、本质上决策树是通过一系列规则对数据进行分类的过程。
6、3、决策树算法构造决策树来发现数据中蕴涵的分类规则.如何构造精度高、规模小的决策树是决策树算法的核心内容。
7、决策树构造可以分两步进行。
8、第一步,决策树的生成:由训练样本集生成决策树的过程。
9、一般情况下,训练样本数据集是根据实际需要有历史的、有一定综合程度的,用于数据分析处理的数据集。
10、第二步,决策树的剪技:决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程,主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则,将那些影响预衡准确性的分枝剪除。
本文就为大家分享到这里,希望小伙伴们会喜欢。
下一篇:最后一页
广告
X 关闭
广告
X 关闭