离散化和数值概念层次树简介

  • 内容
  • 评论
  • 相关

离散化技术方法可以通过将属性(连续取值)域值范围分为若干区间,来帮助消减一个连续(取值)属性的取值个数。可以用一个标签来表示一个区间内的实际数据值。在基于决策树的分类挖掘中,消减属性取值个数的离散化处理是一个极为有效的数据预处理步骤。

图 1 所示是一个年龄属性的概念层次树。概念层次树可以通过利用较高层次概念替换低层次概念(如年龄的数值)来减少原有数据集的数据量。虽然一些细节在数据泛化过程中消失了,但这样所获得的泛化数据或许会更易于理解、更有意义。在消减后的数据集上进行数据挖掘显然效率更高。

数值概念层次树

由于数据的范围变化较大,所以构造数值属性的概念层次树是一件较为困难的事情。利用数据分布分析,可以自动构造数值属性的概念层次树。其中,主要的几种构造方法如下。

1. Bin 方法

Bin 方法是一种离散化方法。例如,属性的值可以通过将其分配到各 Bin 中而将其离散化。利用每个 Bin 的均值和中位数替换每个 Bin 中的值(利用均值或中位数进行平滑),并循环应用这些操作处理每次的操作结果,就可以获得一个概念层次树。

年龄属性的概念层次树
图 1  年龄属性的概念层次树

本文标题:离散化和数值概念层次树简介

本文地址:https://www.hosteonscn.com/5356.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注