数据挖掘是什么?

  • 内容
  • 评论
  • 相关

本节将对数据挖掘的基本概念进行介绍,包括数据挖掘的定义、数据挖掘的价值类型和数据挖掘算法的类型等。

什么是数据挖掘

数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的,人们事先不知道的,但是具有潜在有用性的信息和知识的过程。

用来进行数据挖掘的数据源必须是真实的和大量的,并且可能不完整和包括一些干扰数据项。发现的信息和知识必须是用户感兴趣和有用的。一般来讲,数据挖掘的结果并不要求是完全准确的知识,而是发现一种大的趋势。

数据挖掘可简单地理解为通过对大量数据的操作,发现有用的知识的过程。它是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。

就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做预测。

数据挖掘的知识发现,不是要去发现放之四海而皆淮的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解,最好能用自然语言表达所发现的结果。

数据挖掘其实是一类深层次的数据分析方法。数据分析本身已经有很多年的历史,只不过在过去,数据收集和分析的目的是用于科学研究。另外,由于当时计算能力的限制,对大数据量进行分析的复杂数据分析方法受到了很大限制。

现在,由于各行业业务自动化的实现,商业领域产生了大量的业务数据,这些数据不再是为了分析的目的而收集的,而是由于纯机会的商业运作而产生的。

分析这些数据也不再是单纯为了研究的需要,更主要是为商业决策提供真正有价值的信息,进而获得利润。但所有企业面临的一个共同问题是,企业数据量非常大,而其中真正有价值的信息却很少,对大量的数据进行深层分析,进而获得有利于商业运作、提高竞 争力的信息,就像从矿石中淘金一样,数据挖掘也因此而得名。

数据挖掘的价值类型

数据挖掘就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。价值通常包括相关性、趋势和特征。

1)相关性

相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。

元素之间需要存在一定的联系或者概率才可以进行相关性分析。相关性不等于因果性,所涵盖的范围和领域几乎覆盖了我们所见到的各个方面。相关性分析用于确定数据之间的变化情况,即其中一个属性或几个属性的变化是否会对其他属性造成影响,影响有多大。图 1 就是几种常见的相关性的示例。

属性之间的相关性
图 1  属性之间的相关性

本文标题:数据挖掘是什么?

本文地址:http://www.hosteonscn.com/5463.html

评论

0条评论

发表评论

邮箱地址不会被公开。 必填项已用*标注