您现在的位置: 什么是 >> 电脑通讯 >> 文章正文
《什么是数据挖掘》
作者:未知 来源:网络 点击数: 日期:2007-10-22
问题:什么是数据挖掘?数据挖掘是什么意思?

数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database, KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识。

与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。

何为知识:从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。

数据挖掘能做什么?

1)数据挖掘能做以下六种不同事情(分析方法):

分类 (Classification)

估值(Estimation)

预言(Prediction)

相关性分组或关联规则(Affinity grouping or association rules)

聚集(Clustering)

描述和可视化(Description and Visualization)

2)数据挖掘分类

以上六种数据挖掘的分析方法可以分为两类:直接数据挖掘;间接数据挖掘

直接数据挖掘

目标是利用可用的数据建立一个模型,这个模型对剩余的数据,对一个特定的变量(可以理解成数据库中表的属性,即列)进行描述。

间接数据挖掘

目标中没有选出某一具体的变量,用模型进行描述;而是在所有的变量中建立起某种关系。

分类、估值、预言属于直接数据挖掘;后三种属于间接数据挖掘

3)各种分析方法的简介

分类 (Classification)

首先从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类。

例子:

a. 信用卡申请者,分类为

[1] [2] [3] [4] 下一页

  • 上一条文章:
  • 下一条文章:
  • 版权声明:《什么是数据挖掘》来源网络,版权归原作者所有,若涉及版权问题,请与我们联系,我们会及时删除!若标明本站原创或者来源www.shenmeshi.com的,转载时请注明,谢谢!所有文章仅供参考,并不构成操作建议! mail:shenmeshi.cn(AT)gmail.com
    评论
    站内文章搜索