SQL Server 2008数据库中正确的对验证数据挖掘模型

数据库 SQL Server
我们今天主要向大家讲述的是正确在SQL Server 2008数据库中正确的对验证数据挖掘模型的实际操作步骤,以下就是文章的主要内容描述。

此文章主要向大家讲述的是如何正确在SQL Server 2008数据库中正确的对验证数据挖掘模型, 微软公司的SQL Server 2008数据库主要是将整个数据挖掘流程定义为挖掘结构、挖掘模型、挖掘模型查看器。

挖掘准确性图表和挖掘模型预测五个步骤,本文将讨论如何在SQL Server 2008中验证已经建好的数据挖掘模型。

 

为什么要对数据挖

 

微软SQL Server 2008将整个数据挖掘流程定义为挖掘结构、挖掘模型、挖掘模型查看器、挖掘准确性图表和挖掘模型预测五个步骤,本文将讨论如何在SQL Server 2008中验证已经建好的数据挖掘模型。

 

1. 为什么要对数据挖掘模型进行验证

 

当我们建立好一个数据挖掘模型时,并不能保证所建模型能够直接的解决商业问题,我们要使用多种方法来评估和检验数据挖掘模型的质量和特征。我们可以将将数据分为定型集和测试集来评估数据挖掘模型。通过将数据集分区为定型集和测试集时,定型集是取大多数数据,小部分数据用于测试。

通过对全部数据的整体数据抽样,我们要保证定型集和测试集的相似。通过使用相似的数据来进行定型和测试,可以更好得验证数据挖掘模型。

验证数据挖掘模型主要是从准确性、可靠性和有用性这三个方面入手。准确性是数据挖掘模型与所提供数据中的属性的结果相关联程度的度量值。可靠性是评估数据挖掘模型处理不同数据集的方法。有用性包括了模型是否提供了有用信息的各种指标,比如说有些数据挖掘模型在数据上是成功的,但是实际上没有意义。

在SQL Server 2008中的挖掘模型验证方法可以用绘制模型准确性图表,挖掘模型的交叉验证等方法来进行模型验证。

2. 挖掘模型的准确性图表

SQL Server 2008中的挖掘模型的准确性图表主要有提升图、利润图、散点图、分类矩阵和交叉验证报表。

提升图比较每个模型的预测的准确性,可配置为显示通用预测的准确性或特定值预测的准确性。提升图是用来显示挖掘模型所引起的提升变化的图形表现形式。数据挖掘模型的结果都是介于随机推测模型和精确无误的预测模型之间的,与随机模型相比,任何提高都可以视为提升。提升图可以有效地估计例如客户回复邮件这类模型的准确性效果。如图1所示。

利润图是与提升图包含相同信息的相关图表类型,但利润图还显示与使用每个模型相关联的利润预计增长。利润图中包含一条灰线竖线,用于标记目标总体的百分比。挖掘图例会随着灰色竖线的移动更新并显示百分比值。利润图可以指示若要获得***利润,应确定预测为多少几率的属性,诸如此类的问题。如图2所示。

如果模型包含可预测连续性的属性,系统会自动显示散点图。所谓散点图,就是通过图形对照显示模型中的实际值和预测值。X轴表示实际值,Y轴表示预测值,图中间的一条直线表示在***预测的情况下,预测值和实际值完全匹配。散点图通过将连续性的输入属性视为独立变量,预测属性视为依赖变量,图形显示了结果与输出的紧密程度。如图3所示。

在分类矩阵中,每个矩阵的行表示模型的预测值,而列则表示实际值。分类矩阵是通过将所有事例分拣到各类别中创建的。这些类别可以是“假正”、“真正”、“假负”和“真负”。通过对每个类别中的所有事例进行计数,并在矩阵中显示总计。

通过对分类矩阵的查看,可以快速查看模型作出正确预测的频率。分类矩阵主要用于评估模型所进行的预测是否有效,可以通过已知其预测值的数据集进行测试,我们一般使用在创建模型结构时设定的测试集做测试,通过对测试集得比对,可以快速确定模型预测预期值的次数。

3.交叉验证

 

在创建了数据挖掘模型后,交叉验证用来确定模型的有效性。通过交叉验证,我们可以验证挖掘模型的可靠性,评估该模型以及统计并标识***的模型。

我们通过交叉验证可以了解挖掘模型对于整个数据集的可靠程度,交叉验证可以将挖掘结构分区为交叉部分,并针对数据的每个交叉部分循环定型和测试模型。我们可以把数据划分到其中的每个分区,每个分区将依次用作测试数据,而其余的数据用于为新模型定型。

然后系统会为每个模型生成一组标准准确性指标。通过比较为每个交叉部分生成的模型的指标,可以清楚地了解挖掘模型对于整个数据集的可靠程度。

以上的相关内容就是对在SQL Server 2008中验证数据挖掘模型的介绍,望你能有所收获。

【编辑推荐】

  1. 批量修改SQL Server 2005表构架很简单!
  2. 对SQL Server 2005 BI的描述
  3. SQL Server 日期操作全接触,嘻嘻
  4. SQL Server 易混淆的一些数据类型有哪些?
  5. SQL Server数据库正确获取汉字字串的拼音声母

 

责任编辑:佚名 来源: 凤凰网科技
相关推荐

2010-06-28 10:36:42

SQL Server数

2010-07-01 11:14:36

SQL Server

2010-06-17 12:35:49

SQL Server数

2010-07-15 09:47:09

SQL Server数

2010-07-01 16:52:53

SQL Server数

2010-07-16 10:29:02

SQL Server

2009-02-16 13:21:25

数据挖掘SQL Server SQL Server

2010-07-12 12:41:16

SQL Server

2010-07-13 09:12:56

SQL Server

2010-07-01 15:02:29

SQL Server数

2010-07-05 14:58:35

SQL Server数

2010-05-05 10:19:19

Oracle数据导

2011-08-11 14:23:57

SQL Server 索引分区

2009-03-19 09:30:59

2011-08-09 17:24:21

SQL Server 数据库日志

2010-08-27 09:59:51

SQL Server

2010-07-14 14:07:50

SQL Server

2011-08-16 18:11:13

SQL Server 手动提交

2011-08-25 13:41:50

SQL Server 变更跟踪

2010-07-15 17:28:50

SQL Server
点赞
收藏

51CTO技术栈公众号