动态网站制作指南
[  QQ表情  ]
[ 投票调查 ]
[ 企业邮箱 ]
[ 网站空间 ]
网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
ASP源码 | .Net源码 | PHP源码 | JSP源码 | JAVA源码 | CGI源码 | VB源码 | C++源码 | Delphi源码 | PB源码 | VF源码 | 汇编 | 服务器
电脑书籍下载:程序设计书籍 | 数据库教程书籍 | 平面与多媒体书籍 | 网络通讯书籍 | 系统管理书籍 | 网络安全书籍 | 认证考试书籍
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > 数据库学院 > 数据库技巧
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
数据库:数据库教程,数据库技巧,Oracle教程,MySQL教程,Access教程,DB2教程,数据库安全,数据库文摘
文章搜索服务
邮件订阅
输入你的邮件地址,
你将不会错过任何关于:
[ 数据库技巧 ]的信息

本月文章推荐
.实例讲解SQL Server中非常有用EX.
.ms sql删除重复的记录 .
.在SQL Server 2005数据库中进行错.
.Sql Server数据库的备份和恢复措.
.怎样才能保护好SQL Server 数据库.
.sql server 2000关于日期的查询.
.在SQL Server 2000中恢复Master数.
.SQL Server 2005代理服务应用软件.
.带你轻松接触Sybase ASE15.0.2性.
.Sql Server2005登录失败.
.通用SQL数据库查询语句精华使用简.
.SQL Server连接失败错误故障的分.
.SQL Server 2005: 利用新的ranki.
.SQL Server 存储过程的分页方案比.
.使用正规表达式编写更好的SQL.
.SQL SERVER 2005中同义词实例.
.在SQL Server中显示表结构的脚本.
.sql server转换时间为字符串.
.使用 IP 地址连接到 SQL Server .
.锁现象通常分为死锁和锁等待两种.

深入讲解数据挖掘中的“数据归约技术”

文章类别:数据库技巧 | 发表日期:2008-2-26 |


一、数据归约基本知识:

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。


对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。


在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:


(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。


(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。


(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

 


数据归约算法特征:


(1)可测性


(2)可识别性


(3)单调性


(4)一致性


(5)收益增减


(6)中断性


(7)优先权

 


二、数据归约方法:

1、特征归约:

 

用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果:


(1)更少的数据,提高挖掘效率


(2)更高的数据挖掘处理精度


(3)简单的数据挖掘处理结果


(4)更少的特征。


和生成归约后的特征集有关的标准任务有两个:


(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法


(2)特征构成:特征构成依赖于应用知识。


特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似:


(1)只对有前景的特征子集进行检查


(2)用计算简单的距离度量替换误差度量


(3)只根据大量数据的子集选择特征。

特征归约处理期望达到的效果:


(1)提高模型生成过程和所得模型本身的性能


(2)在不降低模型质量的情况下减少模型维度


(3)帮助用户可视化有更少维数的可能结果,改进决策。

 

 


2、主成分分析:

 

主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。


一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}


Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。


Y=A*X

 

 


3、值归约:

 

特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。


(1)分割点选择


(2)怎样选择区间描述


几种自动离散化技术:


(1)特征离散化


ChiMerge算法:


a.对已知特别数据进行升序排列


b.定义初始区间,使特征的每个值都在一个单独的区间内


c.重复进行直到任何两个相临区间的X2都不小于阈值。

 

 


4、案例归约:

 

初始数据集中最大和最关键的维度数就是案例或样本的数目。在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。


取样方法分类:


(1)普通用途取样


a.系统化取样


b.随机取样:不回放/回放


基本形式有增量取样,平均取样,


c.分层取样


d.逆取样


(2)特殊用途取样


上一篇:SQL Server 2008新功能─传递表值参数 人气:607
下一篇:深入讲解有关数据挖掘的10个常见问题 人气:773
点击此处浏览全部数据挖掘的内容 Dreamweaver插件下载 常用网页广告代码全集
  最新网站源码 最新软件下载
2008-5-16 乘风多用户PHP统计系统 v3.4
2008-5-16 轩溪下载系统 v3.78 build 0515
2008-5-16 普沙B2B 浙江省商贸网 v2.0
2008-5-16 asp抓蜘蛛的小程序 v1.0
2008-5-16 齐齐乐网私服发布站 仿haosf新版
2008-5-16 IssTech信息反馈系统 v1.0
2008-5-16 自由领域大头贴(js接口版) 修正版
2008-5-16 医院网站系统
2008-5-16 智拓-分类信息管理系统 v5.0
2008-5-7 Windows XP SP3 官方英文版
2008-5-7 Windows XP SP3 官方香港中文版
2008-5-7 Windows XP SP3 官方繁体中文版
2008-5-7 Windows XP SP3 官方简体中文版
2008-4-30 Multiple Unzip Wizard 1.02
2008-4-30 Multiple Unrar Wizard 1.0.0
2008-4-30 WinZip Install/Try/Uninstall a
2008-4-30 ZIP压缩文件修复器WzipFix 2.0
2008-4-30 Pentazip 6.01 Build 189 For Wi
  发表评论
姓 名: 验证码: [ 全部贴吧 ] [ 浏览评论 ]
内 容:
[ 汉字翻译拼音 ] [ 广告代码 ] [ 符号对照表 ] [ 进制转换 ] [ 经典小工具 ] [ 个税计算 ] [ 汉字简繁转换 ] [ 普通单位换算 ] [ 公制单位换算 ]
[ 生辰老黄历 ] [ 国内电话区号 ] [ 国家代码与域名缩写 ] [ 文字加密解密 ] [ 健康查询 ] [ 万年历 ] [ 手机号码查询 ] [ ip搜索 ] [ Google PR查询 ]
业务联系 | 广告刊登 | 频道合作 | 投稿荐稿 | 联系方式 | 加入收藏 | RSS订阅
Copyright © 2000-2008 www.knowsky.com All rights reserved | 网络实名:动态网站制作指南 | 沪ICP备05001343号
ホームページ制作 不動産検索システム 求人情報