数据挖掘原理与SPSSClementine应用宝典第21章数据模型.ppt
《数据挖掘原理与SPSSClementine应用宝典第21章数据模型.ppt》由会员分享,可在线阅读,更多相关《数据挖掘原理与SPSSClementine应用宝典第21章数据模型.ppt(209页珍藏版)》请在三一文库上搜索。
1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社2 2本章主要内容本章主要内容建模前的通用设置神经网络C5.0算法生成决策树C&RT基于树的分类预测Kohonen网络模型K-Means聚类分析TwoStep聚类分析异常模型Apriori模型GRI关联规则生成规则集模型序列节点模型主成分/因子分析特征选择模型回归分析Logistic回归模型点击进入相点击进入相关节内容关节内容建模节点选项板包括以下节点:建模节点选项板包括以下节点:神经网络神经网络C5.0C&RTQUESTCH
2、AIDKohonenKMeansTwoStep异常异常图图21-1建模节点选项板建模节点选项板AprioriGRICarma序列序列主成分主成分/因子分析因子分析特征选择特征选择回归回归Logistic从图示来辨认一个生成模型的类型从图示来辨认一个生成模型的类型图21-2按列序分别为:神经网络C5.0C&RTCHAIDQUESTKohonenK-Means特征选择图图21-2生成模型选项板生成模型选项板Logistic回归TwoStep主成分/因子分析未精炼关联规则Apriori异常Carma规则集21.2 21.2 21.2 21.2 建模前的通用设置建模前的通用设置建模前的通用设置建模前的
3、通用设置21.1.1建模节点字段页签建模节点字段页签所有的建模节点都有一个“字段”页签,用户可以在此指定用于建模的字段。各建模节点的“字段”页签选项稍有区别,如图21-3、21-4所示是神经网络节点的“字段”页签和C&RT节点的“字段”页签。在建模前,需要指定使用哪些字段作为目标字段和输入字段。在默认状态下,除了序列节点,所有的建模节点都从上游的“类型”节点获取字段信息。如果使用“类型”节点选择输入字段和目标字段,无须在这一表上修改任何东西。对于序列检测模型,必须具体设定建模节点字段表上的字段。要了解更详细的内容,请看“21.15.1序列节点字段页签”。建模节点的字段页签选项综合为:图图21-
4、3 神经网络节点对话框字段页签神经网络节点对话框字段页签图图21-4 C&RT节点对话框字段页签节点对话框字段页签使用类型节点设置:这一选项告诉节点从上游的“类型”节点获取字段信息。这是默认设置。使用定制设置:这一选项告诉节点使用本节点指定的字段信息而不是来自上游节点的设置。在选择了该选项后,需要指定以下字段:(1)目标:对于需要至少一个目标字段的模型,选择目标字段。这类似于在“类型”节点中把字段方向设置为“输出”。(2)输入:选择输入字段。这类似于在“类型”节点中把字段方向设置为“输入”。(3)分区:选择分区字段,将会把源数据分区成不同的部分,以方便做测试等。使用频数字段:这一选项允许用户选
5、择一个字段作为频率权值。如果训练数据集中的每个记录代表不止一个单元例如使用汇总数据时,就可以选择该选项。字段值是每个记录所代表的单元数。频率字段的值应当是正整数。频率权值会影响 C&RT模型分支案例的计算。频率权值为零或者负值的记录将不参与分析。非整数频率权值取整为最相邻的整数。使用加权字段:这一选项允许选择某一字段作为案例权值。案例权值用于解释输出字段各水平之间的方差。这些权值用于模型估计但是并不影响 C&RT模型分支案例的计算。个案权值必须为正,但是可以不是整数。权值为零或者负值的记录将不参与分析。后项:在关联规则节点(Apriori 和 GRI)中,选择用作结论规则集中的结果的字段。(这
6、对应于“类型”节点中类型为“输出”或者“两者”的字段)。前项:在关联规则节点(Apriori 和 GRI)中,选择用作结论规则集中的前提的字段。(这对应于“类型”节点中类型为“输入”或者“两者”的字段)。使用事务格式(仅在 Apriori 节点中出现):Apriori 节点既可以处理交易数据格式,也可以处理表格数据格式。交易型数据有两个字段:一个用于存储 ID 号,一个用于存储交易内容。每个记录代表一项交易,相关交易通过相同的 ID号关联起来。使用表格格式使用表格格式(Apriori节点仅有):表格数据各项分别由二分变量表示,每个记录表节点仅有):表格数据各项分别由二分变量表示,每个记录表示一
7、个完整的交易项。示一个完整的交易项。如表如表21-2所示为一个表格格式的来源实例。所示为一个表格格式的来源实例。21.2.1 21.2.1 21.2.1 21.2.1 在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型在数据流中使用生成模型新产生的模型可以放置在数据流中,用于对新数据评估和创建新节点。使用一个生成模型来评估数据,其步骤如下:(1)在生成模型面板中点击选择所需模型。(2)点击流区域中的所需位置以便将模型加入到流中。(3)连接生成模型节点与数据源或转入数据的流。(4)加入或连接一个或多个过程或输出节点(如表节点)到生成模型节点。(5)执行生成模型节点的某个下游节点。
8、使用一个生成模型节点来创建过程节点,其步骤如下:(1)浏览(在选项板上)或编辑(在数据流区域上)这个模型。(2)从这个生成模型浏览器窗口的“生成”菜单中选择所需节点类型。根据不同生成模型节点的类型,有效选项将发生变化。参看特定生成模型类型的细节,用户能够得知从某个特定模型能生成什么。21.2.221.2.2使用生成模型浏览器使用生成模型浏览器生成模型浏览器允许用户检验和使用模型结果。从浏览器中,用户可以存储、打印和输出生成模型,整体观察模型,查看和编辑注释等。对于一些生成模型,用户也可以创建新的节点,(如筛选节点和规则集节点)。有些模型,用户也可以查看它的参数(如规则或类中心)。对于决策树模型
9、C5.0和C&RT),用户可以查看模型结构的图形表示,如图21-7所示。图图21-7 C5.0模型浏览器窗口模型浏览器窗口21.3 21.3 21.3 21.3 神经网络建模神经网络建模神经网络建模神经网络建模神经网络节点用于创建并训练神经网络。神经网络,有时也称作多层感知器,本质上是人脑处理信息方式的简化模型。它通过模拟大量相互连接的简单处理单元工作,这些处理单元是按层排列的。在神经网络中通常有三部分:一个输入层,其单元代表输入字段;一个或者更多的隐藏层;以及一个输出层,其单元代表输出字段。这些单元通过不断变化的连接强度或权值连接。神经网络学习包括:检查单个记录、为每个记录生成预测、一旦发
10、现生成错误的预测便对权值进行调整。这一进程多次重复,神经网络不断提高预测效果,直到满足一个或者多个终止准则。要求:对字段类型没有限制。神经网络可以处理数值型、字符型以及标志型输入输出字段。神经网络节点要求一个或更多字段有“输入”方向,以及一个或更多字段有“输出”方向。设置为“两者”或者“无”的字段将被忽略。在执行节点时,字段类型必须被充分实例化。优点:神经网络在执行一般估计功能时非常强大。他们一般能够和其他方法一样执行预测任务,有时甚至执行得更好。同时,训练和应用神经网络需要用户掌握的统计和数学知识很少。Clementine 中包含几项特有的功能,用以避免运用神经网络时的一些常见问题,包括:敏
11、感度分析辅助解释神经网络结果,修剪和验证以避免过度训练,动态网络以自动找出合适的网络结构设计。21.3.121.3.1神经网络节点页签神经网络节点页签图图21-8 神经网络节点对话框模型页签神经网络节点对话框模型页签模型名称:指定要生成的神经网络名称。(1)自动:选择该选项后,模型名称将根据目标字段名自动生成,这是默认设置。(2)定制:选择该选项可以为节点创建的模型指定用户定义的模型名称。训练方式:Clementine为建立神经网络模型提供六种训练方式:(1)快速:这种方法采用粗略估计方法,根据数据特征选择神经网络的合适类型(拓扑结构),需要注意的是计算隐藏层默认规模的方法已经与 Clemen
12、tine 以前的版本不同。新的方法通常会生成更小规模的隐藏层,训练起来更快,生成的模型更好。如果发现采用默认规模的隐藏层得到的模型精确度较低,用户可以尝试通过“专家”页签提高隐藏层规模或者使用别的训练方法。(2)动态:这种方法首先创建一个初始拓扑结构,然后随着训练的进展添加或剔除隐藏单元以修改拓扑结构。(3)多重:这种方法创建拓扑结构不同的几个神经网络(具体的数目取决于训练数据的情况)。随后这些网络以伪平行方式训练。在训练结束时,RMS错误最小的模型代表最终的模型。(4)修剪:这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。这种方法通常很慢,但是常常生成比其
13、它方法更好的结果。(5)径向基函数网络(RBFN):径向基函数网络(RBFN)使用类似于K-Means 聚类的方法,根据目标字段值拆分数据。(6)彻底修剪:这种方法与“修剪”方法有关。这种方法以一个大型神经网络开始,随着训练的进行剔除(修剪)隐藏层和输入层的最差单元。由于是彻底修剪,神经网络训练参数的选择要确保对可能模型空间进行彻底的搜索以选出最好的模型。这种方法通常是最慢的,但是常常生成最好的结果。需要注意的是这种方法会花很长的时间训练数据,特别是训练大型数据集。预防过度训练:选择该选项后数据随机被拆分成训练集和验证集。网络在训练集中训练,而精确度则根据验证集估计。可以在“样本”框中指定用于
14、训练的数据比率。(数据集中的其余部分用于验证)。设置随机数种子:如果没有设置随机数子,则用于初始化神经网络权值的随机数序列在每次执行节点时各不相同。这样,即使神经网络设置和数据值完全一样,节点也会在各次执行生成不同的模型。选择该选项后,可以把随机数种子设置成某一具体值,这样结果模型就完全可再现。一个确定的随机数种子总是生成相同的随机数序列值,这样执行该节点总是生成同样的模型。停止于:可以从以下终止准则中选择一个:(1)默认:在这一设置下,网络将在其看起来达到最佳训练状态时停止训练。如果该设置与“多重”训练方法一起使用,训练不好的神经网络在训练过程中将被舍弃。(2)精确性:选择该选项后,训练将一
15、直持续直到达到指定精确度。也许永远不能达到指定精确度,但是可以在任意点终止训练并保存目前达到的最高精确度。(3)周期:选择该选项后,训练将持续指定的循环数(通过数据的循环数)。(4)时间(分钟):选择该选项后,训练将持续到指定的时间(以分钟计算)。优化:设置Clementine的优化策略。(1)速度:选择“速度”使算法执行加快,但是占用更多的内存。(2)内存:选择“内存”使执行速度减慢,但节约内存。神经网络节点选项页签神经网络节点选项页签图图21-9 神经网络节点对话框选项页签神经网络节点对话框选项页签继续训练现有模型:在默认设置下,每次执行神经网络节点时,会创建一个全新的网络。如果选择了该选
16、项,训练继续使用上次节点成功产生的网络。节点可以正确处理各次执行间训练方法的不同,但是RBFN 网络不能用于其它类型的网络。因此,当训练方法改成 RBFN 或者从 RBFN 改成其它方法时,节点的执行总是会创建新的神经网络。使用二进制集合编码:如果选择了该选项,Clementine会对集合字段使用压缩性二进制编码。在使用带有大量值的集合字段作为输入字段时,该选项使建立神经网络模型更加容易。但是,如果使用该选项,可能需要提高网络结构的复杂性(通过添加更多的隐藏单元或者隐藏层)以使网络正确使用二进制编码集合字段中的压缩信息。显示反馈图形:如果选择了该选项,用户会看到一张显示神经网络一段时间内学习过
17、程中的精确度。此外,如果选择了生成日志文件,会看到另一张图,显示训练集合和检验集度量(在下面定义)。模型选择:在默认设置下,如果训练被中断,节点会返回最好的神经网络作为生成网络节点。也可以要求节点返回“最终模型”。敏感度分析:选择该选项后,在网络训练结束后,节点会执行输入字段的敏感度分析。敏感度分析提供哪些输入字段对于预测输出字段是更重要的信息。(这些结果是模型信息的一部分,可以在模型结果浏览器中获得)。生成日志文件:如果选择了该选项,有关训练进展的信息会被写入指定的日志文件。要改变日志文件,可以输入一个日志文件名或者使用自定义()按钮定位。(如果选择了一个已经存在的文件,新的信息将被附加到该
18、档。)日志文件中各项输入的格式如图21-10所示。其选项如下:()图图21-10 生成的日志文件生成的日志文件说明:(1)()按照小时:分钟:秒 的格式HH:MM:SS.(2)()在多重训练模式下表明目前训练的神经网络。对于其它训练模式,值总是“1”(3)()是一个整数,从零开始每执行一次增加一次。(4)()分别对神经网络在训练数据集和检验数据集上的表现进行度量。(如果取消选择“预防过度训练”选项,这些值完全相同)。他们按照预测值和真实值的相关系数平方除以均方误差(MSE)计算。如果同时选择了“生成日志文件”和“显示反馈图形”,这些度量值会显示在反馈图中,作为对模型的精确度值的补充。神经网络节
19、点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签神经网络节点专家页签各选项随着所选择的训练方式的不同而发生变化。21.2.3.1快速方式专家页签快速方式专家页签快速方式专家页签如图21-11所示。隐藏层:选择神经网络的隐藏层数。更多的隐藏层可以帮助神经网络学习更为复杂的关系,但同时也增加训练时间。层 1,2,3:对每一层,指定其所包含的隐藏单元数。更多的每层隐藏单元数有助于学习复杂任务,但是和附加隐藏层一样,他们也增加训练时间。持续次数:指定未见改进时网络继续训练的次数。更高的持续次数可以避免神经网络的局部最小,但是同样增加训练时间。图图21-11 快速方式专家页签快速方
20、式专家页签多重方式专家页签多重方式专家页签图图21-12多重方式专家页签多重方式专家页签拓扑:指定用于训练的神经网络的拓扑结构。拓扑结构通过指定每层的隐藏单元数给出,各单元数之间用逗号隔开。使用适当的参数数目,拓扑布局可以指定1到3个隐藏层。比如,一个只有一层隐藏层,隐藏层有十个单元的网络可以指定为 10;有三个隐藏层,隐藏层所含单元分别为10,12,15的网络可以指定为 10,12,15。也可以提供用空格隔开的2到3个数字来指定一层中的隐藏单元范围。如果给的是两个数字,将创建一系列的神经网络,其包含单元数分别对应于第一个数字和第二个数字之间的各个整数(包括这两个数字)。比如,要生成每层分别含
21、10,11,12,13和14个隐藏单元的神经网络,指定为10 14。要生成有两个隐藏层,第一个隐藏层所含隐藏单元范围为10到14,第二个隐藏层所含隐藏单元为8到12,则指定为 10 14,8 12。在这种情况下,会生成包括所有可能的组合值的神经网络。如果给出第三个值,则用作第一个值到第二个值之间的增量。比如,要生成具有 10,12,14,16 个隐藏单元的类神经网络,指定为 10 16 2。最后,可以提供多重网络拓扑结构,用分号隔开。比如,要分别生成只有一个隐藏层,隐藏层所含单元为10,12,14,16,以及有两个隐藏层,第一个隐藏层有10个隐藏单元,第二个隐藏层有7到10个隐藏单元的神经网络
22、指定为 10 16 2;10,7 10。丢弃非四棱锥:四棱锥型是指每一层隐藏单元数不多于前一层的神经网络。这种网络通常比非四棱锥型网络训练得好。选择该选项丢弃不是四棱锥型的网络。持续次数:指定未见改进时网络继续训练的次数。修剪方式专家页签修剪方式专家页签图图21-13 修剪方式专家页签修剪方式专家页签隐藏层:选择初始网络(修剪前)的隐藏层数。层 1,2,3:指定在初始网络(修剪前)中每一隐藏层包含隐藏单元数。初始层数应该比使用其它训练方法的层数略微大一些。隐藏速率:指定在单个隐藏单元修剪中被剔除的隐藏单元比率数。隐藏持续次数:指定在训练未见改进时执行的隐藏单元修剪操作次数。输入速率:指定在单
23、个输入单元修剪中被剔除的输入单元比率数。输入持续次数:指定在训练未见改进时执行的输入单元修剪操作次数。持续次数:指定在训练未见改进时,网络在尝试修剪前的训练次数。总体持续次数:指定在训练未见改进时进行的隐藏单元修剪/输入单元修剪次数。在使用预设停止模型时,运用该选项。RBFN RBFN 专家页签专家页签图图21-14 RBFN专家页签专家页签RBFN聚类:指定使用的径向基函数个数或者聚类个数。这对应于隐藏层的大小。持续次数:指定在训练未见改进时网络继续训练的次数。RBF重叠:在RBFN中隐藏单元代表定义数据集中类别或区域的径向基函数。该参数有助于控制重叠的区域或类别。在训练中,正常情况下记录只
24、影响距离最近的类别。通过提高这个参数,可以增加每个隐藏单元的关联区域,使记录能够影响更远的类别。此处应指定一个正实数。21.3.2 21.3.2 21.3.2 21.3.2 神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络节点学习速率神经网络训练由几个参数控制。这些参数可使用神经网络节点对话框的“专家”页签来设置。Alpha:一个用于更新训练时的权值的动量。动量倾向于保持权值沿一致方向变动。要求指定0到 1之间的一个值。较高的 Alpha值有助于避免网络的局部极小值。Eta:即学习速率,控制每次网络升级时权值的调整幅度。除 RBFN方法 Eta值恒为常数外,对其他所有训练方
25、法,Eta值随着训练的进行而变化。初始 Eta值是 Eta 的起始值。在训练中,Eta 从初始值开始,降低到 Eta 低值,然后重置为 Eta 高值,又再次降低到 Eta 低值。最后两步反复进行,直到训练结束。Eta 衰减指定Eta 开始降低时的比率,表示为从 Eta 高值到 Eta 低值的循环数。对每一个 Eta 选项都要指定值。21.3.321.3.321.3.321.3.3生成神经网络节点生成神经网络节点生成神经网络节点生成神经网络节点 生成神经网络节点表现了由神经网络节点创建的网络。它们包含了由训练过的网络所提取的所有信息,以及关于神经网络特点的信息。查看关于神经网络的信息,用鼠标右键
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 原理 SPSSClementine 应用 宝典 21 数据模型
