欢迎来到三一文库! | 帮助中心 三一文库31doc.com 一个上传文档投稿赚钱的网站
三一文库
全部分类
  • 研究报告>
  • 工作总结>
  • 合同范本>
  • 心得体会>
  • 工作报告>
  • 党团相关>
  • 幼儿/小学教育>
  • 高等教育>
  • 经济/贸易/财会>
  • 建筑/环境>
  • 金融/证券>
  • 医学/心理学>
  • ImageVerifierCode 换一换
    首页 三一文库 > 资源分类 > PPT文档下载
     

    人工智能安全-2-非平衡数据处理问题.ppt

    • 资源ID:21712643       资源大小:740KB        全文页数:42页
    • 资源格式: PPT        下载积分:6
    快捷下载 游客一键下载
    会员登录下载
    微信登录下载
    三方登录下载: 微信开放平台登录 QQ登录   微博登录  
    二维码
    微信扫一扫登录
    下载资源需要6
    邮箱/手机:
    温馨提示:
    用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    加入VIP免费专享
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

    人工智能安全-2-非平衡数据处理问题.ppt

    -人工智能安全人工智能安全1 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全2非平衡数据分类问题 在网络信息安全问题中,诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。-人工智能安全人工智能安全3 产生的原因 攻击者的理性特征使得攻击样本不会大规模出现。警惕性高的攻击者,会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。-人工智能安全人工智能安全4 -人工智能安全人工智能安全5 非平衡数据对各种分类器的影响 KNN Bayes 决策树 Logistic回归当用于非平衡数据分类时,为了最大化整个分类系统的分类精度,必然会使得分类模型偏向于多数类,从而造成少数类的分类准确性低。-人工智能安全人工智能安全6 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全7处理方法 -人工智能安全人工智能安全8 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全9欠抽样欠抽样方法通过减少多数类样本来提高少数类的分类性能。常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息。-人工智能安全人工智能安全10 启发式欠采样基本出发点是保留重要样本、有代表性的样本,而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL,Neighborhood cleaning rule)和Tome links法,其中NCL包含ENN,典型的有以下若干种。-人工智能安全人工智能安全11 Edited Nearest Neighbor(ENN)对于多数类的样本,如果其大部分k近邻样本都跟它自己本身的类别不一样,就将他删除。也可以从少数类的角度来处理:对于少数类样本,如果其大部分k近邻样本都是少数类,则将其多数类近邻删除。-人工智能安全人工智能安全12 把多数类样本转换为少数类 Condensed Nearest Neighbor(CNN)对点进行KNN分类,如果分类错误,则将该点作为少数类样本。在实际运用中,选择比较小的K。-人工智能安全人工智能安全13 把多数类样本转换为少数类或剔除 Near Miss(NM)NearMiss-1:对于每个多数类样本,计算其与最近的三个少数类样本的平均距离,选择最小距离对应的多数类样本。NearMiss-2:与NearMiss-1相反,计算与最远的三个少数类样本的平均距离,并选择最小距离对应的多数类样本。NearMiss-3:对每个少数类样本,选择与之最接近的若干个多数类样本。NearMiss-1针对数据分布的局部特征;NearMiss-2针对数据分布的全局特征。NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本,而在离群的少数类附近找到更少的多数类样本。-人工智能安全人工智能安全14 Tomek Links方法 如果有两个不同类别的样本,它们的最近邻都是对方,也就是A的最近邻是B,B的最近邻是A,那么A,B就是Tomek link。数学语言:两个不同类别的样本点xi和xj,它们之间的距离表示为d(xi,xj),如果不存在第三个样本点xl使得d(xl,xi)d(xi,xj)或者d(xl,xj)d(xi,xj)成立,则称(xi,xj)为一个Tomek link -人工智能安全人工智能安全151234 -人工智能安全人工智能安全16Tomek Link Removal处理方法:把所有Tomek link都删除掉,即对于Tomek link的两个样本,如果有一个属于多数类样本,就将该多数类样本删除掉。-人工智能安全人工智能安全17 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全18方法概览 SMOTE Borderline-SMOTE1 Borderline-SMOTE2 -人工智能安全人工智能安全19SMOTE Synthetic Minority Oversampling Technique(SMOTE)-人工智能安全人工智能安全20 该算法只是简单在两个近邻之间进行插值采样,而没有考虑到采样点附近的样本分布情况,从而可能产生趋向于其他类别的样本,以及样本重复等问题。-人工智能安全人工智能安全21Borderline-SMOTE1该算法根据少数类近邻样本的类别分布情况,判断该样本以后被误分的可能性,从而有选择地进行线性插值采样生成新的少数类样本。-人工智能安全人工智能安全22Borderline-SMOTE2在DANGER数据集中的点不仅从S集中求最近邻并生成新的少数类点,同时也在L数据集中求最近邻,并生成新的少数类点。这会使得少数类的点更加接近其真实值。-人工智能安全人工智能安全23 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全24组合采样SMOTE+Tomek Link RemovalSMOTE+ENN -人工智能安全人工智能安全25 SMOTE+Tome Links 首先,利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。然后剔除T中的Tomek links对。为什么需要这两者的组合呢?避免SMOTE导致原本属于多数类样本的空间被少数类“入侵”(invade),由Tomek links去除噪声点或者边界点。-人工智能安全人工智能安全26ABC -人工智能安全人工智能安全27 SMOTE+ENN和SMOTE+Tomek links方法的思路相似,包含两个步骤。1)利用SMOTE方法生成新的少数类样本,得到扩充后的数据集T。2)对T中的每一个样本使用kNN(一般k取3)方法预测,若预测结果和实际类别标签不符,则剔除该样本。-人工智能安全人工智能安全28 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全29 特征层解决不平衡数据分类的思路就是选择最合适的特征表示空间,再进行分类。“最合适”是指提高少数类及整体的分类正确性。把数据样本投影到这个“最合适”的子空间中,多数类可能聚集在一起或重叠在一起,那么就有利于减小数据的非平衡性。根据机器学习的特征理论,在特征空间的构造方面,存在两大类方法,即特征选择和特征提取。-人工智能安全人工智能安全30 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全31算法层面a)代价敏感:设置损失函数的权重,使得少数类判别错误的损失大于多数类判别错误的损失b)单类分类器方法:仅对少数类进行训练,例如运用SVM算法c)集成学习方法:即多个分类器,然后利用投票或者组合得到结果。-人工智能安全人工智能安全32代价敏感算法 相关问题 正常、入侵检测错误时 代价是什么 以分类错误总代价最低为优化目标,能更加关注错误代价较高类别的样本,使得分类性能更加合理。实现方法:一是,改变原始的数据分布来得到代价敏感的模型;二是,对分类的结果进行调整,以达到最小损失的目的;三是,直接构造一个代价敏感的学习模型。-人工智能安全人工智能安全33 代价矩阵优化目标最优的Bayes预测就是把x分为使得R(i|x)最小化的类别k,即:K=argmin R(i|x),i=1,2,N其中R(i|x)是某个类别i的样本x的分类风险Metacost算法:教材 -人工智能安全人工智能安全34代价敏感SVM对于一个给定的训练数据集(x1,Y1,),(xn,yn),标准的非代价敏感支持向量机学习出一个决策边界普通SVM -人工智能安全人工智能安全35 偏置惩罚支持向量机(BP-SVM)-人工智能安全人工智能安全36 代价敏感教练损失支持向量机(CSHL-SVM)-人工智能安全人工智能安全37单分类器方法 密度估计法 基于聚类的方法 基于支持域的方法 -人工智能安全人工智能安全38SVM 单类支持向量机(OneclassSVM)支持向量数据描述(Support Vector Data Description,SVDD)-人工智能安全人工智能安全39 当多数类中存在明显簇结构时,使用聚类方法获得聚类结构有利于提高多数类轮廓描述的精度。-人工智能安全人工智能安全40集成学习的方法 典型的集成学习方法有Bagging、Boosting、Stacking SMOTEBagging SMOTEBoost -人工智能安全人工智能安全41Bagging Over Bagging:每次迭代时应用随机过采样在小类数据 Under Bagging:每次迭代时应用随机下采样在大类数据 SMOTEBagging:结合了SMOTE与bagging,先使用SMOTE生成更加全面的小类数据,然后应用bagging Asymmetric bagging:每次迭代时,全部小类数据保留,从大类数据中分离一个与小类数据一样大的子集 -人工智能安全人工智能安全42Boosting SMOTEBoost:结合了SMOTE方法代替简单的增加小类观察点的权重 BalanceCascade:是典型的双重集成算法,采用Bagging作为基本的集成学习方法,并在训练每个Boostrap数据时,使用AdaBoost作为分类算法。

    注意事项

    本文(人工智能安全-2-非平衡数据处理问题.ppt)为本站会员(eieieie)主动上传,三一文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知三一文库(点击联系客服),我们立即给予删除!

    温馨提示:如果因为网速或其他原因下载失败请重新下载,重复下载不扣分。




    经营许可证编号:宁ICP备18001539号-1

    三一文库
    收起
    展开