人工智能安全-2-非平衡数据处理问题.ppt
《人工智能安全-2-非平衡数据处理问题.ppt》由会员分享,可在线阅读,更多相关《人工智能安全-2-非平衡数据处理问题.ppt(42页珍藏版)》请在三一文库上搜索。
1、 -人工智能安全人工智能安全1 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全2非平衡数据分类问题 在网络信息安全问题中,诸如恶意软件检测、SQL注入、不良信息检测等许多问题都可以归结为机器学习分类问题。这类机器学习应用问题中,普遍存在非平衡数据的现象。-人工智能安全人工智能安全3 产生的原因 攻击者的理性特征使得攻击样本不会大规模出现。警惕性高的攻击者,会经常变换攻击方式避免被防御方检测出来。少数类样本的信息量比多数类要少得很多。-人工智能安全人工智能安全4 -人工智能安全人工智能安全5 非平衡数据对各种分类器的影响 KNN B
2、ayes 决策树 Logistic回归当用于非平衡数据分类时,为了最大化整个分类系统的分类精度,必然会使得分类模型偏向于多数类,从而造成少数类的分类准确性低。-人工智能安全人工智能安全6 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全7处理方法 -人工智能安全人工智能安全8 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全9欠抽样欠抽样方法通过减少多数类样本来提高少数类的分类性能。常见的欠采样方法有随机欠采样、启发式欠采样等。随机欠采样通过随机地去掉一些多数类样本来减小
3、多数类的规模,缺点是会丢失多数类的一些重要信息,不能够充分利用已有的信息。-人工智能安全人工智能安全10 启发式欠采样基本出发点是保留重要样本、有代表性的样本,而这些样本的选择是基于若干启发式规则。经典的欠采样方法是邻域清理(NCL,Neighborhood cleaning rule)和Tome links法,其中NCL包含ENN,典型的有以下若干种。-人工智能安全人工智能安全11 Edited Nearest Neighbor(ENN)对于多数类的样本,如果其大部分k近邻样本都跟它自己本身的类别不一样,就将他删除。也可以从少数类的角度来处理:对于少数类样本,如果其大部分k近邻样本都是少数类
4、,则将其多数类近邻删除。-人工智能安全人工智能安全12 把多数类样本转换为少数类 Condensed Nearest Neighbor(CNN)对点进行KNN分类,如果分类错误,则将该点作为少数类样本。在实际运用中,选择比较小的K。-人工智能安全人工智能安全13 把多数类样本转换为少数类或剔除 Near Miss(NM)NearMiss-1:对于每个多数类样本,计算其与最近的三个少数类样本的平均距离,选择最小距离对应的多数类样本。NearMiss-2:与NearMiss-1相反,计算与最远的三个少数类样本的平均距离,并选择最小距离对应的多数类样本。NearMiss-3:对每个少数类样本,选择与
5、之最接近的若干个多数类样本。NearMiss-1针对数据分布的局部特征;NearMiss-2针对数据分布的全局特征。NearMiss-1倾向于在比较集中的少数类附近找到更多的多数类样本,而在离群的少数类附近找到更少的多数类样本。-人工智能安全人工智能安全14 Tomek Links方法 如果有两个不同类别的样本,它们的最近邻都是对方,也就是A的最近邻是B,B的最近邻是A,那么A,B就是Tomek link。数学语言:两个不同类别的样本点xi和xj,它们之间的距离表示为d(xi,xj),如果不存在第三个样本点xl使得d(xl,xi)d(xi,xj)或者d(xl,xj)d(xi,xj)成立,则称(
6、xi,xj)为一个Tomek link -人工智能安全人工智能安全151234 -人工智能安全人工智能安全16Tomek Link Removal处理方法:把所有Tomek link都删除掉,即对于Tomek link的两个样本,如果有一个属于多数类样本,就将该多数类样本删除掉。-人工智能安全人工智能安全17 现象与原因 非平衡数据处理方法概览 欠采样 过采样 混合采样 特征层 算法层面提纲 -人工智能安全人工智能安全18方法概览 SMOTE Borderline-SMOTE1 Borderline-SMOTE2 -人工智能安全人工智能安全19SMOTE Synthetic Minority
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 安全 平衡 数据处理 问题
链接地址:https://www.31doc.com/p-21712643.html