QQ泡沫乐园 · 免费提供游戏辅助,破解软件,活动资讯,喜欢记得收藏哦!
综合软件_线报活动_游戏辅助_最新电影_最优质的的辅助分享平台

基于扫描器的检测机制对反病毒引擎关系进行族群划分

网络 2022-12-29 14:05

Android安全论文精选(49)——恶意应用测量34(1-34)一、前言

论文介绍:Machine-Learning based analysis and classification of Android malware signatures

期刊: 2019 Future Generation Computer Systems(CCF-C)

二、论文剖析1.摘要(1)重点

用SignatureMiner剖析并归一化了超过25万个安卓相关的多扫描器的恶意应用签名哪些是多扫描器多个反病毒检测器多同一个应用分别给出判定的系统深度剖析并将恶意应用分类为广告应用、危害性应用、未知应用基于恶意应用的跨引擎关系进行部族界定哪些是跨引擎关系基于扫描器的检查机制对扫描器进行部族界定用机器学习将应用界定为广告应用、危害性应用具有较好的性能基于逻辑回归分类器对反病毒引擎方向提出看法

(2)介绍

多检测器的恶意软件测量系统常常会出现检测器出现分歧的情况,使用的特点也是常常互相矛盾本文通过剖析了8万个恶意应用,以及其26万个特点,将应用分成广告应用、危害性应用和未知应用并借助机器学习和图社群算法将未知应用进一步界定到广告和危害性当中哪些是图社群算法

2.文章结构(1)工作量

分析了8万个恶意应用,得到26万特点数据清洗用SignatureMiner挖掘特点,并将特点清洗、标准化,转化为标准化的恶意家族名用于后续剖析和处理特点转化为家族名这个说法很奇怪家族界定通过对引擎范围内对恶意家族以及其互相关系进行剖析,将恶意应用分为41个家族并界定到广告应用、危害性应用、未知应用三个大类中家族关系剖析按照检测器及其检查机制,通过使用图社群算法,发现恶意家族之间的关系;发现有些恶意应用类型更接近,有些检测器专注于广告应用或则危害性应用的检查,导致了多检测器系统的不一致性未知应用分类用带Lasso正则化的逻辑回归和随机森林算法将未知应用界定到广告应用和危害性应用当中;解释了反病毒软件各自擅长测量哪种恶意应用

(2)用SignatureMiner剖析家族类型

数据集来源TACYT规模82,866数据类型代码和商店中的元数据特性用多扫描器系统和内部系统对应用进行扫描对流行反病毒算计的结果进行进一步调查用SignatureMiner设置规则使其输出相同的名子规则是正则表达式

(3)发现恶意家族

分类标准想要通过大量广告赚钱广告应用采用攻击性和侵犯性技术危害性应用难以使用未知应用

(4)恶意软件系列类别的剖析和看法

有16152个应用在多个引擎中被分为一种家族类型因为个别引擎的不确定决定,三分之一的应用程序没有明晰定义的恶意软件类别。有时,两个引擎对同一个恶意软件类使用不同的名称,但一般情况下,AV引擎对一个软件的恶意软件类型不一致恶意软件类别的相关性

广告类型和有害应用之间关联很低分类器在分辨广告应用和有害应用有很坚定的想法确认未知类别包含来自其他类别的样本,AV引擎难以指定。实际上,有害应用程序的较大相关值(0.44)表明这种检查可能比广告软件应用程序(0.3)更有害。类冗余的图社区搜索图的建立使用的矩阵A82,866 × 61应用和引擎的关联B82,866 × 41应用和家族的关联D广告应用、有害应用、未知应用与彼此的关联

步骤估算B的相关矩阵Corr(B)一个应用被标签为多个家族,那么觉得这多个家族存在相关性关联性估算所有出现家族A标签的应用中,有多少个出现家族B应用的标签,就是家族A和家族B的关联度定义图G=(N,E)拥有41个节点边的权重是家族的关联度图的临接矩阵是Corr(B)用节点的相关值对其进行分组,为了隔绝噪声,将关联值高于阀值的值设置为0图5(a)的情况勾勒了一个噪音图,其中显示的社区弱相关(相关阀值分别为0.2)。本质上,除非容许足够小的相关阀值,否则大多数恶意软件家族都是孤立的。

在图5(b)中,使用较高的阀值,先前的噪音消失,留下一个基本独立的图,尽管这么,图中有三个相关的群落:一个较大的群落由三个未知的特点(AppUndersired、Artemis和其他)和一个有害的恐吓(通用标记)组成,还有两个较小的群落,FakeFlash FakeApp和浮游生物Apperhand

图5(c)的树形图进一步说明了每位家族类别之间的成对关系,显示了个别类别广告软件之间的某种程度的相像程度,以及与未知类别中其他类别的相像程度。获得了两个十分接近的落,即FakeFlash FakeApp和Plankton Apperhand,具有的中高相关值分别为0.61和0.72。

宝宝会走了家长危险_网站提示危险网站_恶意网站会有什么危险

除上述两个社区外,大多数恶意软件家族类别之间存在较低的相关值,但个别有害和未知家族之间仍存在一些有趣的关系,可供第6节的ML分类算法使用。根据测量方案对AV进行分组矩阵B的转置的相关性作为邻接矩阵其实文章没有说,但肯定涉及到矩阵A这儿提取的应当是分类器和家族的关联度基于各个部族的主要分类家族进行颜色标记

图6(a)显示了结果图,其中包含依据组着色的节点(相关阀值设置为0.35)。一般来说,我们观察到大多数AV引擎属于特定社区,而其他一些(棕色)是孤立的那些孤立的AV是:AV39、AV40和AV22。四个主要的AV引擎社区一个与广告软件相关的群体(蓝色),其最常见的测量是Revmob、Adware、Airpush或startApp第二个有害的AVs群(red),其主要家族测量为特洛伊木马、第一个混和组(绿色)显示的测量结果主要是浮游生物、广告软件或特洛伊木马第二个混和组(橙色)显示的测量结果主要是其他种类的,如Deng、Airpush或Leadbolt。一些引擎一般会形成类似的测量模式,或者通过关注特定的系列(前面提及的更广泛的类别),或者通过进行更多不同的检查孤立的AV引擎倾向于集聚未知类别中的所有系列,这些系列更具体地只针对一个或极少几个AV引擎。因此,这些孤立的AV引擎难以生成确切的测量信息,并且使用特别通用的测量名称,如Heur、GEN或PUA

显示AV之间的成对比较上述独立的AV确实与其他AV分离,而其他AV十分接近,如AV61和AV60。组中使用的颜色与图形社区一致

(5)识别未知类别恶意软件

网站提示危险网站_宝宝会走了家长危险_恶意网站会有什么危险

本节致力借助机器学习(ML)算法进一步剖析未知类别中的恶意软件系列训练一个ML分类器来辨识每位数据样本(即每位应用程序)的恶意软件类别,并提供一个二进制决策(广告软件或有害软件),仅使用61个AV引擎的决策作为特点分类器有两个目标提供基于每位AV决策的快速分类分配系统进一步确定什么AV引擎在检查每位恶意软件家族(广告软件与有害软件)方面更强大两个ML分类算法Logistic回归(LR),由于其能力的机率恐怕和可解释性随机森林(RF)旨在最大化预测精度和F1得分测度建立基准数据集的方式假定数据集中的所有应用程序都对用户或恶意软件(软广告软件或危险有害软件)表示某种类型的危险,因为它们已被起码一个AV引擎标记被一个检测器标记的应用被直接分配到广告或则害处软件中多个AV引擎标签的情况下,我们使用多数投票将广告软件或有害标签分配给每位Android应用程序特殊情况,两个引擎一个说广告一个说有害,那么判断为未知在ML模型中使用AVs作为特点,可以辨识什么AVs在检查每位家庭类别时更准确:广告软件还是有害软件算法调教对逻辑回归算法进行了正则化,以增强其在AV引擎贡献剖析中的性能正则化通过向优化函数添加约束来执行嵌入特点选择,该约束促使相关性较低的AV的贡献降低到零,而其他引擎则依照其对有害检查(正贡献)或广告软件(负贡献)的相关性与重量相关。Logistic回归中有几种正则化方案,其中使用最广泛的两种是魔棒(1)和 山脊(2) ,分别按照系数的范数和范数平方惩罚属性。我们选择魔棒正则化,因为它在应用于二进制特征集时一般表现得更好。超参数调整使用精典的10倍交叉验证进行这有助于调整逻辑回归中的正则化参数随机森林中的树数结果

三、总结

这篇文章主要使用的特点就是引擎的标签借助标签来判定家族之间的关系借助标签来分簇引擎最终借助标签给引擎打分

三、结语

论文的详尽思维导图解析已储存在知识星球:安全后厨,为了便捷你们查阅,针对制订模块输入对应标题即可,例如回复:Android恶意应用,即可获得恶意应用论文集