Press "Enter" to skip to content

AppDNA:基于图深度学习的APP行为分析

1 为什幺做这个研究?

 

有两方面的原因,说明如下:

一方面, 数以百万级APP引出的挑战性和有价值的问题
APP的分类组织和管理
APP恶意性检测
APP的剽窃性检测
APP的个性化推荐和服务
另一方面, 当前研究现状梳理
基于代码级别的分析,主要研究方法,市面上已经陆续有一些针对特定任务 (比方说敏感信息泄露,权限滥用,剽窃等)的APP分析工具,方法的局限性就是 通用性不强,开销大。
基于预先定义特征的机器学习方法,主要研究方法,可以表示为:预先定义特征集+机器学习算法(SVM,NB,DBN, RNN),方法的局限性是不能全面地描述APP的行为,标签数据昂贵,应用场景有限。

怎幺做这个研究?

 

本论文的方法和逻辑是: 设计和实现APPDNA框架并且做多方面的应用实证与分析 。具体实施步骤如下:

第一步:提取APP函数调用图(FCG),利用市面上工具Soot和FlowDroid从APP中提取函数调用图。
第二步:函数调用图编码,这是本论文的创新点,论文作者通过设计和实现一个图编码算法把函数调用图转换成一个向量。(笔者认为,这是可以继续思考和挖掘的点)。
第三步:利用无监督深度学习做特征表示学习,采用无监督的深度自编码器从图编码后的向量中学习到一个64维的紧凑表示,作为表示学习到的特征集。
第四步:基于表示学习的特征集进行多方面应用实证和分析,包括恶意性程序检测(二元分类问题),应用程序功能分类(多分类问题),APP版本检测(基于距离相似度分析)等多应用场景实证。

这个研究是什幺?

 

这个研究是:APPDNA——基于图深度学习的APP行为分析(画像)。 这个研究的关键词:APPDNA框架(作者自创),图编码算法(作者自创),深度学习,基于代码级别APP行为分析 这个研究的结果集:

APP恶意检测:针对4024个样本时5.06秒和准确度93.07%
APP恶意程序类型分类:针对570个恶意样本分类21种类型,耗时0.83秒,准确度是82.3%
APP功能分类:针对9730个样本分类7种类型,准确度是33.3%

这个研究的启发?

 

阅读本文,笔者有两点启发: 1 图结构的编码,可以深入研究和跟踪 利用图数据结构,描述事物或者对象的关系和属性,如何设计一种合适的图编码算法以实现图数据结构的向量化,同时,又要最大程度地保持图中描述的关系和属性。 2 相比较人为特征设计或者针对特定问题的而预先定义的特征集,如何实现特征的自动学习和表示,利用深度学习的方法来实现,根据是否存有标签,选择无监督和有监督的深度学习算法。 3 通过这篇论文做的研究,引起了我思考一个问题, 如何对APP市场进行更好地和更有效地管理? (欢迎感兴趣的朋友交流和探讨)

 

5 论文阅读思维导图

 

 

论文下载链接:

AppDNA+App+Behavior+Profiling+via+Graph-based+Deep+Learning

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注