基于LSTM的Windows恶意软件检测

新知榜官方账号

2023-07-27 10:27:23

前言

作为安全研究人员的基本功之一，我们通过分析程序所有的系统API调用就能大致知道程序的作用，或者至少可以知道程序是正常程序还是恶意软件。因为系统API调用的序列反映出来是软件特定的行为顺序，这可以作为检测恶意软件的依据，所以检测程序是否恶意的关键是要找到一种合适的方法来处理API调用的顺序。在深度学习中有一种方法称为LSTM对于处理时序数据非常有效，本文就是基于LSTM来进行检测。本文会详细介绍样本获取及特征、标签的处理流程，LSTM的原理并通过实战展示如何应用AI技术检测Windows恶意软件。

LSTM

LSTM是一种特殊的RNN，能够学习长期依赖性。它被明确设计用来避免长期依赖性问题。所有RNN都具有神经网络的链式重复模块。在标准的RNN中，这个重复模块具有非常简单的结构，例如只有单个tanh层，如下所示作为一种特殊的RNN，LSTM也具有这种类似的链式结构，但重复模块具有不同的结构。不是一个单独的神经网络层，而是四个，并且以非常特殊的方式进行交互。把上图中的重要标记拿出来图中黄色类似于CNN里的激活函数操作，粉色圆圈表示点操作，单箭头表示数据流向，箭头合并表示向量的合并（concat）操作，箭头分叉表示向量的拷贝操作。LSTM结构的关键是细胞状态，用贯穿细胞的水平线表示。细胞状态像传送带一样。它贯穿整个细胞却只有很少的分支，这样能保证信息不变的流过整个RNNs。细胞状态如下图所示LSTM网络能通过一种被称为门的结构对细胞状态进行删除或者添加信息。门能够有选择性的决定让哪些信息通过。其实门的结构很简单，就是一个sigmoid层和一个点乘操作的组合。如下图所示因为sigmoid层的输出是0-1的值，这代表有多少信息能够流过sigmoid层。0表示都不能通过，1表示都能通过。一个LSTM里面包含三个门来控制细胞状态,这三个门分别称为忘记门、输入门和输出门。LSTM的第一步就是决定细胞状态需要丢弃哪些信息。这部分操作是通过一个称为忘记门的sigmoid单元来处理的。它通过查看ht-1和xt信息来输出一个0-1之间的向量，该向量里面的0-1值表示细胞状态Ct-1中的哪些信息保留或丢弃多少。0表示不保留，1表示都保留。忘记门如下图所示。比如我们试图拥有所有的语句来预测下一个单词，cell状态可以包括当前主题任务的性别，这样我们在下一句话输出时就能准确的使用代词“他”，“她”还是“它”！下一步是决定给细胞状态添加哪些新的信息。这一步又分为两个步骤，首先，利用ht-1和xt通过一个称为输入门的操作来决定更新哪些信息。然后利用ht-1和xt通过一个tanh层得到新的候选细胞信息C~t，这些信息可能会被更新到细胞信息中。这两步描述如下图所示。下面将更新旧的细胞信息Ct-1，变为新的细胞信息Ct。更新的规则就是通过忘记门选择忘记旧细胞信息的一部分，通过输入门选择添加候选细胞信息C~t的一部分得到新的细胞信息Ct。更新操作如下图所示更新完细胞状态后需要根据输入的ht-1和xt来判断输出细胞的哪些状态特征，这里需要将输入经过一个称为输出门的sigmoid层得到判断条件，然后将细胞状态经过tanh层得到一个-1~1之间值的向量，该向量与输出门得到的判断条件相乘就得到了最终该RNN单元的输出。该步骤如下图所示

实战

整体流程如下所示构建数据集从AI的角度看，AI的三个要素是数据集、模型、算力。需要我们做的就是数据集和模型两部分。首先是数据集的部分，我们需要创建相关的数据集。如同我们之前提到的，我们需要创建windowpe恶意软件的API调用序列数据集。我们首先从github爬取或者下载样本文件，一方面用VirusTotalService检测，用于给样本打标签，一方面将样本提交到CuckooSandbox获取恶意软件的windowsAPI调用序列，处理完成后就得到了实验所需的数据集。这一部分比较简单，属于数据预处理的环节，我们直接看处理后得到的结果。通过CuckooSandbox获取恶意软件的windowsAPI调用序列如下所示通过VirusTotalService检测得到的结果如下所示数据集有了，接着我们开始搭建标准的LSTM模型来进行检测。搭建模型首先导入所需的库文件将API调用序列以及分类结果合并在一起最后一行相当于是将数据集划分成了两类，如果是Virus则打标签1，否则打标签为0我们看看virus和非virus的分布情况合并的数据集还不能直接输入给LSTM模型，目前这仅是一个文本语料库，我们需要将其向量化，创建一个基于tokenization的序列作为输入，这一步我们直接使用keras提供的keras.preprocessing.text.Tokenizer即可实现下面的代码主要用到了fit_on_texts，这是为了基于API_calls列表更新内部vocabulary;texts_to_sequences则是为了将文本转为整数序列然后搭建一个典型的LSTM模型使用均方误差(mse作为损失函数，优化器用rmsprop,度量指标用accuracy)开始训练训练完毕接着我们在测试集上进行测试，使用混淆矩阵来评估模型的性能这个矩阵怎么看呢？对于二分类问题来说，左上角是真阳性TP,右上角是假阳性FP,左下角是假阴性FN,右下角是真阴性TN。从上面的矩阵看到，其TP,TN都挺高，说明模型训练得不错

总结

本文使用的LSTM基于API调用序列进行恶意软件检测，如果师傅们有兴趣，在两方面都可以进一步做些不同的尝试，比如1）模型选择方面，如果还是针对时序特征的话，可以试试其他的RNN比如GRU等2）在特征选择方面除了API调用序列这种特征，其他可以考虑的序列特征还有汇编文件的指令序列，比如在本实验基础上我们可以用gdb等工具直接由二进制文件生成汇编文件，提取指令序列，在这些序列上应用和实战中相同的处理流程即可3）自己不愿意动手从二进制文件样本开始处理数据的话，可以尝试直接用微软在kaggle竞赛中放出来的，链接在这里：https://www.kaggle.com/c/malware-classification，数据中对于每个恶意样本，给出了两个文件，分别是.asm文件和.bytes文件4）除了上述特征外，还可以考虑以下特征：VirtualAdressandSizeoftheIMAGE_DATA_DIRECTORYOSVersionImportAdressTableAdressRessourcesSizeNumberOfSections(weshouldlookintosectionnames)LinkerVersionSizeofStackReserveDLLCharacteristicsExportTableSizeandAdressAddressofEntryPointImageBaseNumberOfImportDLLNumberOfImportFunctionsNumberOfSections等当然，具体选择什么特征，得根据手头的样本、掌握的AI技术等具体情况而定。

本页网址：https://www.xinzhibang.net/article_detail-8744.html

寻求报道，请

关键词

LSTM API调用序列恶意软件检测 AI技术 Windows

分享至微信：

相关工具

CodeWhisperer

亚马逊最新发布的免费AI编程助手

Boxy

CodeSandbox推出的AI编程助手

Fig

下一代命令行工具（内置AI终端命令自动补全）

Ghostwriter

知名在线编程IDE Replit推出的AI编程助手

Hocoos

无代码AI智能在线快速创建网站

Fronty

AI智能将图片转换成HTML和CSS代码

GPTs功能测试能打败魔法的，还得是魔法

GPTs功能测试能打败魔法的，还得是魔法解决token限制问题的方法虽然之前也有很多，但都无法完成写长篇的任务。11月7日openai宣布可以做GPTs（基于GPT的应用），这事理论上才稳了。打开Explore，最上面就是CreateaGPT左边是用对话创建应用，也就是发布会上，展示用人话几分钟就做

分类标签 GPTsAIknowledge设定商量小说

12-01 12:26

如何在本地部署AutoGPT

简介AutoGPT是Github上的一个免费开源项目，结合了GPT-4和GPT-3.5技术，通过API创建完整的项目。与ChatGPT不同的是，用户不需要不断对AI提问以获得对应回答，在AutoGPT中只需为其提供一个AI名称、描述和五个目标，然后AutoGPT就可以自己完成项目。它可以读写文件、浏

分类标签 AutoGPT本地部署AI

11-28 02:06

人工智能在编程中的应用

人工智能在编程中的应用人工智能在编程中可以解决一些重复性、流程化、有固定模式的编程任务，比如代码重构、自动完成功能、误差检查、代码格式化等。这些任务相对简单、固定，人工智能可以通过模式识别和其他技术学习并执行这些任务，从而减轻人的脑力劳动，提高编程效率。然而，对于那些需要深层次思考、创新、灵活应对复

分类标签人工智能编程程序员

11-22 22:29

提示词优化工具

提示词优化工具近几个月来，GPT和MJ作为提示词优化工具被广泛使用，但是很多人仍然无法写出自然流畅的提示词，质疑AI的自然度和水平。不过，现在有一款自动生成提示词的工具可以帮助你轻松解决这个问题。例如，如果你需要使用“星域”这个词，通常会直接输入，但是这款工具可以重新生成全新的提示词，让你的文案更具

分类标签提示词优化工具AI

11-15 16:24

ChatGPT和无际Ai模型在编程学习和开发中的应用

ChatGPT和无际Ai模型在编程学习和开发中的应用编程学习和开发是当今社会中非常重要的技能。在这个过程中，我们经常需要解决各种各样的问题，比如代码编写、调试、优化等。为了帮助我们更好地完成这些任务，ChatGPT和无际Ai等大模型为我们提供了许多帮助。1. 代码示例ChatGPT和无际Ai模型可以

分类标签 ChatGPT无际Ai编程学习开发模型

11-02 10:02

OpenAI发布ChatGPT：一款强大的人工智能聊天引擎

OpenAI发布ChatGPT：一款强大的人工智能聊天引擎OpenAI发布了ChatGPT，对就那个漂洋过海万里来到中国互联网并在近期掀起浪潮的AI聊天引擎。因为它太像一个真人了，他可以详细地回答问题或者起草一份合同、甚至编译另一套全新的AI算法的代码，因此在在公众中引起了很大的关注。它可能会彻底改

分类标签 OpenAIChatGPT人工智能

10-23 01:34

谷歌投资AnthropicAI测试ChatGPT竞品Claude，硅谷AI之战升温

谷歌投资AnthropicAI测试ChatGPT竞品Claude，硅谷AI之战升温让所有打工人担忧自己饭碗不保的ChatGPT，也让坐在硅谷头部的科技巨头们开始慌了。当地时间2月3日，据报道，谷歌向人工智能初创公司AnthropicAI投资了约3亿美元，后者正在测试ChatGPT的竞品Claude。

分类标签谷歌AnthropicAIChatGPT硅谷AI竞品

10-23 01:32

微软将在Windows11中推出AI助手MicrosoftCopilot

微软将在Windows11中推出AI助手MicrosoftCopilot如今与以往不同，Windows11即将被AI“改写”。9月21日，在微软于纽约曼哈顿举行的硬件和AI功能发布活动上，即将接手Windows11和Surface业务的微软首席副总裁YusufMehdi近日推出了一款搭载全新Micr

分类标签微软Windows11AI助手MicrosoftCopilotGPT-4OpenAI

10-23 01:30

昆仑万维科技股份有限公司的主营业务和发展战略

公司简介昆仑万维科技股份有限公司的主营业务为综合性互联网增值服务，旗下包括平台昆仑在线、快乐游、软件门户Brothersoft.com、手机门户1mobile.com等。2019年公司荣获“2019年中国互联网百强企业排名24”、“北京民营企业百强2018年度第76位”等荣誉。移动游戏平台全球移动游

分类标签昆仑万维互联网增值服务移动游戏平台GXC游戏社区平台无人驾驶市场虚拟现实社交网络StarMaker

10-22 16:32

OpenAI的GPT-4是深度学习规模扩大的里程碑事件

OpenAI最新版本的语言模型GPT-4是深度学习规模扩大的里程碑事件。该公司创始人SamAltman称，GPT-4背后的驱动力是JakubPachocki。尽管OpenAI将这一成就归功于团队的集体努力，但在Altman看来，要是没有Pachocki，他们不会取得今天这样的成就。Pachocki是

分类标签 OpenAIGPT-4深度学习

10-22 16:30

ChatGPT Midjourney 文心一言文心一格 bing新必应 Stable diffusion 稿定设计墨刀AI mastergo Adobe Firefly runway