【CN109905385A】一种webshell检测方法、装置及系统【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910123769.5
(22)申请日 2019.02.19
(71)申请人 中国银行股份有限公司
地址 100818 北京市西城区复兴门内大街1
号
(72)发明人 俞学浩 蔡传智 王倩
(74)专利代理机构 北京三友知识产权代理有限
公司 11127
代理人 李辉
(51)Int.Cl.
H04L 29/06(2006.01)
G06F 17/27(2006.01)
(54)发明名称
一种webshell检测方法、
装置及系统(57)摘要
本说明书实施例公开了一种webshell检测
方法、装置及系统,所述方法包括获取待检测网
页的PHP脚本数据对应的第一中间字节码数据;
利用构建的监督学习算法对所述第一中间字节
码数据进行识别,获得所述待检测网页的
webshell检测结果,其中,所述监督学习算法包
括对确定为webshell的PHP脚本数据以及确定为
正常的PHP脚本数据对应的第二中间字节码数据
进行训练得到的webshell检测模型。
利用本说明
书各实施例,可以提高PHP webshell检测的准确
性。
权利要求书2页 说明书13页 附图3页CN 109905385 A 2019.06.18
C N 109905385
A
权 利 要 求 书1/2页CN 109905385 A
1.一种webshell检测方法,其特征在于,包括:
获取待检测网页的PHP脚本数据对应的第一中间字节码数据;
利用构建的监督学习算法对所述第一中间字节码数据进行识别,获得所述待检测网页的webshell检测结果,其中,所述监督学习算法包括对确定为webshell的PHP脚本数据以及确定为正常的PHP脚本数据对应的第二中间字节码数据进行训练得到的webshell检测模型。
2.根据权利要求1所述的方法,其特征在于,所述利用构建的监督学习算法对所述第一中间字节码数据进行识别,包括:
基于预设的分词库,利用TF-IDF算法对所述第一中间字节码数据进行特征提取,获得所述待检测网页的特征数据,其中,所述分词库包括对确定为webshell的PHP脚本数据以及确定为正常的PHP脚本数据对应的第二中间字节码数据进行分词处理后获得分词数据;
利用构建的监督学习算法对所述待检测网页的特征数据进行识别。
3.根据权利要求2所述的方法,其特征在于,所述利用TF-IDF算法对所述第一中间字节码数据进行特征提取,包括:
将所述第一中间字节码数据进行分词处理,获得所述待检测网页的PHP脚本数据对应的第一分词集合;
利用TF-IDF算法计算所述分词库中每个词相对所述第一分词集合的TF-IDF值;
将所述TF-IDF值按照相应的词在分词库中的位置进行一一对应,获得由TF-IDF值组成的向量,将该向量作为所述待检测网页的特征向量。
4.根据权利要求2或3所述的方法,其特征在于,所述预设的分词库采用下述方式构建:
获取确定为webshell的PHP脚本数据以及确定为正常的PHP脚本数据,获得样本集合;
将所述样本集合中的各脚本数据转换成中间字节码数据,获得各脚本数据对应的第二中间字节码数据;
对所述第二中间字节码数据进行分词处理,获得各脚本数据对应的第二分词集合;
将所述第二分词集合进行融合处理,获得分词库。
5.根据权利要求4所述的方法,其特征在于,所述webshell检测模型采用下述方式训练得到:
利用TF-IDF算法计算所述分词库中每个词相对所述第二分词集合的TF-IDF值,获得相应脚本数据的特征向量;
利用监督学习算法对所述确定为webshell的PHP脚本数据以及确定为正常的PHP脚本数据所对应的特征向量进行学习,获得webshell检测模型。
6.根据权利要求1所述的方法,其特征在于,所述待检测网页的webshell检测结果包括待检测网页是否属于webshell网页或者属于webshell网页的概率。
7.一种webshell检测装置,其特征在于,所述装置包括:
数据获取模块,用于获取待检测网页的PHP脚本数据对应的第一中间字节码数据;
检测模块,用于利用构建的监督学习算法对所述第一中间字节码数据进行识别,获得所述待检测网页的webshell检测结果,其中,所述监督学习算法包括对确定为webshell的PHP脚本数据以及确定为正常的PHP脚本数据对应的第二中间字节码数据进行训练得到的webshell检测模型。
2。