【CN109831448A】针对特定加密网页访问行为的检测方法【专利】
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 (43)申请公布日 (21)申请号 201910165406.8
(22)申请日 2019.03.05
(71)申请人 南京理工大学
地址 210094 江苏省南京市玄武区孝陵卫
200号
(72)发明人 华纯阳 曾昊
(74)专利代理机构 南京理工大学专利中心
32203
代理人 马鲁晋
(51)Int.Cl.
H04L 29/06(2006.01)
H04L 29/08(2006.01)
H04L 29/12(2006.01)
H04L 12/24(2006.01)
(54)发明名称
针对特定加密网页访问行为的检测方法
(57)摘要
本发明提出了一种针对特定加密网页访问
行为的检测方法,首先对某特定网页建立指纹
库,然后在复杂流量环境中根据指纹库中的内容
对特定网页进行特征的匹配,最后根据匹配结
果,对本次识别进行建模并得到相似度系数,最
终确定流量环境中是否存在访问行为。
本发明充
分利用了网页传输过程中的特点,具有较高的可
靠性以及稳定性。
权利要求书2页 说明书7页 附图1页CN 109831448 A 2019.05.31
C N 109831448
A
1.一种针对特定加密网页访问行为的检测方法,其特征在于,包括以下流程:
步骤1、对目标网页X进行访问,抓取访问X网页的流量,所述流量包括HTTPS加密流以及HTTP明文流;
步骤2、从TCP层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、该流资源个数、该流资源长度序列;
步骤3、提取HTTP明文流特征,并将其作为该网页的指纹库,所述特征包括DNS中的A记录名称、最大资源TCP重组后的字节数、资源的MD5值;
步骤4、采集待检测流量,根据步骤2、步骤3中的DNS中的A记录名称,提取出待检测流量中DNS协议内容中的IP地址,根据IP地址将待检测流量中不包含这些IP地址的流量过滤;
步骤5、设置时间窗口,以匹配到主流的时间为开始时间,以这个开始时间+10s的时间为结束时间,将步骤4中经过IP地址过滤并且在这个时间内开始的流量提取出来,作为本次对目标网页识别的流量集合;
步骤6、在步骤5的流量集合中,分别选择HTTP明文流、HTTPS加密流与指纹库中的相应特征进行匹配比较,最终得到n条HTTP明文流命中结果以及m条HTTPS加密流命中结果,并且每个结果对应命中的流中资源个数;
步骤7、建立网页访问流量识别模型,具体为:
T ’=M MR *AP coefficient *AE coefficient
式中,M MR 为匹配度系数的基准值,AP coefficient 为辅助明文流补偿系数,AE coefficient 为辅助密文流补偿系数,T ’采样相似度系数;
对采样相似度系数T ’作归一化,得到T记为相似度系数,其计算公式为:
T=min(T ',1)
当得到的T大于等于0.9,则表示识别到对特定网页的访问行为。
2.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,从TCP 层对步骤1中获得到的HTTPS加密流提取特征,并将其作为该网页的指纹库的具体方法为:
提取每一条HTTPS加密流的长度序列,并按时间顺序对其进行排列,排序为第一个的称为主流,其余的称为辅助流,分别记录每条流对应的DNS中的A记录名称,最终对每条得到的HTTPS流得到特征值为:DNS中的A记录名称、该流资源个数、该流资源长度序列。
3.根据权利要求2所述的针对特定加密网页访问行为的检测方法,其特征在于,提取的
HTTPS加密流的长度序列为:式中,表示flow这条流对应的第i个资源的长度,
具体为:其中,是传输第i个资源的第j个数据包的长度。
4.根据权利要求1所述的针对特定加密网页访问行为的检测方法,其特征在于,步骤7网页访问流量识别模型中匹配度系数的基准值M MR 具体计算公式为:
M MR =Sim encrypt (num)
权 利 要 求 书1/2页2CN 109831448 A。