基于域名的恶意行为检测技术
基于域名系统的网络安全测量技术研究
基于域名系统的网络安全测量技术研究第一章概述随着互联网的不断发展,网络安全问题日益引人注目。
域名系统(Domain Name System,DNS)是互联网的核心基础设施之一,安全测量技术也是现代网络安全的重要研究方向之一。
本文将对基于DNS的网络安全测量技术进行探讨和研究,以提高网络安全保障水平。
第二章 DNS协议及其安全问题DNS协议是互联网上的一个重要协议,它提供了域名与IP地址之间的转换服务。
然而,DNS协议也具有许多安全问题,比如DNS缓存投毒攻击(DNS cache poisoning attack)、DNS重叠世界攻击(DNS Replay Attack)、DNS前缀劫持攻击(DNS Prefix Hijacking Attack)等等。
为了解决这些问题,研究人员也提出了许多相应的安全防护措施,比如DNSSEC(Domain Name System Security Extensions)安全扩展、DNS Fingerprint等等。
第三章基于DNS的攻击溯源技术在互联网上发现攻击行为后,及时将攻击者的IP地址追踪到具体的物理位置是网络安全中必不可少的一环。
基于DNS的攻击溯源技术提供了一种有效的方法,它能够对网络安全事件的来源进行更加准确和及时的追踪。
目前,研究人员对基于DNS的事实攻击溯源技术进行了许多研究,比如Anycast、DNS嗅探、NameError技术等等。
第四章基于DNS的恶意域名检测在互联网上,恶意域名是带有病毒、木马、钓鱼等恶意攻击的域名。
为了保护网络安全,检测和防范这些恶意域名也成为重要的研究方向之一。
基于DNS的恶意域名检测方法主要有以下几类:基于关键字的检测方法、基于IP地址的检测方法、基于DNS解析记录的检测方法等等。
这些方法可以通过对域名的解析过程进行监控和分析,在恶意域名出现时及时做出相应的反应。
第五章基于DNS的网络安全测量系统为了对网络中的安全问题进行实时监测和检测,基于DNS的网络安全测量系统应运而生。
计算机安全中的入侵检测与恶意代码分析技术原理解析
计算机安全中的入侵检测与恶意代码分析技术原理解析计算机安全是当今社会中极其重要的一个领域,随着计算机技术的迅速发展和广泛应用,计算机系统面临的风险也在不断增加。
入侵检测与恶意代码分析技术作为计算机安全领域中的重要工具,其原理和应用一直备受关注。
本文将重点围绕入侵检测与恶意代码分析技术的原理进行解析,旨在帮助读者全面了解这一领域的知识。
一、入侵检测技术的原理解析入侵检测技术是指通过对计算机系统的各种活动进行检测和分析,识别出潜在的安全威胁和异常行为。
其核心原理是通过对系统日志、网络流量、系统调用等数据进行实时监测和分析,以发现潜在的攻击并及时采取相应的防御措施。
入侵检测技术主要包括基于特征的检测、基于行为的检测和基于异常的检测三种方式。
1.基于特征的检测基于特征的检测是指通过事先确定的攻击特征或规则来进行检测和识别,其核心原理是将已知的攻击特征与实际的系统活动进行比对,从而识别出潜在的攻击。
这种方式主要包括签名检测和状态机检测两种方式。
签名检测是指通过预先建立的攻击特征库来检测和识别已知的攻击,其优点是准确性高,但缺点是对于新型的攻击无法有效的识别。
状态机检测是指通过对系统状态的变化进行监测和分析,以识别出系统中的潜在攻击。
这种方式的优点是能够处理未知的攻击,但其缺点是误报率较高。
2.基于行为的检测基于行为的检测是指通过对系统的正常行为进行建模,然后检测并识别与模型不符的行为。
其核心原理是通过对系统的行为特征进行建模,并对系统实际的行为进行对比分析,从而发现潜在的攻击。
这种方式的优点是能够识别出未知的攻击,并且误报率较低,但其缺点是对系统的资源消耗较大。
3.基于异常的检测基于异常的检测是指通过对系统的正常行为进行学习,然后检测并识别出与正常行为不符的异常行为。
其核心原理是通过对系统的正常行为进行学习和建模,然后对系统实际的行为进行比较分析,从而发现潜在的异常行为。
这种方式的优点是能够识别出新型的攻击,并且误报率较低,但其缺点是对系统的资源消耗较大。
dga恶意域名检测方法
第34卷㊀第5期2019年10月北京信息科技大学学报JournalofBeijingInformationScience&TechnologyUniversityVol.34㊀No.5Oct.2019文章编号:1674-6864(2019)05-0045-06DOI:10 16508/j.cnki.11-5866/n.2019 05 009DGA恶意域名检测方法蒋鸿玲ꎬ戴俊伟(北京信息科技大学信息管理院ꎬ北京100192)摘㊀㊀㊀要:针对目前DGA(domaingenerationalgorithm)恶意域名检测方法计算量较大㊁检测精确率不高等问题ꎬ提出了DGA恶意域名检测框架ꎮ首先对域名的字符统计特征和N ̄Gram模型特征进行分析ꎬ提取出区分度大的域名特征组合ꎻ然后利用正常域名和DGA恶意域名数据集训练不同的机器学习模型ꎬ如朴素贝叶斯㊁多层感知器和XGBoost(extremegradientboosting)模型ꎬ再用训练好的模型检测恶意域名ꎮ实验结果表明ꎬ采用域名的N ̄Gram模型特征的精确率和召回率都优于统计特征ꎬ多层感知器的精确率较高ꎬ误报率较低ꎬ其AUC(areaundercurve)值高于朴素贝叶斯和XGBoost模型ꎮ关㊀键㊀词:DGAꎻ统计特征ꎻN ̄Gramꎻ朴素贝叶斯ꎻ多层感知ꎻ极端梯度中图分类号:TP393㊀㊀㊀文献标志码:ADGAmaliciousdomainnamedetectionmethodJIANGHonglingꎬDAIJunwei(SchoolofInformationManagementꎬBeijingInformationScience&TechnologyUniversityꎬBeijing100192ꎬChina)Abstract:TosolvetheproblemsoflargecomputationandlowdetectionaccuracyofDGA(domaingenerationalgorithm)maliciousdomainnamedetectionmethodꎬaframeworkofDGAmaliciousdomainnamedetectionisproposed.FirstꎬthestatisticalfeaturesofdomainnamesandN ̄Grammodelfeaturesareanalyzedꎬandthefeaturesofdomainnameswithlargediscriminationareextracted.ThenꎬdifferentmachinelearningmodelsꎬsuchasNaiveBayesianꎬMultilayerPerceptronandXGBoost(extremegradientboosting)ModelꎬaretrainedusingnormaldomainnamesandDGAmaliciousdomainnamesdataset.Thenmaliciousdomainnamesaredetectedbythetrainedmodel.TheexperimentalresultsshowthattheaccuracyandrecallrateofN ̄Grammodelofdomainnamearebetterthanstatisticalfeatures.Theaccuracyrateofmulti ̄layerperceptronishigherandthefalsealarmrateislower.TheAUC(areaundercurve)valueofN ̄GrammodelishigherthanthoseofNaiveBayesianmodelandXGBoostmodel.Keywords:DGAꎻstatisticalfeatureꎻN ̄GramꎻnaiveBayesianꎻmultilayerperceptronꎻextremegradient收稿日期:2019 ̄06 ̄08基金项目:北京信息科技大学学校校科研基金(1925023)第一作者简介:蒋鸿玲ꎬ女ꎬ博士ꎬ讲师ꎮ0㊀引言近年来恶意程序的数量呈现逐年递增的趋势ꎬ并且越来越高级和复杂[1]ꎮ因为域名系统(domainnamesystemꎬDNS)在所有网络中都存在ꎬ并且通常不会被防火墙过滤[2]ꎬ攻击者常使用DNS来隐藏其恶意行为ꎬ维护恶意网络自身的健壮ꎮ恶意程序在感染了主机后ꎬ通常和远程的命令与控制服务器连接ꎬ攻击者可以直接控制命令与控制服务器ꎮ如在高级持续性威胁攻击(advancedpersistentthreatꎬAPT)[3]和僵尸网络中ꎬ被感染的主机会通过与远程的C&C服务器(commandandcontrolserver)连接ꎬ下载最新的恶意程序ꎬ或者获取恶意指令[4]ꎻ信息窃取等恶意程序会将窃取的信息发送给远程服务器等ꎻ垃圾邮件依赖DNS重定向网页[5]ꎮ这些恶意程序常通过域名来访问远程服务㊀北京信息科技大学学报第34卷器ꎬ而不用服务器的IP地址[6]ꎬ因而域名在恶意行为中发挥着重要的作用[7]ꎮ为了逃避检测ꎬ使得恶意网络更健壮ꎬ攻击者会采用domain ̄flux技术[8]ꎮdomain ̄flux技术是指恶意程序采用域名生成算法(domaingenerationalgorithmꎬDGA)ꎬ基于一个种子ꎬ如当前的日期ꎬ每天动态生成大量的域名ꎬ其中的一部分域名是被攻击者注册的有效域名ꎬ多个域名对应一个命令与控制服务器的IP地址[9]ꎮ被感染的主机查询大量自动生成的域名ꎬ并与其中少数几个建立连接ꎮ由于域名的数量很大ꎬ并且每天自动生成ꎬ很好地隐藏了攻击者的恶意网络ꎮ因而有效检测出DGA恶意域名ꎬ对发现恶意攻击具有重要的意义ꎮ当前检测基于DGA攻击的方法可以分为2类ꎮ一类是通过分析网络流量ꎬ检测DGA特定行为的方法ꎬ如Manos等[10]发现被同一个恶意程序感染的主机会呈现出相似的DNS查询行为ꎬ产生相似的NXDomain(域名不存在)响应ꎬ通过对相似行为聚类检测基于DGA的恶意程序ꎻReza等[11]分析可疑的组行为和可疑的DNS失败查询ꎬ并用负面声誉系统来检测采用domain ̄flux技术的僵尸网络ꎮ另一类是分析域名本身的特征ꎮ赵越[12]提出了基于语音和分组特性的DGA域名检测方法ꎬ着重考虑了DGA域名可读性较差以及分组较多的特性ꎬ结合DGA域名的短文本特性ꎬ提取域名的语音等方面特征ꎬ并根据这些特征使用随机森林分类器对域名集合进行分类ꎻStefano等[13]提取DGA域名中有意义字符比例㊁N ̄Gram字符串在字典中的占比等特征ꎬ检测DGA域名ꎬ但需要与海量的字典单词做匹配等分析ꎬ计算量较大ꎮ当前通过分析网络流量的方法能够检测未知特征的DGA域名ꎬ但分析和处理网络流量计算量较大ꎮ分析域名字符特征的检测方法计算量较小ꎬ但采用哪些域名的字符特征能够较好地区分正常域名和恶意域名ꎬ尚没有明确的定论ꎬ检测精确率不高ꎮ本文通过分析正常域名与恶意域名的字符特征ꎬ对比不同特征组合的检测效果ꎬ并分析不同机器学习算法检测DGA域名的精确率ꎬ建立一个DGA域名检测框架ꎬ有效检测出DGA域名ꎮ1㊀DGA域名检测框架本文提出的DGA域名检测框架如图1所示ꎬ主要包括数据集获取㊁域名特征提取㊁DGA检测模型训练和域名检测4个部分ꎮ图1㊀DGA域名检测框架1)获取数据集ꎮ分别获取正常域名和恶意域名数据集ꎬ作为已标记的数据集ꎮ2)特征提取ꎮ从域名数据集中提取域名的特征ꎮ一类是域名字符的统计特征ꎬ如域名字符长度㊁字符随机性㊁唯一字符数㊁元音字母比例等ꎻ另一类是域名的N ̄Gram模型特征ꎮ3)训练DGA域名检测模型ꎮ将训练数据集输入到机器学习模型当中进行模型训练ꎮ本文工作将采用多种检测模型ꎬ并对不同模型进行评估ꎬ对比检测效果的优劣ꎮ4)域名检测ꎮ用训练好的模型对域名进行检测ꎬ检测出正常的或者恶意的DGA域名ꎮ2㊀DGA恶意域名特征分析域名特征提取是DGA域名检测的基础ꎬ特征选取的好坏直接影响DGA域名检测的效果ꎮ因此ꎬ本文对正常域名和恶意域名的特征进行了分析和对比ꎬ以提取出区分度大的特征组合ꎮ本文分别对域名字符的统计特征和域名的N ̄Gram模型特征进行了分析ꎮ其中ꎬ域名字符的统计特征包括:域名字符长度㊁域名字符随机性㊁元音字母比例㊁唯一字符比例㊁顶级域名类型等ꎮ本文从正常和恶意域名数据集中随机抽取各2000条ꎬ共4000条域名数据进行正常和恶意域名的特征分析ꎮ2 1㊀域名字符统计特征分析1)字符长度ꎮ正常域名为了便于用户记忆ꎬ不会选择过长的域名ꎬ而DGA恶意域名是由DGA算法随机生成的ꎬ不会考虑用户体验ꎬ并且为了注册时与现有的域名冲突ꎬ会使用较长的域名ꎮ64第5期蒋鸿玲等:DGA恶意域名检测方法㊀域名字符长度分布如图2所示ꎮ几乎所有的正常域名的字符长度都在19以内ꎬ并集中在8到12之间ꎬ仅仅只有少数域名达到了19以上ꎮ而恶意域名长度范围在8到32之间ꎬ并出现了2个高峰点ꎬ分别是12和30ꎬ其中长度为30的恶意域名数量更多ꎮ从数据的分布上可以看出近1/3的恶意域名的长度在正常域名长度范围之内ꎬ但恶意域名长度普遍偏大ꎮ图2㊀域名字符长度分布2)字符随机性ꎮ由于恶意域名是DGA算法随机生成的ꎬ其字符的随机性较大ꎬ混乱程度较高ꎬ而正常域名字符的随机性校对较小ꎮ域名字符的随机性通过计算字符的熵来判断:H(d)=-ðlg(P(Xi))ˑP(Xi)(1)式中:d为域名ꎻXi为d中的某一个字符ꎻP(Xi)为该字符出现的概率ꎮ图3为域名字符的熵分布ꎮ正常域名字符的熵偏低ꎬ熵在3左右的正常域名较多ꎻ而恶意域名字符的熵较高ꎬ熵在4以上的恶意域名较多ꎮ但正常和恶意域名字符的熵还是存在少量的交集ꎮ图3㊀域名字符的熵分布3)元音字母比例分析ꎮ正常域名通常采用单词或名字的拼音ꎬ方便使用者记忆ꎻ同时为了具有较好的可读性ꎬ正常域名往往会插入一定的元音字母ꎬ让域名读起来更顺口ꎮ恶意域名由于随机生成ꎬ不会考虑可读性ꎬ因而正常域名的元音字母的比例会比恶意域名的高ꎮ图4为元音字母比例分布图ꎬ正常域名的元音字母比例在0 4左右分布的较多ꎬ而恶意域名在0 2左右分布的较多ꎮ图4㊀元音字母比例分布4)唯一字符数ꎮDGA域名有很大的随机性ꎬ其唯一字符数会较高ꎮ唯一字符是域名中不同字符的个数ꎬ如域名baidu的唯一字符[bꎬaꎬiꎬdꎬu]ꎬ唯一字符数为5ꎻ域名google唯一字符数有[gꎬoꎬlꎬe]ꎬ唯一字符数为4ꎮ正常域名和恶意域名的唯一字符数分布情况如图5所示ꎮ正常域名和恶意域名的唯一字符数在6到15之间出现部分交集ꎬ唯一字符数量达到15以上后就没有出现正常域名了ꎬ都是恶意域名ꎮ图5㊀唯一字符数分布5)唯一字符比例ꎮ计算域名中唯一字符数与域名长度的比值ꎬ正常域名和恶意域名的唯一字符比例如图6所示ꎮ从图6可知正常域名的比值比恶意域名的比值普遍要大一些ꎮ结合图5和图2可以知道虽然正常域名的唯一字符数普遍小于恶意域名ꎬ但是占域名74㊀北京信息科技大学学报第34卷图6㊀唯一字符比例分布字符的比例却高一些ꎮ这是由于恶意域名的长度偏大导致ꎮ6)顶级域名分析ꎮ正常域名的顶级域名一般会使用常见的顶级域名ꎬ如.cn和.com等ꎮ恶意域名的顶级域名比较随意ꎬ攻击者会选择一些审核不严格的顶级域名ꎬ如.biz㊁.ru等ꎮ本文选择了常用的顶级域名:[ cn ꎬ com ꎬ cc ꎬ net ꎬ org ꎬ gov ꎬ info ]ꎬ分别统计正常和恶意域名中常用顶级域名和其它顶级域名的数量ꎮ正常域名中其顶级域名数为1933ꎬ其他为67ꎻ恶意域名中其顶级域名数为1342ꎬ其他为658ꎮ大部分正常域名的顶级域名都在常用顶级域名范围内ꎬ只有少数个别的没有在其中ꎮ恶意域名中有近2/3的域名其顶级域名是常用顶级域名ꎮ2 2㊀N ̄Gram模型特征分析为了区分正常域名和恶意域名ꎬ本文采用N ̄Gram模型对域名进行N ̄Gram建模ꎬ分别提取域名的1 ̄gram㊁2 ̄gram和3 ̄gram特征ꎬ然后用机器学习算法对域名的N ̄Gram特征进行处理ꎮ如域名数据[ baidu.com ꎬ google.com ]经过1 ̄gram处理后会获得词汇表[aꎬbꎬcꎬdꎬeꎬgꎬiꎬlꎬmꎬoꎬu]ꎬ再构建词向量ꎬ如表1所示ꎮ表1㊀1 ̄gram词向量示例域名abcdegilmoubaidu.com11110010111google.com001012011303㊀DGA域名检测方法为了消除不同域名特征之间数据大小的影响ꎬ提取域名统计特征后ꎬ构建特征向量ꎬ并对特征向量进行标准化处理ꎮ本文采用z ̄score标准化方法:xᶄ=x-μσ(2)式中:xᶄ为标准化后的数据ꎻx为原始数据ꎻμ为计算的平均值ꎻσ为标准差ꎮ处理后数据符合标准正态分布ꎬ即均值为0ꎬ标准差为1ꎮ对于域名的统计特征和N ̄Gram模型特征ꎬ分别使用机器学习算法进行DGA域名检测模型的训练ꎮ本文采用的机器学习模型有朴素贝叶斯㊁多层感知器和极端梯度模型ꎮ4㊀实验与分析4 1㊀数据集实验的数据集包括正常域名和恶意域名两部分ꎮ正常域名从Alexa[14]上获取排名靠前的域名ꎮ恶意域名取自360提供的开源DGA域名[15]ꎮ实验分别取Alexa的前2000条域名作为正常域名ꎬ从360的DGA域名中随机选取2000条作为恶意域名ꎮ模型的训练数据占3/4ꎬ测试数据占1/4ꎮ4 2㊀实验环境本文的实验环境如表2所示ꎮ表2㊀实验环境开发环境参数处理器Intel(R)Core(TM)i7-4700HQCPU@2 40GHz内存4GB操作系统Windows7旗舰版IDEPycharm开发语言Python第三方包seaborn㊁numpy㊁matplotlib㊁pandas㊁math㊁scipy㊁sklearn㊁keras4 3㊀模型评价标准本文评价DGA检测模型的标准为精确率P㊁召回率R和误报率F:P=TPTP+FP(3)R=TPTP+FN(4)F=FPFP+T`(5)式中:TP为被模型检测为恶意域名并且检测正确的样本数量ꎻFP为被模型检测为恶意域名但检测错误的样本数量ꎻFN为被模型检测为正常域名但检测错误的样本数量ꎻTN为被模型检测为正常样本并且检测正确的样本数量ꎮ4 4㊀特征组合评估本文提取了4组特征:F1代表2 ̄gram特征ꎻF2代表1 ̄gram㊁2 ̄gram特征组合ꎻF3代表1 ̄gram㊁2 ̄84第5期蒋鸿玲等:DGA恶意域名检测方法㊀gram㊁3 ̄gram特征组合ꎻF4代表域名字符统计特征组合(包括字符长度㊁字符熵㊁元音字母比例㊁唯一字符数㊁唯一字符比例㊁是否是常用顶级域名)ꎮ本文分别用朴素贝叶斯㊁多层感知器和极端梯度模型检测域名ꎮ为了达到较好的效果ꎬ本文采用10折交叉验证方法进行训练ꎮ不同特征组合下的精确率和召回率分别如图7㊁图8所示ꎮ图7㊀不同特征组合下的精确率图8㊀不同特征组合下的召回率实验发现ꎬN ̄Gram模型特征比统计特征的精确率和召回率都较高ꎮN ̄gram模型中F3(即1 ̄gram㊁2 ̄gram㊁3 ̄gram)特征组合的效果最佳ꎮ4 5㊀模型效果评估本文采用ROC曲线(receiveroperatingcharacteristic)和AUC(areaundercurve)值作为域名检测模型的评价指标ꎮ根据上述实验ꎬF3特征组合的效果最好ꎬ因而本文选用F3特征组合ꎬ对比朴素贝叶斯㊁多层感知器和极端梯度模型ꎬ不同模型的ROC曲线如图9所示ꎮ其中ꎬ真正率(truepositiverate)为召回率ꎬ其计算方式如式(4)所示ꎬ假正率(falsepositiverate)计算方式如式(5)所示ꎮ图9㊀不同模型的ROC曲线从图9可以看出ꎬ朴素贝叶斯㊁多层感知器和极端梯度模型的AUC值都在98%以上ꎬ其中极端梯度模型的效果最好ꎬ其AUC值为99 5%ꎮ4 6㊀讨论选取当前2个典型的检测方法(文献[11]和文献[13]所述方法)ꎬ分别从计算量㊁隐私保护㊁是否需要相似行为方面ꎬ与本文方法进行了比较ꎬ如表3所示ꎬ其中ɿ表示方法实现了该指标ꎬˑ表示未实现该指标ꎮ表3㊀不同方法比较指标文献[11]文献[13]本文方法计算量小ˑˑɿ隐私保护ˑɿɿ不需要相似行为ˑɿɿ文献[11]是分析DNS流量的方法ꎬ需要采集DNS网络流量ꎬ并进行解析ꎬ然后分析DNS流量ꎮ该文基于假设:如果是同一个DGA产生的恶意域名ꎬ它们的流量特征具有相似性ꎮ采集㊁解析和分析DNS流量的方法ꎬ需要较多的计算量ꎬ并且ꎬ由于直接采集网络流量ꎬ会存在隐私的问题ꎮ此外ꎬ如果被测网络中没有同一个DGA算法生成的域名ꎬ则不会出现相似行为ꎬ就很难检测出恶意域名ꎮ文献[13]是分析DGA域名本身的特征ꎬ提取DGA域名中有意义的字符比例ꎬ则需要与海量的字典单词做匹配ꎬ增大了计算量ꎮ本文的方法不需要分析DNS流量ꎬ避免了隐私问题和大量的计算ꎮ本文方法直接分析DGA域名的特征ꎬ不需要和字典匹配ꎬ也不需要被测网络中有同一个DGA生成的域名ꎮ综上所述ꎬ本文方法在计算量㊁隐私保护方面具有优势ꎬ并且不需要相似性行为也可以检测恶意域名ꎮ94㊀北京信息科技大学学报第34卷5 结束语本文目的是分析域名的特征ꎬ包括域名字符的统计特征和N ̄Gram模型特征ꎬ提取出能够区分正常域名与恶意域名的特征ꎬ以提升恶意域名的检测精确率ꎮ本文分析了DGA域名的特征ꎬ比较了4种特征组合ꎬ最终选取1 ̄gram㊁2 ̄gram㊁3 ̄gram作为域名特征ꎮ分别评估了朴素贝叶斯㊁多层感知器和极端梯度模型的检测效果ꎬ实验结果表明多层感知器模型的AUC值最高ꎮ本文工作主要依赖于域名的字符特征ꎬ下一步工作将结合域名对应的IP地址ꎬ挖掘域名与域名㊁域名与IP地址之间的关联关系ꎬ并设计相应的算法检测恶意域名ꎮ参考文献:[1]㊀ShunTobiyamaꎬYukikoYamaguchiꎬHajimeShimadaꎬetal.Malwaredetectionwithdeepneuralnetworkusingprocessbehavior[C]//IEEEꎬProceedingsInternationalComputerSoftwareandApplicationsConference.2016:577-582.[2]㊀MatijaStevanovicꎬJensMyrupPedersenꎬAlessandroD Alconzoꎬetal.AmethodforidentifyingcompromisedclientsbasedonDNStrafficanalysis[J].InternationalJournalofInformationSecurityꎬ2017ꎬ16(2):115-132. [3]㊀ShiYongꎬChenGongꎬLiJuntao.Maliciousdomainnamedetectionbasedonextrememachinelearning[J].NeuralProcessingLettersꎬ2017ꎬ48(3):1347-1357.[4]㊀DilaraAcaraliaꎬMuttukrishnanRajarajanaꎬNikoskomninosaꎬetal.SurveyofapproachesandfeaturesfortheidentificationofHTTP ̄basedbotnettraffic[J].JournalofNetworkandComputerApplicationsꎬ2016ꎬ76:1-15. [5]㊀LeylaBilgeꎬSevilSenꎬDavideBalzarottiꎬetal.EXPOSURE:ApassiveDNSanalysisservicetodetectandreportmaliciousdomains[J].ACMTransactionsonInformationandSystemSecurityꎬ2014ꎬ16(4):1-28.[6]㊀LeeJehyunꎬLeeꎬHeej.GMAD:Graph ̄basedmalwareactivitydetectionbyDNStrafficanalysis[J].ComputerCommunicationsꎬ2014ꎬ49:33-47.[7]㊀ZangXiaoDongꎬGongJianꎬMoShaoHuangꎬetal.Identifyingfast ̄fluxbotnetwithAGDnamesattheupperDNShierarchy[J].IEEEAccessꎬ2018ꎬ6:69713-69727.[8]㊀ZhauniarovichYuryꎬKhalilIssaꎬYuTingꎬetal.AsurveyonmaliciousdomainsdetectionthroughDNSdataanalysis[J].ACMComputiongSurveysꎬ2018ꎬ51(4):1-35. [9]㊀臧小东ꎬ龚俭ꎬ胡晓艳.基于AGD的恶意域名检测[J].通信学报ꎬ2018ꎬ39(7):15-25. [10]㊀ManosAntonakakisꎬRobertoPerdisciꎬYacinNadjiꎬetal.Fromthrow ̄awaytraffictobots:detectingtheriseofdga ̄basedmalware[C]//InProceedingsofthe21stUSENIXSecuritySymposiumꎬ2012.[11]㊀RezaSharifnyaꎬMahdiAbadi.DFBotKiller:Domain ̄fluxbotnetdetectionbasedonthehistoryofgroupactivitiesandfailuresinDNStraffic[J].DigitalInvestigationꎬ2015ꎬ12:15-26.[12]㊀赵越.基于DNS流量特征的僵尸网络检测方法研究[D].天津:天津大学ꎬ2016.[13]㊀StefanoSchiavoniꎬFedericoMaggiꎬLorenzoCavallaroꎬetal.Phoenix:DGA ̄basedbotnettrackingandintelligence[J].InLectureNotesinComputerScienceꎬ2014ꎬ8550:192–211. [14]㊀Alexa[DB/OL].(2019-04-15)[2019-05-30]https://www.alexa.com/.[15]㊀NetlabOpenDataProject.DGADomainList[DB/OL].(2019-04-10)[2019-05-25]http://data.netlab.360.com/feeds/dga/dga.txt.05。
网络安全领域中的恶意网址识别技术使用教程
网络安全领域中的恶意网址识别技术使用教程随着互联网的迅猛发展,网络安全问题日益凸显,恶意网址成为了网络安全的重要威胁之一。
恶意网址指的是针对用户计算机或网络系统实施攻击、欺诈或传播有害软件的网址。
为保护网络用户的安全,恶意网址的识别一直都是网络安全技术的重要研究领域之一。
本文将介绍网络安全领域中的恶意网址识别技术的使用教程。
1. 恶意网址的危害首先,让我们了解一下恶意网址可能带来的危害。
恶意网址可能包含以下几种类型:a) 欺诈网址:欺诈网址通常冒充合法网站,骗取用户的个人信息或财务信息。
b) 恶意软件分发网址:这类网址用于传播恶意软件,一旦用户点击进入,恶意软件将自动下载并感染用户的计算机。
c) 网络钓鱼网址:网络钓鱼网址冒充合法网站,通常通过发送钓鱼邮件或诱导用户点击链接,以骗取用户的敏感信息。
d) 垃圾网址:垃圾网址通常用于发送垃圾邮件、垃圾短信或展示无关紧要的广告。
2. 恶意网址识别技术分类恶意网址识别技术通常可以分为以下几类:a) 基于特征的识别技术:这种技术通过分析网址的各种特征,如域名、URL结构、网页内容等,判断其是否属于恶意网址。
常用的特征包括频率、长度、字符组合、特殊符号等。
b) 基于机器学习的识别技术:这种技术利用机器学习算法训练模型,通过对已知恶意网址和正常网址的特征进行学习,来判断新网址的恶意性。
常用的机器学习算法包括支持向量机(SVM)、决策树、随机森林等。
c) 基于黑名单的识别技术:这种技术使用事先构建好的恶意网址黑名单,对用户输入的网址进行比对,如果发现匹配项,则判断为恶意网址。
常用的黑名单可以从公共黑名单列表、恶意网址数据库或病毒库中获取。
3. 使用基于特征的识别技术基于特征的恶意网址识别技术相对简单易用,我们可以按照以下步骤来使用该技术:a) 收集训练数据:首先,我们需要收集足够充分的训练数据集。
该数据集应包括已标记的恶意网址和正常网址。
可以从公共数据集或第三方机构获取现有的数据集,也可以自行构建数据集。
基于组行为特征的恶意域名检测
计
算
机
科
学
Vo 1 . 4 0 No . 8
Au g .2 0 1 3
Co mp u t e r S c i e n c e
基 于组 行 为 特 征 的恶 意域 名检 测
张永斌 陆 寅 张 艳宁
( 西北工业大学计算机学院 西安 7 1 0 1 2 9 )
Z H ANG Yo n g - b i n LU Y. n Z HANG Ya n - n i n g
( S c h o o l o f C o mp u t e r S c i e n c e , No r t h we s t e r n P o l y t e c h n i c a l Un i v e r s i t y , X i ’ a n 7 1 0 1 2 9 , C h i n a )
染 主机 、 C &C服 务 器 I P地 址 。
关键 词 网 络安 全 , 僵 尸 网络 , 域 名 生成 算 法 , 域 名 变 换
中图法分类号
T P 3 9 3
文献标识 码
A
Ma l wa r e Do ma i ns De t e c t i o n b y Mo n i t o r i ng Gr o u p Ac t i v i t i e s
me t h o d c l u s t e r s n e d o a i m n s a n d No n - Ex i s t e n t d o ma i n s q u e r i e d b y h o s t s i n e a c h e p o c h , g r o u p s t h e s e h o s t s b y n e w d o — a i m n n a me s 。 a n d i d e n t i f i e s t h a t i f t h e h o s t s wi t h i n t h e S a l T l e s e t h a v e g r o u p a c t i v i t i e s wh e n q u e r y i n g No n - Ex i s t e n t d o —
网络安全中的恶意代码检测技术
网络安全中的恶意代码检测技术恶意代码在当前的网络环境中越来越普遍,给用户的隐私和数据安全带来了严重威胁。
为了保护网络安全,恶意代码检测技术成为了当今互联网领域中的重要研究方向之一。
本文将介绍一些常见的恶意代码检测技术,以及它们在网络安全中的应用。
一、特征匹配检测技术特征匹配检测技术是一种基于恶意代码病毒特征库的检测方法。
其原理是通过构建一个包含恶意代码特征的数据库进行检测,当用户下载的文件与特征库中的恶意代码特征匹配时,即可判断该文件可能存在恶意代码。
特征匹配检测技术的优点是准确率高,能够及时检测出已知的恶意代码。
然而,由于恶意代码的不断变异和新型威胁的出现,特征匹配检测技术对未知的恶意代码无法有效检测。
二、行为分析检测技术行为分析检测技术是一种通过分析程序在执行过程中的行为来判断是否存在恶意代码的检测方法。
该技术通过监控程序的行为,例如文件的读写操作、系统调用等,来识别是否存在恶意行为。
行为分析检测技术的优点是能够检测出未知的新型恶意代码,具有较好的适应性。
然而,这种方法也存在一定的局限性,因为恶意代码通常会采取隐蔽的行为,如延迟执行等,从而规避行为分析的检测。
三、机器学习检测技术机器学习检测技术是一种基于数据样本的自动分类技术,通过训练模型来识别新的恶意代码。
该技术通过对大量的恶意代码样本进行学习,提取特征并训练模型,从而实现对未知恶意代码的检测。
机器学习检测技术的优点是能够通过学习更新,提高检测的准确率。
然而,由于恶意代码的不断变异,机器学习模型需要不断更新和优化,以保持检测的效果。
四、沙箱技术沙箱技术是一种将可疑文件或程序运行在隔离的环境中进行观察和分析的技术。
通过在沙箱环境中运行文件,可以监控其行为,并捕获恶意行为,从而及时判断文件是否包含恶意代码。
沙箱技术的优点是能够有效识别未知的恶意代码,并提供详细的行为分析报告。
然而,沙箱技术也面临着一些挑战,例如恶意代码变异迅速,可能会规避沙箱环境的监控。
dga域名检测方法
dga域名检测方法DGA域名检测方法随着互联网的快速发展,网络安全问题也日益成为人们关注的焦点。
恶意软件攻击是网络安全领域的一个重要问题,而域名生成算法(DGA)是恶意软件攻击中常用的一种方式。
DGA域名检测方法的研究和应用对于保护网络安全具有重要意义。
一、DGA域名生成算法概述DGA是指恶意软件利用算法生成域名,以绕过传统的黑名单机制,使得其控制的C&C服务器具有更好的隐蔽性。
DGA算法通常基于时间、种子和其他变量生成域名,使得域名在一定时间范围内动态变化,增加了侦测的难度。
二、DGA域名检测方法针对DGA域名的检测,目前主要有以下几种方法:1. 域名特征分析法该方法通过分析DGA域名的特征,如长度、字符集、字符分布等,建立相应的模型和规则进行检测。
例如,DGA域名通常具有较长的长度、不规则的字符分布和特定的字符集,通过对这些特征进行分析,可以有效检测DGA域名。
2. 域名流量分析法该方法通过对域名的流量进行分析,包括域名的查询频率、查询来源、查询时间等,从而判断是否为DGA域名。
DGA域名通常具有较高的查询频率和较短的查询时间间隔,通过对这些流量特征进行分析,可以识别出DGA域名。
3. 域名生成模型法该方法通过建立DGA域名生成模型,根据生成模型生成一系列域名,然后与实际的域名进行比对,从而判断是否为DGA域名。
常用的生成模型有隐马尔可夫模型(HMM)、循环神经网络(RNN)等,这些模型可以学习到DGA域名的生成规律,从而实现检测。
4. 域名黑名单法该方法通过建立DGA域名的黑名单,包括已知的DGA域名和DGA域名的特征,对新的域名进行匹配,从而判断是否为DGA域名。
黑名单可以由专业的安全机构或研究人员提供,不断更新和完善。
三、DGA域名检测的挑战与展望虽然目前已经有多种方法可以用于检测DGA域名,但是恶意软件攻击者也在不断改进DGA域名的生成算法,提高其隐蔽性和逃避检测的能力,给DGA域名的检测带来了挑战。
网络安全技术中的恶意代码检测与分析
网络安全技术中的恶意代码检测与分析1.引言随着互联网的不断发展,网络安全问题越来越引起人们的关注。
恶意代码(Malware)是一种能够损害计算机系统的程序,常见的恶意代码有病毒、蠕虫、木马、广告软件和僵尸网络等。
这些恶意代码不仅会破坏计算机系统,还会泄露个人隐私和商业机密等重要信息。
因此,在网络安全技术中,恶意代码检测和分析是非常重要的一个方面。
2.恶意代码分类在进行恶意代码检测和分析之前,必须先了解恶意代码的类型。
根据恶意代码的特性和目的,可以将恶意代码分为以下几类:2.1 病毒病毒是恶意代码中最为常见的一种,它会通过在合法程序中插入代码来感染其他程序,在用户不知情的情况下进行自我复制和传播。
病毒具有隐蔽性和破坏性,能够在计算机系统中扩散,并在病毒感染的计算机上执行一定的恶意行为,比如删除文件和窃取用户信息等。
2.2 蠕虫蠕虫是一种自我复制的计算机程序,它可以自主传播到计算机网络中的其他计算机,具有很高的感染力和传染速度。
和病毒不同,蠕虫可以完全自主运行而不需要依附于其他程序。
2.3 木马木马是一个伪装成合法程序的恶意代码,常常伪装成一些有用的软件来诱骗用户下载和安装。
一旦安装,木马就能够实现远程控制和命令执行等功能,攻击者可以通过木马窃取用户信息、攻击其他计算机系统等。
2.4 广告软件广告软件是一种通过弹窗、网页等形式来展示广告或者强制用户进行某些操作的程序。
广告软件也常常被称为“流氓软件”,因为它们经常会在用户不知情的情况下安装,占用带宽和资源,影响用户体验。
2.5 僵尸网络僵尸网络是由大量被感染的计算机组成的网络,攻击者可以通过这个网络来发起各种攻击。
一旦计算机感染了恶意软件,攻击者就可以远程控制它来实现各种目的,如发起DDoS攻击、窃取用户信息和进行网络钓鱼等。
3.恶意代码检测技术面对不同类型的恶意代码,必须采用不同的检测技术来进行检测。
下面介绍几种常见的恶意代码检测技术。
3.1 签名检测签名检测是一种常见的恶意代码检测技术,它是通过对已经发现的恶意代码进行分析和特征提取来建立恶意代码库,然后对系统中的二进制文件进行扫描匹配,从而检测出是否感染了恶意代码。
北邮远程教育网络与信与安全作业及答案
一、单项选择题(共10道小题,共100.0分)1.RSA算法是一种基于()的公钥体系。
A.素数不能分解B.大数没有质因数的假设C.大数不可能质因数分解的假设D.公钥可以公开的假设知识点: 第三单元学生答案:[C;]得分: [10] 试题分值:10.0提示:2.3.在认证过程中,如果明文由A发送到B,那么对明文进行签名的密钥为()。
A.A的公钥B.A的私钥C.B的公钥D.B的私钥知识点: 第一单元学生答案:[B;]得分: [10] 试题分值:10.0提示:4.5.某种网络安全威胁是通过非法手段取得对数据的使用权,并对数据进行恶意地添加或修改。
这种安全威胁属于()。
A.数据窃听B.破坏数据完整性C.拒绝服务D.物理安全威胁知识点: 第一单元学生答案:[B;]得分: [10] 试题分10.0提示:6.7.MD5是一种常用的摘要算法,它产生的消息摘要长度是()。
A.56位B.64位C.128位D.256位知识点: 第二单元学生答案:[C;]得分: [10] 试题分值:10.0提示:8.9.以下方法不属于个人特征认证的是()。
A.PIN码B.声音识别C.虹膜识别D.指纹识别知识点: 第二单元学生答案:[A;]得分: [10] 试题分值:10.0提示:10.11.IPSec属于()上的安全机制。
A.传输层B.应用层C.数据链路层D.网络层知识点: 第四单元学生答案:[D;]得分: [10] 试题分10.0提示:12.13.下面说法错误的是()。
A.规则越简单越好B.防火墙和防火墙规则集只是安全策略的技术实现C.建立一个可靠的规则集对于实现一个成功的、安全的防火墙来说是非常关键的D.DMZ网络处于内部网络里,严格禁止通过DMZ网络直接进行信息传输知识点: 第四单元学生答案:[D;]得分: [10] 试题分值:10.0提示:14.15.下面不是防火墙的局限性的是()。
A.防火墙不能防范网络内部的攻击B.不能防范那些伪装成超级用户或诈称新雇员的黑客们劝说没有防范心理的用户公开其口令,并授予其临时的网络访问权限C.防火墙不能防止传送已感染病毒的软件或文件,不能期望防火墙对每一个文件进行扫描,查出潜在的病毒D.不能阻止下载带病毒的数据知识点: 第四单元学生答案:[D;]得分: [10] 试题分值:10.0提示:16.17.对非连续端口进行的、并且源地址不一致,时间间隔长而没有规律的扫描,称之为()。
Python实现网络安全中的恶意域名检测与阻断
Python实现网络安全中的恶意域名检测与阻断随着互联网的迅猛发展,网络安全问题也日益凸显。
恶意域名的存在给网络用户的安全带来了严重威胁。
为了保护网络环境的安全,Python语言提供了一些强大的工具和库,可以实现恶意域名的检测与阻断。
一、恶意域名检测恶意域名往往被黑客利用,用于网络钓鱼、恶意软件传播、僵尸网络等违法活动。
Python可以通过以下方式进行恶意域名的检测:1.域名黑名单检测一种常见的检测方法是建立一个域名黑名单,将已知的恶意域名加入其中。
Python可以读取黑名单文件,并对网络请求中的域名进行匹配,如果请求的域名出现在黑名单中,就表示该域名可能是恶意域名。
2.域名数据分析通过获取域名的WHOIS信息,可以获取到域名的注册时间、持有人等信息。
根据数据分析的结果,可以判断域名是否存在可疑情况。
Python可以利用第三方库如python-whois来获取并解析域名的WHOIS信息。
3.机器学习算法机器学习算法可通过分析大量的恶意域名数据,自动学习和识别恶意域名的特征,辅助恶意域名检测工作。
Python提供了多个机器学习库,如scikit-learn和TensorFlow,使用这些库可以实现恶意域名检测的机器学习模型。
二、恶意域名阻断当检测到恶意域名时,为了保护网络安全,可以采取相应的阻断措施。
Python可以实现以下方法来阻断恶意域名的访问:1.DNS劫持DNS劫持是一种将恶意域名解析到错误的IP地址或局域网IP地址的技术。
通过Python编写代码,可以实现对网络请求的域名进行拦截,并将其解析到指定的IP地址,从而阻断恶意域名的访问。
2.HOSTS文件修改HOSTS文件是操作系统中的一个配置文件,它可以将特定的域名解析到特定的IP地址。
通过Python的文件操作,可以自动修改HOSTS文件,将恶意域名解析到一个指定的本地地址,从而阻止恶意域名的访问。
3.Firewall防火墙防火墙可以设置特定规则,限制特定IP地址或域名的访问。
网络安全测试中的恶意链接检测技术
网络安全测试中的恶意链接检测技术在网络安全测试中,恶意链接检测技术扮演着至关重要的角色。
随着互联网的普及,恶意链接的数量也呈指数级增长,给用户的网络安全带来了极大的威胁。
恶意链接可以是钓鱼网站、恶意软件下载链接等,一旦用户点击了这些链接,就有可能导致个人敏感信息被盗取,计算机系统被入侵等安全问题。
因此,有效的恶意链接检测技术显得尤为重要。
一、恶意链接的特征恶意链接通常具有以下几个特征:1. 虚假目标:恶意链接常常伪装成看似正规的网站,诱导用户点击。
2. 诱人内容:恶意链接常常伴随着具有高吸引力的内容,如免费软件下载、折扣优惠等,以吸引用户点击。
3. 隐藏性:恶意链接通常使用缩写、特殊符号等方式隐藏真实链接地址,让用户很难辨别。
二、常见的恶意链接检测技术为了应对恶意链接的威胁,研究人员和安全公司开发了多种恶意链接检测技术,下面介绍几种常见的技术:1. 黑名单技术:黑名单技术通过维护一个恶意链接的黑名单数据库,对用户访问的链接进行快速匹配,从而判断链接是否为恶意链接。
这种技术能够快速识别已知的恶意链接,但对于未知的新型恶意链接无法有效检测。
2. 白名单技术:白名单技术相对于黑名单技术而言,它维护的是合法链接的数据库,只有当用户访问的链接在白名单中才被认为是合法的。
这种技术虽然能够有效避免误报,但是对于未知的恶意链接无法进行检测。
3. 基于特征的检测技术:该技术通过对恶意链接的特征进行分析和提取,构建特征模型来进行检测。
常见的特征包括URL长度、域名的注册年限、域名的语义特征等。
这种技术可以有效识别未知的恶意链接,但是容易受到恶意链接的变种和伪装的干扰。
4. 机器学习技术:机器学习技术可以通过大量的数据样本进行训练,从而学习到恶意链接的模式和规律,实现自动化的恶意链接检测。
这种技术具有较高的准确率和覆盖率,但是需要大量的训练数据,并且对于新型恶意链接的检测会存在一定的滞后性。
三、优化恶意链接检测技术的方法为了进一步提升恶意链接检测技术的准确性和效率,还可以采取以下几个方法:1. 多维度特征提取:结合URL的文本特征、结构特征、语义特征等多个维度的特征,从而提升恶意链接的识别率。
域名投诉 恶意的判断标准
域名投诉恶意的判断标准
随着互联网的快速发展,域名投诉成为了一个备受关注的话题。
随之而来的问题是,如何判断一个域名投诉是否具有恶意?这涉及
到一个恶意的判断标准的问题。
首先,恶意的判断标准应包括以下几个方面,第一,是否有违
反相关法律法规的行为。
如果域名投诉涉及到违法行为,比如侵犯
他人知识产权、传播违法信息等,那么可以认定为恶意投诉。
第二,是否有损害他人利益的行为。
如果域名投诉导致了对他人合法权益
的损害,比如诽谤、侵犯名誉等,也可以认定为恶意投诉。
第三,
是否存在明显的恶意目的。
如果域名投诉的背后存在着明显的恶意
企图,比如故意损害他人形象、企业利益等,同样可以认定为恶意
投诉。
其次,对于域名投诉的恶意判断标准还应该考虑到投诉的真实
性和合理性。
如果域名投诉的理由不充分,或者是基于主观臆断而
非客观事实,那么也可以认定为恶意投诉。
此外,还需要考虑投诉
人的恶意程度和历史记录,如果投诉人频繁进行恶意投诉,那么也
应该被认定为恶意投诉。
总之,域名投诉的恶意判断标准应该是多方面的综合考量,需
要从法律法规、损害程度、恶意目的、投诉真实性和投诉人历史记
录等多个方面进行综合判断。
只有建立起科学合理的恶意判断标准,才能有效防范恶意域名投诉,维护互联网的健康发展。
安全测试中的恶意URL与恶意域名检测
安全测试中的恶意URL与恶意域名检测在当今数字化的时代,网络安全威胁日益增加,恶意URL(Uniform Resource Locator)和恶意域名作为常见的网络攻击手段,给互联网用户的信息安全带来了巨大的威胁。
为了保护用户的隐私和网络安全,安全测试中的恶意URL与恶意域名检测变得非常重要。
本文将介绍恶意URL和恶意域名的概念,并探讨如何进行有效的检测。
一、恶意URL的特征与检测方法恶意URL是指那些被恶意分子用来传播恶意软件、实施网络钓鱼或其他非法活动的URL地址。
这些URL通常具备一定的特征,可通过以下几种方式进行检测:1.基于黑名单检测:这种方式利用已知的恶意URL的数据库,对待检测的URL进行对比。
如果URL存在于黑名单中,就可以判断为恶意URL。
然而,黑名单无法即时更新,容易滞后于新的恶意URL的产生,因此该方法的准确性和实时性有限。
2.基于特征提取的机器学习:这种方法通过从URL中提取一系列特征,如域名长度、字符频率、目录深度等,构建机器学习模型进行分类。
通过训练模型,可以将新的URL与恶意URL进行区分。
这种方法相对准确,但需要大量的训练数据和合适的特征选择。
3.基于行为分析的动态检测:这种方法通过模拟用户点击URL的行为,观察URL的响应和交互过程,从而检测URL是否存在恶意行为。
该方法可以检测出一些“零日”攻击,但其消耗的资源较大,需要在较好的硬件环境下进行。
二、恶意域名的特征与检测方法恶意域名是指那些被恶意分子注册并用于实施网络攻击的域名。
与恶意URL不同,恶意域名通常具备一定的特征,可采用以下方式进行检测:1.基于域名黑名单检测:这种方法利用已知的恶意域名的数据库,对待检测的域名进行对比。
如果域名存在于黑名单中,就可以判断为恶意域名。
然而,同样存在黑名单滞后以及准确性的问题。
2.基于域名字符串特征的机器学习检测:这种方法通过从域名字符串中提取特征,如长度、字符组合等,构建机器学习模型进行分类。
一种基于域名请求伴随关系的恶意域名检测方法
计算机研究与发展D O I :10.7544∕i s s n 1000G1239.2019.20180481J o u r n a l o fC o m p u t e rR e s e a r c ha n dD e v e l o pm e n t 56(6):12631274,2019㊀收稿日期:2018-06-27;修回日期:2018-12-10㊀基金项目:国家重点研发计划项目(2016Y F B 0801502);国家自然科学基金项目(U 1736218)T h i sw o r kw a s s u p p o r t e db y t h eN a t i o n a lK e y R e s e a r c h a n dD e v e l o p m e n t P r o gr a mo f C h i n a (2016Y F B 0801502)a n d t h eN a t i o n a l N a t u r a l S c i e n c eF o u n d a t i o no fC h i n a (U 1736218).㊀通信作者:云晓春(yu n x i a o c h u n @i i e .a c .c n )一种基于域名请求伴随关系的恶意域名检测方法彭成维1,2㊀云晓春1,2,3㊀张永铮2,3㊀李书豪2,31(中国科学院计算技术研究所㊀北京㊀100190)2(中国科学院大学㊀北京㊀100049)3(中国科学院信息工程研究所㊀北京㊀100093)(p e n g c h e n gw e i @i i e .a c .c n )D e t e c t i n g M a l i c i o u sD o m a i n sU s i n g C o GO c c u r r e n c eR e l a t i o nB e t w e e nD N S Q u e r yP e n g C h e n g w e i 1,2,Y u nX i a o c h u n 1,2,3,Z h a n g Y o n g z h e n g 2,3,a n dL i S h u h a o 2,31(I n s t i t u t e o f C o m p u t i n g T e c h n o l o g y ,C h i n e s eA c a d e m y o f S c i e n c e s ,B e i j i n g 100190)2(U n i v e r s i t y o f C h i n e s eA c a d e m y o f S c i e n c e s ,B e i j i n g 100049)3(I n s t i t u t e o f I n f o r m a t i o nE n g i n e e r i n g ,C h i n e s eA c a d e m y o f S c i e n c e s ,B e i j i n g 100093)A b s t r a c t ㊀M a l i c i o u sd o m a i n s p l a y av i t a lr o l ei ni l l i c i to n l i n ea c t i v i t i e s .E f f e c t i v e l y d e t e c t i n g th e m a l i c i o u s d o m a i n sc a ns i g n i f i c a n t l y d e c r e a s et h ed a m a g eo fe v i l a t t a c k s .I nt h i s p a p e r ,w e p r o po s e C o D e t e c t o r ,a n o v e l t e c h n i q u e t od e t e c tm a l i c i o u s d o m a i n s b a s e do n t h e c o Go c c u r r e n c e r e l a t i o n s h i ps o f d o m a i n s i n D N S (d o m a i nn a m es ys t e m )q u e r i e s .W eo b s e r v et h a tD N S q u e r i e sa r en o ti s o l a t e d ,w h e r e a s c o Go c c u rw i t h e a c h o t h e r .W e b a s e i t d e s i gn o n t h e i n t u i t i o n t h a t d o m a i n s t h a t t e n d t o c o Go c c u r i nD N S t r a f f i c a r es t r o n g l y a s s o c i a t e da n da r e l i k e l y t ob e i nt h es a m e p r o p e r t y (i .e .,m a l i c i o u so r b e n i g n ).T h e r e f o r e ,w e f i r s t p e r f o r m c o a r s e Gg r a i n e d c l u s t e r i n g of D N S t r a f f i c b a s e d o n t h e c h r o n o l og i c a l o r d e ro fD N S q u e r i e s .Th ed o m ai n sc o Go c c u r r i n g wi t he a c h o t h e r w i l lb ec l u s t e r e d .T h e n ,w ed e s i g nam a p p i n g f u n c t i o n t h a t a u t o m a t i c a l l yp r o j e c t s e v e r y d o m a i n i n t oa l o w Gd i m e n s i o n a l f e a t u r e v e c t o rw h i l e m a i n t a i n i n g t h e i rc o Go c c u r r e n c er e l a t i o n s h i p s .D o m a i n st h a tc o Go c c u rw i t he a c h o t h e r s a r em a p p e d t os i m i l a rv e c t o r sw h i l ed o m a i n s t h a tn o t c o Go c c u r a r em a p p e dt od i s t a n tv e c t o r s .F i n a l l y ,b a s e do n t h e l e a r n e d f e a t u r e r e pr e s e n t a t i o n s ,w e t r a i na c l a s s i f i e r o v e r a l a b e l e dd a t a s e t a n d f u r t h e r a p p l y i t t od e t e c t u n k n o w nm a l i c i o u s d o m a i n s .W e e v a l u a t eC o D e t e c t o ru s i n g re a l Gw o r l dD N S t r af f i c c o l l e c t e df r o m a ne n t e r p r i s en e t w o r ko v e rt w o m o n t h s .T h ee x pe r i m e n t a l r e s u l t ss h o wt h a t C o D e t e c t o r c a nef f e c t i v e l y d e t e c tm a l i c i o u s d o m a i n s (91.64%p r e c i s i o na n d 96.04%r e c a l l ).K e y w o r d s ㊀D N S q u e r i e s ;c o Go c c u r r e n c e ;m a l i c i o u s d o m a i n s ;D N S c u t ;t e n s o r r e p r e s e n t a t i o n ;d o m a i n c l a s s i f i c a t i o n摘㊀要㊀恶意域名在网络非法攻击活动中承担重要的角色.恶意域名检测能够有效地减少攻击活动所带来的经济损失.提出C o D e t e c t o r 恶意域名检测模型,通过挖掘域名请求之间潜在的时空伴随关系进行恶意域名检测.研究发现域名请求之间存在彼此伴随关系,而并非相互独立.因此,彼此伴随的域名之间存在紧密关联,偏向于同时是正常域名或恶意域名.1)利用域名请求的先后时间顺序对域名数据进行粗粒度的聚类操作,将彼此伴随出现的域名划分到同一簇中;2)采用嵌入学习构建映射函数,在保留域名伴随关系的同时将每一个域名投影成低维空间的特性向量;3)结合有标记的数据,训练恶意域名检测分类器,用于检测更多未知恶意域名.实验结果表明,C o D e t e c t o r能够有效地检测恶意域名,具有91.64%检测精度和96.04%召回率.关键词㊀域名请求;请求伴随;恶意域名;时间序列切割;向量化表示;域名分类中图法分类号㊀T P391㊀㊀域名系统(d o m a i nn a m e s y s t e m,D N S)是当今互联网中重要的基础核心服务之一,负责提供统一的域名地址空间映射服务,主要将易于人类记忆的域名翻译为易于机器识别的I P地址.然而,伴随着域名系统提供正常服务的同时,近年来越来越多的网络非法活动也开始滥用域名系统以达到其恶意目的.例如,僵尸网络利用域名生成算法(d o m a i n g e n e r a t e a l g o r i t h m,D G A)批量生成大量用于僵尸网络命令与控制(c o mm a n d&c o n t r o l,C&C)信道通信的域名,来逃避权威安全防御机构的封杀和屏蔽[1G2].网络诈骗犯注册外观极其相似于知名合法域名(如a l i p a y.c o m)的新域名(如a l1p a y.c o m),并搭建钓鱼网站来欺骗网络用户,达到窃取账户信息㊁信用卡密码等目的[3].2016年思科年度安全报告[4]中指出,高达91.3%的恶意软件均会对域名系统进行一定程度的滥用,造成大量的经济损失.近年来出现了大量利用D N S流量检测恶意域名的研究工作,其主要目的是为了在用户访问这些恶意域名之前进行防御和预警,从而缓解攻击活动带来的威胁和损害.常见的方法[5G7]是从D N S流量㊁网页信息等数据中为每一个域名人为手动提取特征(例如T T L(t i m e t o l i v e)大小㊁域名请求模式㊁解析的I P地址数目㊁涉及到的国家等),随后利用机器学习算法构建分类器.然而,这类基于特征的检测方法能够有效地检测恶意域名的前提是提取特征的有效性,即能否有效地区分黑白域名的行为,并且攻击者不去修改恶意域名的行为来规避这些特征.实际上,之前提出的很多特征已被证实不具有很好的鲁棒性,攻击者可以通过简单地调整来改变这些特征,从而逃避检测.本文提出C o D e t e c t o r算法,一种基于域名请求之间内在的时空伴随关系(c oGo c c u r r e n c er e l a t i o n)进行恶意域名检测的算法.本文发现域名请求之间不是彼此独立,相反存在时空相似㊁伴随共现的特性.针对一次域名查询,触发这次查询的底层应用程序同时会触发其他相关的域名查询,这些域名相互伴随出现,协同完成此次网络活动.例如使用浏览器打开链接,如h t t p:∕∕w w w.b a i d u.c o m会先触发对该页面域名w w w.b a i d u.c o m的D N S查询,当网页内容开始呈现时,则会进一步触发对页面嵌入内容(如图片㊁广告等)的链接进行额外的D N S查询.这些域名请求是为了共同完成这次页面展示而触发的请求,在D N S请求上表现为伴随共现的特性.于此同时,本文发现恶意域名请求之间同样存在时空伴随关系,不同的恶意域名会在一次恶意网络活动中共同伴随地出现.例如一次路过式下载(d r i v eGb y d o w n l o a d)行为通常由一个长长的U R L重定向链条来逐步导向到最终的恶意软件.网络黑产中,恶意的搜索引擎优化技术通过构建重复循环的U R L链条,让搜索引擎的爬虫持续停留在被敌手设计的页面中.本文的假设是伴随出现的域名之间存在紧密的关联,性质上具有同态性,即和恶意域名伴随出现的域名偏向于是恶意域名,反之亦然.基于以上假设,本文提出C o D e t e c t o r恶意域名检测算法,其主要思路是从D N S流量中挖掘域名之间时空伴随关系,然后借鉴深度学习中张量化表示算法(如w o r d2v e c[8])在保留域名彼此时空伴随关系的基础上将每一个域名映射为低维空间的特征向量,最后结合机器学习分类算法构建恶意域名检测分类器.为实现以上目标,本文主要面临2个挑战:1)如何从D N S流量提取彼此具有时空伴随关系的域名?2)如何在保留域名彼此时空伴随关系的同时张量化地提取域名特征?针对挑战1,本文提出基于域名请求时间间隔的切割算法,将原始D N S流量中的D N S请求根据时间顺序切割成不同长度的时空伴随域名序列.本文认为在时间上同时触发的域名请求彼此存在伴随关系,存在明显的时间间隔的请求则不具有伴随关系.实际上,通过对真实D N S数据分析,本文发现每个用户所触发的D N S请求在时间上存在明显的分块4621计算机研究与发展㊀2019,56(6)聚簇现象,即D N S请求一批接着一批触发,不同批次之间存在明显时间间隔.例如在打开下一个网页之前,会在上一个网页停留一定的时间,从而导致这2次页面行为触发的域名请求之间也存在明显时间间隔.因此,如果2个域名请求之间的时间间隔大于给定的阈值(例如5s),则很有可能是不同网络活动所触发的D N S请求,本文便将这2个域名划分到不同序列中,反之则划分到同一个序列中.每一个序列有1个或者多个域名组成,近似认为是由一次网络活动所触发的D N S请求集合,彼此具有时空伴随关系.针对挑战2,本文借鉴S k i pGG r a m[9]的词向量表示算法,将每一个域名投影成d维实数空间中的一个点(向量),目标是使得具有伴随关系的域名映射成空间中距离相近的点;反之,把不具有伴随关系的2个域名映射到空间中相隔较远的位置.考虑到挑战1中提取的时空伴随域名序列可能会存在噪声干扰和由序列长度过长带来的计算复杂度问题,本文采用滑动窗口的方式,进一步从时空伴随域名序列中提取具有时空伴随域名对.每个时空伴随域名对由2个域名组成,彼此之间具有时空伴随关系,同时,本文采用负采样技术[8]构建不具有时空伴随关系的域名对作为负样本数据,最后结合优化目标迭代地调整每一个域名在d空间的位置.优化结束后,本文便可得到每一个域名特征向量.与前人工作对比,本文工作主要有3点不同之处:1)C o D e t e c t o r自动地从D N S流量中挖掘潜在的域名伴随关系,并映射为特征向量,无需人工专家经验,省去人工设计特征的繁杂工作.2)C o D e t e c t o r仅利用域名请求的时间顺序挖掘伴随关系,无需额外的附加信息.因此,本文的方法更加轻量实时,能够处理不具有正常应答的恶意域名,例如D G A生成的N X D o m a i n域名.3)C o D e t e c t o r将具有伴随关系的域名进行了聚类,因此可以用于恶意域名团伙发现.最后,本文采集一个企业网下近2个月的D N S 流量数据,结合3种主流的机器学习分类算法(随机森林㊁X G B o o s t和深度神经网络)来评估C o D e t e c t o r 模型的检测效果.实验结果表明,C o D e t e c t o r平均能够达到91.64%的检测精度和96.40%的召回率.因此,C o D e t e c t o r能够有效地通过D N S流量挖掘域名请求之间时空伴随关系,并用于检测恶意域名.总体来说,本文工作具有4点贡献:1)提出一种基于时间间隔的域名序列切割算法,能够有效地从D N S流量中提取具有伴随关系的域名序列.2)提出一种无监督的域名张量化表达算法,能够将每一个域名映射为低维空间的特征向量并且保留域名彼此之间的伴随关系.3)提出一种基于域名请求之间时空伴随关系的恶意域名检测算法 C o D e t e c t o r.该模型自动地从原始D N S流量挖掘潜在的域名时空伴随关系,并用于检测恶意域名.4)结合真实D N S数据,对C o D e t e c t o r的可行性和有效性进行评估,实验验证C o D e t e c t o r能够有效地检测恶意域名.1㊀相关工作近年来出现了大量利用D N S流量检测恶意域名的研究工作.A n t o n a k a k i s等人[5]提出了N o t o s动态域名打分系统.N o t o s主要提取3种类型的特征:1)基于网络位置的特征(历史上与域名关联的I P数量㊁地理位置的多样性㊁它们驻留的不同自治系统的数量等);2)基于域名Z o n e文件的特征(如域名不同g r a m分布的平均长度㊁不同顶级域名的数量㊁字符频率等);3)基于历史证据的特征(如域名解析的I P地址中有多少曾经在恶意样本中出现㊁该域名是否在蜜罐系统中捕获等).B i l g e等人[6]提出了E x p o s u r e恶意域名检测系统.E x p o s u r e克服了N o t o s的部分限制,它能够识别之前从未在恶意活动中看到的恶意域名和地址,并且只需要较短时间的训练数据.B i l g e等人从D N S流量中为每一个二级域名提取了15个特征,其中包括新颖的基于时间的特征(短生命周期㊁每日访问相似度㊁重复模式㊁访问成功的比率等)㊁基于D N S应答的特征(不同I P 地址的数量㊁不同国家的数量㊁共享I P地址的域名的数量㊁反向D N S查询结果)㊁基于T T L值的特征(T T L的平均值㊁T T L的标准偏差㊁不同的T T L值的数量㊁T T L变化的数量)和基于域名词法的特征(数字字符的百分比和最长有意义的子字符串的标准化长度).A n t o n a k a k i s等人[7]提出K o p i s系统.与N o t o s和E x p o s u r e相比,K o p i s使用了D N S系统中更高层次域名流量数据(顶级域名服务器和权威域名服务器采集到的D N S流量).因此,K o p i s从更加全局的角度来提取每一个域名的行为,其中包括基于请求来源分布的统计特征(例如与递归D N S服务器相关联的I P地址的多样性)和请求来源在每个时期结束时向给定域名的D N S流量,递归D N S服务5621彭成维等:一种基于域名请求伴随关系的恶意域名检测方法器的相对查询量以及与域名指向的I P 空间相关的历史信息.这些方法主要是通过针对每一个域名的提取局部特征,并利用机器学习分类器来构建检测模型.可能存在的问题是:如果这些检测方法(特征)被敌手了解之后,很容易通过合理的调整来规避这些特征,逃过检测.本文提出的C o D e t e c t o r 模型是考虑了域名之间的潜在时空伴随关联特性.如果敌手想要绕过C o D e t e c t o r 的检测,需要消除其使用的恶意域名之间的时空伴随特性.例如每次只使用一个域名,然而这极大地降低了恶意活动的灵活性.F i g.1㊀T h ew o r k f l o wo fC o D e t e c t o r 图1㊀C o D e t e c t o r 模型工作流程图K h a l i l 等人[10]提出利用域名和I P 之间的全局关联来检测恶意域名.其主要思路是利用(域名㊁I P )映射数据构建域名关联图.如果2个域名映射到相同的I P ,则在2个域名之间添加关联边.随后,在域名关联图使用基于图上路径搜索的机制来推断未知域名的恶意分数.P e n g 等人[11]提出了一种基于D N SC N AM E 记录的恶意域检测方法,该方法专注于没有解析到I P 地址,但出现在D N SC N AM E 记录中的域名.该方法是基于C N AM E 记录连接的2个域名存在内在紧密关系,并且偏向于处于同样的性质(即同时是恶意域名或者同时是正常域名).他们提出一种基于置信传播的图推理方法,通过计算未知域名与其他已知恶意和正常域名的全局关联来计算其恶意概率.他们的实验结果表明,该方法可以有效揭露被以往研究工作所忽略的恶意域名.M a n a d h a t a 等人[12]提出了一种基于图推断方法的恶意域名检测模型.该模型首先利用企业网络中的D N S 数据构建了一个主机域名二分图,其中如果一台主机访问了某个域名,便在该主机和该域名之间添加关联边,最后利用置信传播(b e l i e fp r o p a g a t i o n )算法在图上进行推断.文献[13]提出了利用D N S 服务器与用户之间通信的D N S 数据来构建域名主机二分图,其主要假设是访问恶意域名的机器更有可能是感染的机器,反过来感染的机器访问的域名也更有可能是恶意域名.然而,上述方法利用D N S 服务器与用户之间的D N S 数据,会带来隐私问题.文献[14]提出利用D N S 数据检测长周期下A P T 中隐蔽可疑的D N S 行为.本文并不是第1个提出利用域名请求伴随关系来检测恶意域名的研究工作.G a o 等人[15]提出了一种基于域名请求伴随关系来检测恶意域名团伙的算法.该工作利用部分已知的恶意域名作为种子,统计域名和种子伴随出现的关系,采用T F GI D F 算法和X M e a n s 聚类算法来提取域名团伙.然而,该工作首先未考虑域名请求之间的时间间隔,因此会将属于不同网络活动触发的域名划分到一个团伙中,存在严重的噪声干扰.本文提出的模型能够自动地挖掘域名的伴随关系,且具有线性的时间复杂度,适合在大规模数据上运行.2㊀C o D e t e c t o r 检测模型本文发现主机层面的域名请求之间存在伴随共现关系,并非互相独立.因此,通过考虑一个域名经常和哪些域名伴随出现能够有效地协助决策该域名是否是恶意域名.本文的基本假设是具有时空伴随关系的域名之间存在紧密的关联,在性质上(恶意性质或者正常性质)具有同态性.具体来说,如果一个域名经常和恶意域名伴随共现,那么该域名偏向于是恶意域名,反之亦然.C o D e t e c t o r 模型首先从D N S 流量中提取彼此具有时空伴随关系的域名,形成时空伴随域名序列集合;随后利用深度学习算法在保留域名彼此伴随关系的同时将每个域名投影成低维实数空间的特征向量;最后结合部分已知的黑白域名,利用机器学习分类算法构建恶意域名检测分类器,用于识别未知的恶意域名.图1展示了C o D e t e c t o r 检测模型的工作流程,其主要分为3个模块.1)时空伴随域名序列提取模块.利用域名请求的先后时间顺序将原始域名数据进行粗粒度的聚类,划分为不同的序列,使得每一个序列中的域名彼此具有时空伴随关系.6621计算机研究与发展㊀2019,56(6)2)特征学习模块.构建映射函数f:Dңd将每一个域名xɪD映射为d维空间的特征向量v i,同时保留域名之间的时空伴随关系,即将具有伴随关系的域名映射到d空间中距离相近的点,把不具有伴随关系的域名映射到距离遥远的点.3)恶意域名检测模块.利用特征学习模块中学习到的每个域名的特征向量,结合部分黑白域名列表,采用有监督的机器学习算法训练恶意域名分类器,并应用于对更多未知属性的域名进行检测.详细介绍每一个模块的设计,最后给出模型时间复杂度分析.2.1㊀时空伴随域名序列提取本模块首先针对原始D N S流量进行粗粒度的聚类操作,将彼此具有伴随关系的域名划分在同一个域名簇中,形成时空伴随域名序列结合.通过对真实的D N S流量分析,本文发现每个用户的D N S请求具有明显分块聚簇的特点,在时间顺序上存在聚类的现象.用户的域名请求一批接着一批发起,不同批次之间的D N S请求具有明显的时间间隔.图2展示了本文采集到的部分用户在10m i n 时间段内的域名请求时间散点分布图,x轴为时间,图2中每个点代表一次D N S请求,不同直线代表不同用户的D N S请求随着时间的散点分布.本文发现,每一个用户的域名请求在时间线上呈现成块行为.例如用户u7,u8,u9的域名请求数据存在明显的聚簇现象,同簇之间的请求几乎同时发起,簇与簇之间存在明显时间间隔.因此,本文近似地按照域名请求时间进行粗粒度的聚类,认为每簇中的域名彼此伴随出现,形成一个时空伴随域名序列.F i g.2㊀T h e s c a t t e r o fD N S q u e r i e s i n10m i n图2㊀10m i n内部分D N S数据请求散点图假设是通过D N S服务器监听到的D N S流量数据,其可以分解为不同终端用户的D N S请求集合,即=ɣiD i,其中D i={(d1i,t1i),(d2i,t2i), , (d n i i,t n i i)}为用户u i请求域名的集合,(d j i,t j i)代表用户u i在时间t j i请求域名d j i,t1iɤt2iɤ ɤt n i i.基于D N S请求的成块聚簇现象,本文提出一种基于时间间隔的域名时空伴随序列切割算法.具体表现是:如果相邻的2个域名请求之间,{(d j i,t j i),(d j+1i, t j+1i)}的时间间隔Δt=t j+1i-t j i大于切割阈值τ(如5s),本文便将这2个域名请求划分到不同的序列中,反之则划分到同一个序列中.图3展示了利用时间间隔切割域名数据的简单示例图.最终,将所有用户的域名数据切割形成的时空伴随域名序列即为从D N S流量中提取的时空伴随域名序列集合.F i g.3㊀A n i l l u s t r a t i o n f o r g e n e r a t i n g c oGo c c u r r i n gd o m a i n se q u e n c e s图3㊀时空伴随域名序列生成说明图2.2㊀特征学习假设={S1,S2, ,S n}为提取到的时空伴随域名序列集合,其中S i={d1,d2, ,d n i}是由n i 个域名构成的序列.本模块的目标是在保留域名彼此之间的伴随关系的同时,将每一个域名映射成低维空间的特征向量.本文把映射操作形式化为似然概率最大化问题:首先,每一个时空伴随域名序列S i的概率P(S i)=P r(d1,d2, ,d n i)为这n i个域名联合出现的概率.因此,映射操作的基本优化目标是最大化序列集合的概率,即:m a x P()=m a xᵑn i=1P(S i).(1)然而,最大化该目标函数在现实计算中存在问题,尤其是当序列长度n i过大而带来的联合概率计算呈指数增长的复杂度.近年来,S k i pGG r a m[9]语言模型在自然语言处理问题上取得了极大的成功,其主要思想是通过一个单词来预测其上下文出现的7621彭成维等:一种基于域名请求伴随关系的恶意域名检测方法单词.启发于S k i pGG r a m模型,本文提出基于滑动窗口的思想来将长度为n i的序列S i分解为多个短小的子序列,即只保留域名和其窗口内域名的时空伴随关系,而忽略其和更远位置的域名关系,从而极大地降低了计算复杂度.本文假设:P(S i)ɖᵑn i j=1P r(C(d j))=ᵑn i j=1ᵑcɪC(d j)p(d j,c),(2)其中,C(d j)为域名d j的上下文.假设窗口大小为w,则C(d j)=(d j-w,d j-w+1, ,d j-1,d j+1,d j+2, ,d j+w),更进一步分解为2w组具有时空伴随关系的域名对{(d j,d j-w),(d j,d j-w+1), ,(d j, d j-1),(d j,d j+1),(d j,d j+2), ,(d j,d j+w)}.图4展示了利用滑动窗口从时空伴随序列S 生成时空伴随域名对的示意图,其中该序列S是由7个域名组成,滑动窗口w=2.采用滑动窗口的方式将时空伴随域名序列分解成时空伴随域名对的操作能够带来2点改进:1)滑动窗口的引入成功地消除了由于序列长度过长而带来的计算复杂度增长的问题,使得在现实中计算成为了可能;2)滑动窗口能够有效地减少噪声伴随关联(将本身不具有时空伴随的域名错误地认为具有时空伴随关系).窗口滑动的方式保证了每一个域名只和其固定窗口大小内的域名具有伴随关系,保证了域名伴随关系的质量.F i g.4㊀A n i l l u s t r a t i o n f o r g e n e r a t i n g c oGo c c u r r i n gd o m a i n p a i r s(w=2)图4㊀基于滑动窗口(w=2)的时空相似域名对生成示意图基于以上改进操作,优化目标函数式(2)为l o g P(S)ɖðn i=1ðdɪS i l o g[P r(C(d))]=ðn i=1ðdɪS iðcɪC(d)l o g p(d,c)=ð(d i,d j)ɪP l o g p(d i,d j),(3)其中,P为基于滑动窗口操作提取的所有具有时空伴随关系的域名对集合.假设f:Dңd为映射函数,将每一个域名d iɪD投影成实数空间d中的一个向量v i.本文采用S i g m o i d函数来衡量这2个域名d i和d j的联合概率,即p(d i,d j)=S i g m o i d(v T i v j)=11+e x p(-v T i v j).(4)更进一步,由于式(3)中只考虑了具有时空伴随关系的域名对之间的映射关系,而忽略了将不具有时空伴随关系的域名投影成d空间中距离较远的向量,因此一个通用的映射方式是将全部域名映射到一个点上.为此,本文采用负采样技术[8]构建不具有时空伴随关系的域名对,并最小化这部分域名对的联合概率.所以,最终本文的目标函数是:m i n[-ð(d i,d j)ɪP l o g p(d i,d j)+ð(d i,d j)ɪN l o g p(d i,d j)],(5)其中,P是所有具有时空伴随关系的域名对集合,N 是通过负采样技术生成的不具有时空伴随关系的域名对集合.本文通过随机梯度下降(s t o c h a s t i c g r a d i e n t d e s c e n t,S G D)[16]算法来最小化目标函数.迭代结束之后,本文便得到每个域名d i在d空间中的特征向量v i.2.3㊀恶意域名检测模块通过最小化式(5),本文将中每个域名表达成d维空间的特征向量.本文通过提前采集的黑白域名列表匹配中的域名,从而获取部分有标签的数据,再结合机器学习分类算法构建恶意域名检测分类器,用于检测未知的恶意域名.2.3.1㊀训练阶段结合域名黑白名单,匹配数据集中出现的域名,本文获得部分标记的恶意域名和正常域名.利用成熟的有监督的机器学习分类算法(如随机森林),结合这部分域名在特征学习阶段学习到的特征向量,最终得到恶意域名检测分类器π:vңs,其中v为域名对应的特征向量,sɪ[0,1]为该域名的恶意打分.2.3.2㊀检测阶段针对其余部分未知属性的域名,本文利用训练阶段学习的分类器进行分类,从而检测未知的恶意域名.对于域名待检测域名d i,假设其在特征学习阶段对应的特征向量为v i,则其恶意打分为s i=π(v i).如果s i>0.5,则判定域名d i为恶意域名,其分数越高,则代表域名d i为恶意域名的可能性越大.8621计算机研究与发展㊀2019,56(6)2.4㊀模型时间复杂度分析C oD e t e c t o r共分为3个阶段.阶段1.将D N S流量切割,按照采集到的D N S 的先后顺序根据时间便可以切割,因此时间复杂度为O(n),其中n是D N S流量中域名请求的数量.阶段2.可以细分为3个部分:1)利用滑动窗口的方式生成时空伴随域名对,针对每一个域名,最多形成2w个伴随域名对,因此,本文最多共有2w n个域名对,且时间复杂度为2wˑO(n).2)利用负采样技术生成和正样本同数量级的负样本,假设针对每一个域名通过随机的方式(如H a s h采样)生成K个负样本(本文中K=5),因此,最多有2K w n个负样本域名对,且时间复杂度为Kˑ2wˑO(n).3)式(5)可以分解为对每一个时空伴随域名对进行优化调整.结合正负样本,最多有2wˑ(K+1)ˑn个域名对.针对每一个时空伴随域名对优化迭代一次的复杂度为d,假设迭代M次,那么式(3)最终的复杂度为Mˑ2wˑ(K+1)ˑdˑO(n).由于M,K,w,d均远小于n,因此第2阶段的时间复杂度为O(n).阶段3.利用已知的黑白域名和其在d空间的特征向量来训练模型分类器.其复杂度与分类器算法的选取和黑白域名的样本数量有关系.例如,本文选择随机森林算法作为分类器算法,共m棵树,训练样本数量为N,则复杂度为O(mˑdˑN l o g N),由于N为训练样本数量,相对于全部域名数量n是很少的一部分,因此这部分的复杂度相对于第1阶段和第2阶段均为常数.因此,C o D e t e c t o r模型的计算量主要集中在第1阶段和第2阶段中,综合起来复杂度为O(n),其中n是D N S流量中域名请求的数目.3㊀实㊀㊀验3.1㊀数据集1)域名黑名单.本文通过采集网络公开的黑名单列表来构建本文中的域名黑名单,其中包括M a l w a r eD o m a i n sL i s t[17],P h i s h t a n k[18],O p e n p h i s h[19], A b u s e L i s t[20].本文从2017G01G03 2017G10G14,持续不断地收集这些来源的黑名单,最后保留去重的域名列表.除此之外,本文还采集了宙斯(Z e u s)病毒中使用的恶意域名和著名的蠕虫病毒飞客(c o n f i c k e r)[21]中通过D G A算法生成的恶意域名.这些黑名单列表包含了形式多样的恶意域名,如僵尸网络命令与控制通道的域名㊁偷渡式下载域名㊁网络钓鱼㊁垃圾邮件㊁网络诈骗勒索等域名,能够很好地覆盖各种不同类型的网络攻击.更进一步,为了保证本文中使用的黑名单列表的可靠性,本文采用G o o g l e S a f eB r o w s i n g[22]来进一步针对从P h i s h t a n k 和O p e n p h i s h采集到的域名做2次筛选,只有当G o o g l eS a f eB r o w s i n g也认为该域名是恶意域名,本文才将该域名保留.2)域名白名单.本文根据A l e x a[23]每天提供的全球访问量最多的100万域名(例如g o o g l e.c o m)列表来构建本文的白名单域名列表.本文筛选那些长时间(如1年)持续排名在A l e x aT o p20000的域名作为本文的正常域名.通过持续排名的条件可以有效地删除噪声域名,例如僵尸网络的域名在攻击活动发生时会存在短暂的访问量爆发,从而有可能出现在T o p20000列表中.实验中,本文收集了2015G01G16 2017G03G05共计513天的A l e x aT o p100万域名列表,本文共发现9216个域名持续地出现在这513天的T o p20000域名中.3)D N S数据.本文中使用的D N S数据集是在一个企业网内部网关捕获的2个月(2017G10G13 2017G12G18)的D N S流量,其中共包含12291055条D N S请求数据包.表1列举了本文的实验数据,其中包括采用基于时空时间的切割算法生成的时空伴随域名序数目㊁基于滑动窗口生成的时空伴随域名对数目,以及匹配到的正常域名和恶意域名的数目.T a b l e1㊀D e s c r i p t i o no fE x p e r i m e n t a lD a t a表1㊀实验数据描述τwC oGo c c u r r i n gD o m a i nS e q u e n c e sC oGo c c u r r i n gD o m a i nP a i r sM a l i c i o u sD o m a i n sB e n i g nD o m a i n s 211490994486285494453036221490994747046494473036231490994982288994473036311414711502995294453048321414711772475394573048331414711101612029457304851131152352362819458305952131152380429459460305953131152310589250946030593.2㊀评价指标为了定量化地衡量C o D e t e c t o r模型对恶意域名检测的效果,本文采用3个指标.9621彭成维等:一种基于域名请求伴随关系的恶意域名检测方法。
基于人工智能的恶意域名检测技术研究
基于人工智能的恶意域名检测技术研究随着互联网的快速发展,网络安全问题日益突出,恶意攻击事件频发。
其中,域名劫持被认为是最危险的网络攻击之一。
为了加强网络的安全性,基于人工智能的恶意域名检测技术逐渐成为热点研究领域。
本文从什么是域名劫持入手,探讨基于人工智能的恶意域名检测技术的研究及其优势。
一、什么是域名劫持域名(Domain Name)是互联网上的一类名字与地址对应关系。
域名系统(DNS)是指把域名和IP地址相互映射的一个分布式数据库系统,能够将域名转化为对应的IP地址以便计算机之间互相通讯。
但是,黑客可以通过修改用户电脑DNS信息,或者侵入DNS服务器,将用户的域名请求指向另一台服务器,使用户访问的网站被劫持。
这种方式叫做“域名劫持”。
域名劫持通常会造成以下影响:用户访问的网站被篡改,个人信息、账号密码等关键信息泄露,甚至用户电脑被黑客所控制。
二、基于人工智能的恶意域名检测技术研究为了解决域名劫持问题,研究者们利用机器学习和人工智能技术,提出了基于人工智能的恶意域名检测技术。
该技术主要有以下两种方法。
1. 基于特征提取的检测方法该方法是将域名中的各种特征转化为向量进行处理。
例如,将域名长度、字符集、字符出现频次等信息进行提取,通过算法进行分类判断,判断该域名是否为恶意域名。
这种方法的优点是其能够自动特征提取,不需要人工介入提取特征。
同时,其能够对多种类型的恶意域名进行有效检测。
但是,该方法可能会因为特征提取过程中的噪声问题而影响分类结果。
2. 基于深度学习的检测方法该方法是通过深度学习技术,对域名输入进行分类。
具体来说,该方法会将输入域名转化为一个矩阵,将其输入到神经网络中进行训练和分类。
相较于传统的特征提取方法,基于深度学习的方法可以直接在原始数据上进行操作,避免了特征提取中的噪声问题。
同时,该方法使用神经网络进行判断,分类结果有效性更高。
三、基于人工智能的恶意域名检测技术的优势基于人工智能的恶意域名检测技术具有以下优势。
基于机器学习的恶意网址检测技术
基于机器学习的恶意网址检测技术恶意网址检测一直是网络安全领域中的一项重要任务,旨在识别并阻止恶意网址对用户、组织和系统造成的潜在危害。
随着互联网的快速发展和恶意活动的增加,传统的恶意网址检测方法已经无法满足快速发展的需求。
因此,研究人员开始将机器学习技术应用于恶意网址检测,以提高准确性和效率。
一、引言随着互联网的普及,用户越来越容易受到来自恶意网址的攻击。
这些恶意网址可能包含钓鱼链接、恶意软件下载链接等,一旦用户点击访问,就会面临泄密、感染病毒、财务损失等风险。
因此,恶意网址检测技术的重要性日益凸显。
二、传统的恶意网址检测方法在传统的恶意网址检测方法中,常用的手段是基于规则的方法和基于特征的方法。
基于规则的方法主要是通过设置一系列规则来判断网址是否为恶意。
例如,通过检测URL中是否包含特定的关键词,如“钓鱼”、“恶意软件”等,来判定网址的可信度。
这种方法的优点是简单直接,但是缺点也很明显,即无法应对新的恶意网址形式,规则无法快速更新,容易被攻击者绕过。
基于特征的方法主要是通过提取网址的特征,如域名长度、域名中包含的特殊字符、域名的历史记录等,然后利用机器学习算法进行分类。
这种方法的优点是可以针对大规模的数据进行训练和预测,但是缺点是特征工程需要大量的人工参与,且特征的选取可能不完全准确。
三、基于机器学习的恶意网址检测技术与传统方法相比,基于机器学习的恶意网址检测技术具有更高的准确性和效率。
机器学习算法可以从大规模的数据中学习模式和规律,并进行智能化的判断和预测。
目前,常用的机器学习算法包括决策树、随机森林、支持向量机和深度学习等。
在基于机器学习的恶意网址检测技术中,首先需要构建一个恶意网址数据集,包含恶意网址和正常网址的标记。
然后,利用特征提取技术将网址转化为可供机器学习算法处理的格式。
常用的特征包括URL长度、域名的IP地址、域名的注册时间等。
接下来,利用机器学习算法对数据集进行训练,生成恶意网址检测模型。
基于机器学习的恶意网站检测系统设计与实现毕业设计
基于机器学习的恶意网站检测系统设计与实现毕业设计基于机器学习的恶意网站检测系统设计与实现摘要:本文针对互联网环境中日益增多的恶意网站问题,设计并实现了一种基于机器学习的恶意网站检测系统。
该系统通过对网站的特征进行提取和分析,将网站分为恶意和正常两类,并能够实时监测新网站的类型。
通过该系统的应用,有效地提升了网络安全的防护能力。
本文将详细介绍系统的设计思路、数据采集与预处理、特征提取、机器学习模型构建以及系统实现,并通过实验证明了该系统的有效性。
1. 引言随着互联网的快速发展,恶意网站的数量与日俱增,给网络安全带来了巨大的威胁。
恶意网站通过各种手段骗取用户信息、传播病毒等,给用户和企业造成了不可估量的损失。
因此,研发一种高效准确的恶意网站检测系统具有重要意义。
2. 系统设计思路本文基于机器学习技术设计恶意网站检测系统。
系统主要包括数据采集与预处理、特征提取、机器学习模型构建和系统实现四个模块。
首先,对恶意网站和正常网站进行数据采集,并对数据进行预处理。
然后,通过提取网站的特征,构建数据集。
接下来,使用机器学习算法对数据进行训练,构建恶意网站分类模型。
最后,将训练好的模型应用于实际系统中,实现对恶意网站的实时检测。
3. 数据采集与预处理为了构建准确可靠的恶意网站检测系统,我们需要大量的数据用于训练模型。
本文使用网络爬虫技术对恶意网站和正常网站进行数据采集,并对采集到的网站进行预处理。
预处理包括URL解析、网页内容提取以及特殊字符过滤等步骤,以便后续的特征提取和模型训练使用。
4. 特征提取在构建恶意网站分类模型之前,我们需要对网站进行特征提取。
本文选择了常用的网站特征,如域名长度、域名含有数字的比例、网页编码方式等,并利用统计学方法对这些特征进行分析和处理,以获得更好的分类效果。
通过特征提取,将网站的各项特征转化为机器学习算法所需的输入格式。
5. 机器学习模型构建本文采用监督学习的方法构建恶意网站分类模型。
基于域名特征融合的恶意域名检测方法研究
基于域名特征融合的恶意域名检测方法研究基于域名特征融合的恶意域名检测方法研究恶意域名是指用于进行网络攻击、传播恶意软件或进行网络钓鱼等不良活动的域名。
随着互联网的普及和发展,恶意域名的数量和种类呈现出爆炸式增长,对网络安全构成了极大的威胁。
因此,研究和开发一种高效准确的恶意域名检测方法具有重要意义。
目前,恶意域名检测主要依靠机器学习和数据挖掘的方法。
然而,单一特征的应用往往难以达到良好的检测效果,因此研究者们开始探索如何融合多个域名特征来提高检测准确率。
本文旨在研究基于域名特征融合的恶意域名检测方法,并对不同特征的影响进行深入分析。
首先,本文介绍了一些常见的域名特征,包括域名长度、含有的特殊字符、数字和字母的比例以及字典攻击等。
这些特征可以通过对域名的分析和处理得到。
接下来,本文提出了一种基于决策树的特征选择算法,通过计算特征的信息增益来确定哪些特征对恶意域名检测更为重要。
然后,本文提出了一种基于随机森林的分类器用于恶意域名检测。
随机森林是一种集成学习算法,能够有效地利用多棵决策树的结果进行分类。
在训练阶段,本文使用大量的已知恶意域名和正常域名构建训练集,并进行特征选择以降低维度。
在测试阶段,将未知域名输入模型中进行分类,并输出其是否为恶意域名的概率。
为了测试我们的方法的可行性和准确性,我们收集了大量的已知恶意域名和正常域名样本进行实验。
实验结果表明,我们方法在恶意域名的检测准确率和召回率方面都达到了较高的水平,相比于单一特征或者其他方法,具有更好的性能和效果。
最后,本文对方法的不足进行了讨论,并提出了未来的研究方向。
在实际应用中,恶意域名检测是一个复杂的任务,需要结合多个特征和算法来实现更好的效果。
同时,随着网络安全威胁的不断进化和变化,我们需要不断地改进和优化检测方法,以应对新出现的恶意域名。
总结起来,基于域名特征融合的恶意域名检测方法是当前研究的热点之一。
通过综合利用多种特征和算法,能够提高恶意域名检测的准确率和召回率,对保障网络安全具有重要意义。
恶意域名检测拦截技术的应用
摘要在新技术、新应用的不断刺激下,各类网站应用服务如雨后春笋般不断涌现。
伴随着互联网 + 产业的蓬勃发展,网络安全形势日益严峻。
钓鱼电子邮件攻击持续高发、仿冒网站窃取用户个人隐私信息及诈骗用户钱财等时刻威胁着用户的合法权益。
这种情况下,迫切需要建立一套全网恶意网址综合防范治理体系。
因此,提出了一种针对多种应用场景下的恶意网址拦截方法,通过基于DNS Forward 的恶意网址拦截、恶意短网址拦截、“拆链”技术在恶意网址拦截中的应用等技术手段,综合治理全网恶意域名检测拦截技术。
不仅提升了全网防护效果,而且有效减少了全网恶意访问流量。
引言截至 2020 年 6 月,我国网民规模达 8.54 亿,较 2019 年底增长 2 598 万,互联网在经济社会发展中的重要作用愈加凸显。
伴随着互联网 + 产业的飞速发展,网络安全形势越来越严峻,网站挂马、网络诈骗、隐私窃取等日益威胁着广大网民的合法权益。
2019 年上半年,国家互联网应急中心自主监测发现约 4.6 万个针对我国境内网站的仿冒页面。
仿冒页面主要对知名网站、金融行业、电信行业网上营业厅等进行仿冒,并通过社会工程学等手段恶意收集用户敏感信息、诈骗用户钱财等。
网站挂马行为更直接威胁到广大网民使用的个人终端,通过在个人终端上运行挂马程序以达到控制个人终端的目的,进而持续威胁网民的合法权益。
恶意网站的肆虐对广大网民的正常上网行为构成了巨大威胁,因而迫切需要建立一套全网恶意网址综合防范治理体系。
一、恶意域名或网址检测恶意域名或网址主要分为挂马网站、黄赌毒网站和钓鱼网站。
挂马网站指的是向网站页面中加入恶意代码,当用户访问该页面时会自动访问被转向的网址、下载木马病毒,或是利用浏览器漏洞来执行恶意代码以达到危害用户权益的目的。
黄赌毒网站宣扬的内容本身并不合法,这类网站中也可能隐藏着病毒木马。
钓鱼网站是通过模仿知名网站页面等手段来欺骗用户,利用社会工程学恶意收集用户敏感信息、诈骗用户钱财等。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
外的OpenDNS、国内的奇虎360等众多安全公司纷纷投 入大量的人力物力进行DNS相关安全技术研究。
本文将重点从域名自身特征出发,介绍DNS安全 问题和对应的安全检测技术。论文的组织结构如下: 第1节介绍当前典型DNS恶意行为及其特征,第2节分 类介绍DNS安全检测技术,第3节介绍两类典型的DNS 检测系统,最后在对本文进行总结的基础上,对未来 DNS恶意行为检测前景进行展望。
美国国土安全部于2013年发布了爱因斯坦3促进计 划和网络安全增强服务计划,两个计划都将检测DNS恶 意域名并将其指向合法地址作为应对网络空间威胁的重 要手段之一。国家互联网应急中心和中国互联网信息中 心定期发布的安全报告都将DNS域名的安全性分析作为 感知国家网络安全态势的重要组成部分。与此同时,国
1 DNS恶意行为概述
本文主要研究基于域名的恶意行为问题,包括基 于命令控制信道的DNS恶意行为和误植域名注册等。 域名系统自身的安全性问题,可通过规范配置、安全 加固、加强管理等手段改善和提高,不是本文关注的 范围。
利用域名构建命令控制(Command and Control, C&C)信道是最常见的一种基于域名的恶意行为。命令 控制信道是控制者管理大量主机的通信路径,易被非法 利用。攻击者利用域名构建命令控制信道,通过传递 命令控制信息,进行网络攻击。基于命令控制信道的
检测技术
意域名进行分析和检测
基于域名互通性安全 DNS图技术
检测技术
防御攻击类型 僵尸网络
误植域名 僵尸网络 恶意域名
2.1 基于域名生成机制安全检测技术 基于域名生成机制的安全检测技术主要针对的是基
于域名生成算法(Domain Generate Algorithms,DGAs) 生成的域名。DGAs也称为“域流量”,它可以动态频 繁地产生大量的随机域名,从而避免通常僵尸网络检测 系统的检测和阻止。
Research & Development 研究与开发
基于域名的恶意行为检测技术
吕 品1,2 柳厅文1 张 洋1 亚 静1 时金桥1 1 中国科学院信息工程研究所 北京 100195 2 国家信息中心 北京 100045
摘 要 文章首先对域名恶意行为进行简述;然后从域名恶意行为生成机制、相似性、跳变性和互通性四个维度介 绍现有的基于域名的恶意行为安全检测技术;之后从DNS流量检测系统和基于DNS数据挖据技术两个维度介绍现有 的检测系统;最后展望了恶意域名检测的发展方向。 关键词 DNS恶意行为;DNS安全检测技术;DNS检测系统
当前,针对DNS恶意行为的安全防护技术在快速发 展,越来越多的安全防护技术被提出。本文重点对典型 的DNS恶意行为如僵尸网络、误植域名注册和恶意域名 等的安全检测技术和检测系统进行分析和分类介绍。
2 DNS恶意行为安全检测技术
为了更清晰的阐述DNS恶意行为检测机制,本文 从域名的技术特征进行分类,介绍相应的安全检测技 术,并将其与所适用的恶意行为类型进行对应。
引言
随着信息技术的快速发展,网络攻击从传统的计 算机网络迅速扩展到移动互联网、物联网等新兴通信网 络,并延伸至交通、通信、工业控制等各个领域。网络 攻击的强度和多样性也达到了前所未有的高度。这使得 网络安全问题成为互联网发展面临的核心问题之一。
域名服务系统(Domain Name System,DNS)主要 提供域名解析功能,完成域名到IP地址的双向映射。作 为互联网最重要的核心基础设施,DNS极易被各种网 络攻击恶意利用,如僵尸网络、欺骗攻击、误植域名注 册等,使得DNS安全问题已经成为互联网安全可靠运 行必须要解决的安全问题之一,受到了诸多国内外相关 机构的重视。
因此,针对基于域名生成算法生成域名的分析和检 测,逐渐成为了僵尸网络检测技术的重点。当前对域名 生成机制的检测手段主要有域名相关的流量检测、域名 的关联分析、域名的信誉分析等。
流量检测方面,Antonakakis[1]等人提出了一种针 对随机生成域名僵尸网络检测方法。该方法针对来自同 一个僵尸网络(具有相同DGA算法)的“肉机”(bots), 查询将会产生相似的非存在域名(NXDomain)的网络流 量,利用聚类和分类算法对域名进行聚类分析,并依据 聚类结果对僵尸网络进行检测。Guerid等人[2]提出了一 种兼顾用户隐私和系统性能的僵尸网络检测方法。该方 法能够针对僵尸程序的行为识别僵尸程序,并利用关联 组织内的流量来识别控制僵尸程序的恶意服务。Sato等 人[3]提出了一种寻找未知黑域名的方法。该方法利用两 个不同域名的共生关系来寻找未知黑域名,即如果一个 域名与一个已知的黑域名频繁伴随出现,那么认定该域
域名的主要技术特征分类包括域名的生成机制、域 名的相似性、跳变性和连通性等4种,如表1所示。
表1 DNS恶意行为安全检测技术
技术分类技术特征基于 Nhomakorabea名生成机制安 全检测技术
对域名生成算法(DGAs) 生成的域名进行分析和检
测
基于域名相似性安全 对恶意域名和合法域名之 间的相似性
检测技术 进行度量
基于域名跳变性安全 对于基于Fast-Flux的恶
23
研究与开发 Research & Development
DNS恶意行为主要包括僵尸网络方式和恶意域名方式 两类。1)攻击者通过各种途径传播僵尸程序感染互联网 上的大量主机,而被感染的主机将通过一个控制信道接 收攻击者的指令,组成一个僵尸网络。在各种针对域名 的恶意行为中,僵尸网络,尤其是基于Fast-Flux(一种 通过使受控制主机快速持续变换DNS记录,进而导致 域名解析出的IP也快速持续改变的技术)的僵尸网络逐 渐成为网络安全的最大威胁。僵尸网络为很多非法恶意 行为提供了分布式平台,这些恶意行为包括攻击关键目 标的分布式拒绝服务攻击(DDoS)恶意软件传播网络钓 鱼、欺诈等。2)恶意域名方式是指利用DNS或应用的 漏洞嵌入恶意代码,进而对用户系统进行恶意破坏的系 统。恶意域名通过域名服务(DNS)管理由大量受感染主 机组成的分布式网络,因此恶意域名如钓鱼网络、垃圾 邮件、僵尸网络的指挥控制等,已经成为危害网络安全 的重要威胁之一。
与基于命令控制信道的DNS恶意行为不同,误植 域名注册是一种意图混淆商业域名或其他著名域名的 恶意行为。攻击者常常将那些与合法网站相似的域名注 册为虚假域名。这些虚假站点可被用来发布假广告、卖 假商品,甚至更糟糕的,骗取使用者信息并进行身份盗 窃。如攻击者常常注册一些像、 这样的域名,当用户输错字符时,常常会访问这些网 站,而这些网站与原网站具有较高的相似度,从而使其 遭受误导,甚至遭受侵害。