网络方面的英文文献
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
在IEEE通信学会的主题专家的方向在IEEE ICC这全文论文同行评审的出版2009程序
敏感数据要求:做网站询问是否正确?
克雷格A.树和Minaxi古普塔
计算机科学系
印第安纳大学
{cshue,minaxi}@
摘要:为了确保敏感的Web内容的安全性,一个组织必须使用TLS以确保这样做正确。然而,很少有人知道如何使TLS实际使用在网站上。在这项工作中,我们进行大规模的网络范围内的测量,以确定如果网站需要使用TLS的时候,当他们这样做,确保他们使用它正确。我们发现,其中TLS几十万页要么不使用要么使用不当,将会使敏感数据处于危险之中。
引言
该网站提供了电子商务前所未有的机遇。
此类交易的安全性是一般
通过使用传输层安全提供
性(TLS)协议[1],在标准跟踪安全的后继
套接字层(SSL)协议。TLS允许客户端验证
他们访问和服务器的真实性保证
在客户端之间的通信的保密性和
服务器安全。虽然以前的工作分析TLS证书和
该协议本身,很少的工作重点在其网站上使用。
本文由愿望所驱使,了解TLS是怎么
在今天的网络上被使用的。Web内容的很大一部分是公开可用的,并且不要求保密性。在
很多情况下,如阅读新闻的文章或使用搜索
发动机,TLS保护的好处不超过
性能开销与该协议有关。在
其他情况下,敏感信息被发送并应
通过TLS进行保护。然而,仅仅使用TLS不
够了;它仍然必须正确使用。调查TLS
使用在网络上,我们提出两个主要问题:是否有
在网络上的网站,不使用TLS时,他们应注意什么?做到这一点使用TLS这样做正确的网站?动力
对于第一个问题是敏感信息可能
通过窃听者很容易被截获,除非使用TLS。
第二个问题是通过观察,TLS动机
保护必须从Web服务器发送一个表格前
到客户端。否则,将含有一个表格页可以
被攻击者改变,允许敏感截取
数据。几大机构,包括,
,或,建立了TLS
客户端后,保护已下载的网页,但在此之前
提交表单数据。这种做法,被称为安全的岗位,是通常由具有高体积的组织
用户流量从未签署到页面上的表单。此
特别常见的,当窗体出现在主
一个网站的页面。这些组织使用安全后,以避免
与TLS的nonauthenticating相关的性能开销
客户端。不幸的是,这种做法提供了anopening 攻击者假冒网站和推出 一个中间人攻击的Web 客户端。
为了研究这些安全性差的做法的程度,我们 实现了一个网络爬虫和检查HTML 表单 430万网页。我们做了几个关键的观察 从这样的分析。首先,网页31-36%不使用
TLS 在所有的时候,他们应该。为了解决这个问题,我们 已经实现了浏览器扩展,警告用户约 进入网页上做的核潜艇和信用卡号码 除了不使用TLS 来识别领域的询问敏感 数据。这导致更少的,但更精确的警告。在 手动评估分机的有效性,我们
没有发现假阳性和两种可能的假阴性。
其次,我们发现不安全的网页,有形式,1.65%的 - 4.49%有被通过HTTPS 提交的至少一种形式中, 导致安全交漏洞。如果剥削,不安全 入口点可能会导致欺诈,可能与显著 财务影响的用户和脆弱的部位。
我们提出了一个浏览器扩展,试图验证这些 使用TLS 提交敏感数据的切入点和 如果这样的验证失败发出警告。
本文的其余部分的结构如下。在第二节, 我们讨论我们的数据收集和方法。在第三节, 我们研究的网站,不提供TLS 保护敏感
数据并提出了一些预防措施,用户可以利用。在第 第四,我们分析认为滥用TLS 和建议clientbased 网站 策略来解决这个问题。我们回顾相关 在第五节工作,并得出结论:在第六节。
II 。数据收集和方法
为了获得对TLS 使用的见解,我们进行了大规模的, Internet 范围的Web 爬行。我们把我们的抓取成四 数据集,其被选择来捕获不同类型的 网页:热门的网页,这些访问的机器上我们 网络,并且这些随机选择的。 在第一数据集,我们把它称为DMOZ 广度的数据集,我们获得了从一个网址列表 DMOZ 开放目录项目[2]。 DMOZ 的项目包括 形成一个目录查找用户提交的链接的
数据,而不是使用一个检索的方法。数据集,
收集在2008年2月13日,载9165163链接。的
这些,4025911联系是独一无二的。大多数这些链接使用
HTTP,HTTPS不,这意味着他们没有使用TLS。共
的2312链接使用TLS。我们消除这些TLS保护
因为在这些任何形式进一步考虑链接
网页将牢固地被默认发送。在courseof几个星期,我们能够以检索总共3213764
从DMOZ链接的网页。这广度为基础的抓取是
肤浅的;它只检查直接链接的页面
DMOZ。虽然这种策略让我们的抓取工具来检查
从大量的域的页面,它会无法捕捉
形式的二级页面。
对于其余的数据集,我们进行了更详细的
爬行。对于每个这些数据集,我们得到一个URL
一个首页,下载的网页和链接的任何页面
从该页面是一样的DNS域的内
原来的页面。这个更详细的爬行限制的广度
域,而发现的形式被直接从挂钩
主页。某些URL可能存在于多个数据
集。由于其独特的爬行方法,我们允许
DMOZ宽度数据集与剩余的三个重叠
没有试图消除??重叠。
所述第二数据集(DMOZ深度)再次使用从链接
在DMOZ开放目录项目。然而,而thanconduct一个完整的扫描,我们随机选择了16,500独特的链接来执行我们的抓取。这使我们能够直接比较
浅表抓取诗句详细的爬网的策略
寻找形式。我们获得78 726Web从这个抓取网页。
在我们的第三个数据集(Alexa的),我们分析了流行的Web
站点。我们使用的Alexa网络信息服务[3],这
居互联网上最流行的Web站点,获取
1,000最流行的网站在每个16顶级类别,
以及前500个最流行的网站的整体。有些网站
存在于多个类别;在删除重复,
我们发现15,341独特的网站。我们使用的每个站点
来自Alexa的获得首发的Web爬行网页。此
爬行导致344,868的网页。
在最后的数据集(DNS),我们针对实际用户
行为。要创建这个数据集,我们捕捉到所有的DNS
对于为期一周的发行我们部门的网络上查询
期。我们使用包含在A(地址)的主机名