身份识别技术的发展趋势

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

身份识别技术的发展趋势

目前随着电子商务和电子政务的发展,以及GSM,CPRS,CDMA,WLAN等无线移动通信技术与相应业务的发展,身份认证的理论和技术已经在不断成熟完善的基础上,出现了几个研究热点。

2.1图像口令技术

传统的口令认证技术主要是基于文本口令,大部分安全系统为了保证口令的安全性都会要求用户选择较长的复杂口令,这种文本口令提高了安全性但是由于难以记忆,输入不便,使得很多用户仍然使用弱口令。图像口令技术是用一组图像组成的集合代替文本字符集合,用户通过从图像集合中选择P个图像合成自己的口令。认证系统系统在认证时给出T个图像,用户从中选出自己生成口令时的P个图像。由于图像包括的信息远大于文本,很难实现自动字典攻击。而且这种口令很难记录也不易与人共享,增加了安全性。

该系统的安全性在于从T个图像中选取P个图像口令的组合数大小,为了提高安全性应使组合数T!/[(T-P)!P!]尽量增加。

2.2生物特征识别技术

以上传统的身份验证方式,都是基于。what you know。或者。what youhave。的验证手段,它只能说明用户具有登录权限,并不能说明用户为非冒充者,直到生物识别技术的出现和越来越多的普及。比尔盖茨曾断言,生物识别技术将成为未来几年IT产业的重要革新。越来越多个人、企业乃至政府都承认,现有身份加密码或基于智能卡的身份识别系统远远不够,生物特征识别技术在未来的身份识别方面将

占据不可或缺地位。

生物识别技术是通过提取人体的生物特征数据或行为的特征属性来进行身份认证的一种技术。生物特征是指人体独一无二的可通过测量得到,又能被用来利用的身体或者行为特征,它分为身体特征和行为特征两类。身体特征有:DNA结构、指纹、虹膜、视网膜、脸型、头发硬度等;行为特征有:音调、签名、行走步态等。生物识别技术的出现,为解决真正意义上的身份验证提供了可能,江林升教授提出的在网络化考试中运用实时人脸识别技术对身份的验证,效果显著,但实现此类技术所需的硬件、网络带宽等要求较高,因而实现难度较大,普及也相对困难。

2.3基于数据挖掘的身份识别

由于数据挖掘技术的出现,一种基于数据挖掘技术的身份识别技术应运而生了。它不必像生物识别技术那样需要个体的生物特征,而只需个体的行为特征,又克服了传统身份识别的单一性缺点。它通过挖掘人们的历史行为,得到人们的行为模式,再根据相应的预测算法,来鉴别身份的真实性。

目前较为火热的Web挖掘,不但可以为网站挖掘出具有价值的信息,也能为网站的安全提供安全参考。基于数据挖掘技术的对异常数据的捕获、用户可信行为的分析等应用也不断成熟,已为验证用户身份真实性提供了可能

3一种基于数据挖掘的个人身份信息自动识别模型

本文提出的基于数据挖掘技术的个人身份信息自动识别模型,如

图1所示。

该模型主要由基于正则表达式的信息匹配、文本预处理、权重计算和特征词降维以及机器学习四部分组成。其中基于正则表达式的信息匹配主要是便于快速地从电子邮件中匹配出包含有个人身份信息的电子邮件的模块;文本预处理则是将非结构化的基于人类自然语言的文本转换为机器可识别的文本;权重计算和特征降维是对分出来的词进行一定的处理,以便进行机器学习;机器学习则是对特征向量进行训练,最终形成个人身份信息识别模型。

3.1正则表达式

目前已经有很多用来匹配个人身份识别信息的算法,文献[2]提出了一种基于正则表达式的邮件类协议识别与跟踪的协议识别方法,通过提取协议应用的特征以及关键词,撰写相对应的正则表达式。正则表达式是一种用来查找一个串中是否含有某个子串,替换或者取出匹配的子串,是一种用于模式匹配和替换的工具,在Linux中应用广泛。Vi编辑器,Awk,Sendshell等程序都是基于正则表达式。而且正则表达式已经超出语言和系统的局限,在计算机程序中应用广泛,用户通过编写基于正则表达式的匹配模式,然后把这些匹配模式和一些数据,例如web数据输入进行比较,根据比较的结果执行相应的操作。正则表达式可用于字符串模式匹配和替换,最简单的模式就是一个所要查找的字符串。模式在处理文档工作中是非常普遍的,语句SELECT*FROM TABLE1WHERE NAME=”TOM SMITH”中的字符串”TOM SMITH”

就是一个简单的模式。实际应用中用户所要查询的是更为一般,更为通用的模式。合理地使用正则表达式进行数据库查询不仅可以降低查询语句的复杂程度,而且还能简化对出错语句的修改工作。本文之所以采用正则表达式来进行个人身份信息的筛选,一方面因为它简单易用;另一方面则是正则表达式所表现出来的匹配能力。

3.2特征词的抽取和降维

通过正则表达式匹配出来的电子邮件的主题和内容存储为文本形式的文档,由于所转化出来的文本文档都是非结构化的,不利于计算机自动分析处理,因此需要对文本进行一定的预处理。利用基于向量空间模型的方法来抽取特征词。其基本原理是把文档简化为以特征项的权重为分量的向量表示:(W1,W2,…,Wn),其中Wi为第i个特征项的权重。权重采用归一化的相对词频,其计算方法运用

TF-IDF公式:

其中,W(t,d)为词t在文本d中的权重,而tf(t,d)为词t在文本d 中的词频,n为训练文本的总数,nt为训练文本集中出现t的文本数,分母为归一化因子。经过以上处理和计算后可以将文档库表示为m*n 的词---文档矩阵(Term-Document Matrix):

公式(2)中,m为文档库中包含的所有不同词的个数;αij为由公式(1)计算得到的W(t,d)表示第i个词在第j个文档中出现的权重。不同的词对应矩阵A不同的一行,每个文档则对应矩阵A的一列。通过上述步骤生成的向量空间是一个高维向量空间,可以达到几万维甚

至几十万维。在这样一个高维特征空间上进行训练和分类存在一定的问题和困难,因此需要进行降维处理,把特征维数压缩到与训练样本个数相适应的地步。降维后可以删除噪音,避免过学习现象,提高分类效率和分类精度。本文中选用互信息特征选择方法,算法基本思想是,特征词t与类别C的互信息越大,说明特征t中包含的与类别有关的鉴别信息就越多。算法基本过程如下:对于每个词,根据公式计算词和类别的互信息量:

其中:

其中,P(t︱Ck)为t词在Ck中出现的比重,︱D︱为该类的训练文本数,N(t,dI)

表示dI中t的词频,︱V︱表示总的词数,N tj,di Di=1Vj=i表示这个文本类中所

有词的词频之和。P(t)表示词在所有训练文本中的比重。计算公式相同,但︱D︱的含义为全体训练的文本数。根据公式(3)计算结果将取值最大的前m个特征保留下来,实现降维。m值的确定一般采用先给定一个初始值,然后根据实验测试和统计结果逐渐调整最终确定最佳值。文本预处理后,每一个文本可以被表示为d=(w1,w2,…,wm),这样就将n个文本转化为m维的单位向量。

3.3机器学习

分类是数据挖掘和机器学习领域的一个主要任务。分类要解决的问题

相关文档
最新文档