自动机运用实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
形式语言与自动机运用实例
潘主强学号:201421000558 形式语言与自动机理论来源于 Chomsky对自然语言的研究和ALGOL60语言的语法描述方式。形式语言与自动机理论主要用于:
1) 给出语言的语法描述方式;
2) 由文法得到的正文符合文法规范的句子;
3) 通过程序的词法分析得到编译器所需的结构分析;
4) 通过二义性检查来保证程序被计算机接受的唯一分析。
▪确定有限自动机在BBS信息监测系统中的运用
▪不确定有限自动机(DNA)基因网络中的应用
确定有限自动机在BBS信息监测系统中的运用
▪确定的有限自动机(DFA)
定义:确定的有限自动机(DFA)是一个五元组 M=(Q, Σ, δ,q0,F)其中 Q:有限状态集, Σ:字母表,q0∈Q是初始状态,F⊆ Q是终止状态集, δ: Q × E→Q 称为状态转换函数。
▪电子公告栏系统相关介绍:
电子公告栏系统(Bulletin Board System,简称BBS)又称电子布告栏系统,它来源于Linux的FireBird系统,它是建立在互联网上,面向公众,提供发布公共消息、聊天、信件服务等功能,满足用户获取信息、交流情感等要求的信息服务系统。
BBS信息监测系统主要是针对当前BBS系统中出现危害国家安全、社会稳定而开发的能过滤BBS中的机密、敏感、不良信息的系统。系统采用自动机的理论,创建匹配信息树,对信息进行分析、处理。对于有限自动机A,对于待监测的字符串S=S1S2…Sn,初始时,有限自动机A处于开始状态a0,从左至右逐个扫描字符串S;在δ(a0,s1)=a1的作用下,有限自动机A处于状态a1;在(a1,s2)=a2的作用下,有限自动机A处于状态a2…。当扫描进入某一个特定的接收状态,即为检测到某不良信息。
当扫描结束,若接收机处于初始状态,则表明该字符串未有不良信息存在。
建立在BBS服务器上的系统采用一个比较小的词典在BBS系统后台运行,直接对出现的明显的色情、反动字眼进行删除。建立在终端上的系统实时的对BBS系统进行检测,一旦发现问题,可以立即报告。而建立在备份服务器上的系统对整个系统进行完全的、彻底的检查。这样的方式最大限度避免了各自的问题,发挥了各自的优点。
检测系统中运用形式语言与自动机理论,使用有限状态接收机模型, BBS信息监测系统对照监测字典中的字符信息,对文本内容进行分析、匹配,获取监测结果。
成效:
系统具有3个模块,分别为服务器后台监控组件、终端实时监控组件、备份服务器完全检测组件。通过对三个组件的结合使用,BBS信息监测系统达到服务器负荷10%以下,终端监测系统负荷在30%以下。不良信息平均监测时间30 s,命中率在90%以上。系统在实践中对BBS系统的信息进行监测,得到了良好的效果,对敏感信息的分析、监测,都达到了系统设计的要求,BBS站的管理中发挥了重要作用。定义:不确定型的有限自动机(NFA)是一个五元组M=(Q, Σ, δ,q0,F)其中 Q:有限状态集, Σ:字母表,q0∈Q是初始状态,F⊆ Q 是终止状态集, δ状态转换函数.
背景:基因调节机制是一个非常复杂的过程。生物信号通过一对一的调节机制逐渐地被转移和扩散到下游基因,从而达到调控基因表达的目的。从细胞生物学的观点来看,基因表达水平影响基因调节过程。在不同的基因调节机制下,基因表达水平的表达水平也不尽相同。正常细胞中的基因通过多步调节机制来控制细胞生长、差异、重生和细胞凋亡过程。癌症是由于许多外界因素导致基因调节机制的改变。基于传统的观点,基因的调节状态可以被简化地归为激活和抑制两类。
传统电子计算机产生的随机数是伪随机数,因而其随机算法不是严格意义上的随机计算。由于生化反应的随机性,随机分子生物计算机比确定性分子生物计算机更适合解决随机性问题。将不确定 DNA 有限状态自动机应用于基因表达网络,分析基因表达网络的不确定性,给出了不确定 DNA 有限状态自动机各组成部分编码的形式描述。
DNA 计算机是分子范围内的可编程计算机,其输入、输出、软件和硬件都由生物分子构成。 DNA 计算机有望以一种生物分子内在的形式来直接分析生物信息学问题,而不需要转换成电子计算机的信号。
2004 年,Benenson 等人就设计了确定性 DNA 自动机用于疾病体外分子诊断。通过对疾病分子信标的识别和分析,一种预先编程的称作分子药物的反义 DNA 链会释放,以破坏疾病基因的表达。由于分子生物系统固有的随机性,随机分子生物计算机比这种确定性分子生物计算机可能更适合解决这类问题。为了搞清基因表达之间的相互制约关系,科学家采用了其有正(positive)、负(negative)控制的基因网络的一个形式化模型-有限状态自动机。
具体地讲,基因被激活后,将在一段时间后出现产生物蛋白质;基因被抑制后,在一段时间后停止出现蛋白质。如果把单个基因的状态看成on和off,产生物(例如蛋白质)的状态表示成absent和present,就得了一个基因的逻辑模型。
进一步地,把单个基因X的状态on和off以及X的产生物状态present和absent看作自动机的输入,并分别用符号α、γ、β和λ表示,可进一步构造其对应的有限状态自动机。
在基因和其产生物之间,未必不会有意外发生,比如可以是基因状态的异常,也可以是产生物的异常。要描述这种异常,首先要引入异常状态,其次建立不确定有限状态自动机模型。
一个基因X 及其产生物蛋白质组成的非确定型有限状态自动机G=(Q,Σ,Δ,q,F),其中状态集Q={0,1,2,3,4 },其中4为异常状
态;输入字符集合Σ={α,γ,β,λ};初始状态q={0};终止状态集合F={Ф}。其所对应的不确定有限状态自动机
下图 2 给出了随机有限状态自动机的形式描述,其中 S0 是初始状态。相对于确定有限状态机而言,随机有限状态自动机都会按照一定的概率潜在地选择状态转移规则集合中的每一条规则,也就是说每一条规则都有一个预先定义的概率来刻画,而对于一个给定的状态-符号组合,其对应状态转移规则的概率和为 1。例如,在 S0 状态下,读取字符 a 的两条规则选取的概率分别为 0.8 和 0.2。