生物信息计算中几个常用数学模型

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

熵、相对熵与信息增益
• 随机事件的信息量 H ( h ) : 应满足: 1. 是该随机事件的概率的函数: h(A)=H(P(A)), 2. 如果事件A与B相互独立,则 h(AB)= h(A)+ h(B) 3. H 非负. • 上面的2等价于 H(pq)=H(p)H(q), 即 H(p)= - log p
相对熵
• 给定分布(m(1),…m(s)) 与 (n(1),…,n(s)), 它们的 相对熵是 [m(i)log(m(i)/n(I))]对所有 I 之和. • 两个分布的相对熵表达它们之间的差别— 相对熵是非负的,而当它们相等时相对熵为0, 两个分布的差别越大,相对熵越大。 • 两个分布的相对熵也称信息增益,意思是将一个 分布错当为另一个分布时, 所增加的信息量.
wenku.baidu.com
• Bayes 统计是生物信息中最常用的思想和 方法之一.
隐马氏链(模型)
• 有时,我们所关心的马氏链是看不见的,我们能 够看见的是另一个随机序列,称为观测序列。 二者合在一起组成一个隐马氏模型 (HMM〕 • 在MA中,我们只能看见多个DNA(蛋白)序列,并 不知道每个DNA(蛋白)序列中哪里应该是插入、 删除、或错读。 后者正是作MA时,我们要找 出的,于是,这二者就组成一个隐马氏模型 • 在 Gene Finding 中,隐马氏模型被许多作者广 泛地使用,例如 Genescan, GeneMark.hmm 是 效果较好的著名软件。我们利用HMM得到了 可以抗干扰的基因识别算法.
相对熵
Bayes 公式、 Bayes统计
• 例:一个信号源分别以 0.6、0.4 的概率发出信
号 I、II。接收端以图中所示概率接收到信号。 现在接收到信号 II,要判断系统发出的信号是 什么?
利用 Bayes 公式可以计算出接收到 II 的条件 下, 发的是 I 与 II 的概率: P ( 接收 II ) = 0.4 x 0.7 + 0.6 x 0.2 = 0.4 P(发 I | 收 II) = 0.6 x 0.2 / 0.4 = 0.3 P(发 II | 收 II) = 0.4 x 0.7 / 0.4 = 0.7 可见判断发出的是信号 II, 比较合理, 因为这样 判断正确的概率是 0.7, 错误的概率只有 0.3. Bayes 统计的基本想法就是这样.
生物信息计算中 几个常用 数学模型概念与方法
• • • • • • Bayes 公式、 Bayes统计 马氏链 (Markov chains) 隐马氏链 (Hidden Markov chains) Poisson 过程与连续时间马氏链 熵、相对熵与信息增益 神经网络 (neural networks (NN)): Multi-layer feed-forward NN, self-organized learning NN, recurrent NN(Hopfield NN, Bolztmann machine )
随机试验(变量)的熵(Shanon)
• 随机试验(变量)的熵是它的不确定性的度量. • 随机试验(变量X)的熵也是知道它的试验结果 (值)可以得到的信息量.它应该是 H = E(-log p(X)) ( p(.) 是 X 的分布 ) • 如一个系统可以由一个随机变量(向量)来描述, 这个系统的复杂性就是这个随机变量(向量)的 信息量.
熵与相对熵的应用
• 在由基因芯片的癌症与正常样本的基因表达数 据中,要选择相关基因时,可以考虑利用每个 基因中癌症与正常样本的分布的相对熵的大小 来衡量其与癌症的相关性。 • 在Gene Finding 中,一个重要的步骤是决定 Donor 及 accepter的位置。利用最小熵的原则, 可以逐次得到重要的位点及其分布。
相关文档
最新文档