计算机科学引论课件06

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
机器学习

高级建模算法




SVM: Support Vector Machine GMM: Gaussian Mixture Model EM: Expectation Maximum HMM: Hidden Markov Model 人工神经网络:Neural Network 矢量量化:Vector Quantization 不同应用需要不同的建模算法 目前的建模算法仍然不够完善
人工智能
理解人类的感知
理解听觉 理解视觉
理解自然语言(NL:

Natural Language)
自然语言是一种特殊的“感知”:视听觉只是其 传播方式 多媒体处理(Multimedia Processing):综合分 析多种媒体的内容来对一个素材的内容进行理解
Machine Structure 6
13
多媒体处理
理解声音
第一步:把声音信号变换到频域
FFT: Fast Fourier transform DFT: Discrete Fourier transform ……

第二步:把频率信息变换成特征

倒谱(cepstrum):把频域信息再次进行频率变换

MFCC LPCC



在某些应用获得成功:如主题分类 目标具有统计性质 如何实现提取时间、地点、人物、事件等细节特征? 目标是一个个体,不具有统计性质 WEB分析:如果有很多文档,则这些个体内容很 可能被多次重复,从而具有了统计性质
Machine Structure 32
2013年7月12日
多媒体处理
Machine Structure 30
2013年7月12日
多媒体处理
自然语言处理
理解自然语言的真实语义

中文:分词(Word Segmentation)

把连续的字分成以词为单位
标注各个词为动词、名词…… 标注各个词为主语、谓语宾语…… 标注句子的语法结构

词性标注(POS: Part-of-Speech)
2013年7月12日
Machine Structure
17
多媒体处理
理解声音
机器学习

第一步:获得一个训练集(Training Set)

特征矢量和所需要的语义的对应关系
模型(Model)

第二步:根据训练集训练出对特征空间的划分


第三步:根据所获得模型对新到特征矢量分类
2013年7月12日
……
fxn 输出
2013年7月12日
Machine Structure
11
多媒体处理
理解声音
频域
白噪声: 在整个频率域的强度大致相当
2013年7月12日
Machine Structure
12
多媒体处理
理解声音
频域
语音: 3.4KHz以下强度大,以上很快 衰减
2013年7月12日
Machine Structure
Machine Structure 25
2013年7月12日
多媒体处理
理解图像
第一步:检测Salient

Object
把原始图像分割成特征一致的区域 把区域分类,合并相邻的同类区域
原始图像
2013年7月12日
分割区域
Machine Structure
Salient Object
26
多媒体处理
提高检测准确率 减低检测噪声
2013年7月12日
Machine Structure
28
多媒体处理
理解视频
叠加多帧的检测结果可获得非常稳定的结果
Text
Face
Hair
Inside Skin
Blood
2013年7月12日
Machine Structure
29
多媒体处理
理解文字(自然语言)
实际计算中这两步常常合并成一步
2013年7月12日 Machine Structure 14
多媒体处理
理解声音
特征(Feature)
物理上:可以较好地反映某个特性的物理量 数学上:一个矢量(Feature Vector)

特征提取(Feature

Extraction)
从原始信号中计算出所需要的特征 一旦原始信号被抽象成特征,对感知的理解问题 就成为一个数学问题
2013年7月12日 Machine Structure 7
数学模型 语义
多媒体处理
理解声音(audio)
声音分类
噪声(noise) 乐音(music) 语音(speech)

声音识别

检测风声、雨声、读书声……爆炸声

较少

语音识别(Speech Recognition)
2013年7月12日
理解人类感知
特征提取
如何提取好的特征? 如何把一个语义检测问题转换成一个数学问题

机器学习
如何获得好的分类模型 如何解决所转换出的数学问题

两方面均是现在计算机科学研究的热点

仍然没有好的解决方案
Machine Structure 33
2013年7月12日
推理
理解人类感知给计算机提供了输入


语法分析(Syntax Parsing)


准确率一般不高:自然语言本身不是很精确
Machine Structure 31
2013年7月12日
多媒体处理
自然语言处理
统计方法
词频:一个词在一个文档中出现的次数 某些词在不同的文档中出现的频率差异很大 矢量模型:由关键词词频组成的矢量可以表示 文本的内容,即特征矢量
Machine Structure 20
2013年7月12日
多媒体处理
理解图像
基本方法:特征提取训练分类

常用图像特征



颜色 主要颜色 颜色直方图 纹理 Tamura 颜色特征 灰度共生矩阵 形状 傅立叶描述子
Machine Structure 21
2013年7月12日
Machine Structure
8
多媒体处理
理解声音
时域(time

domain)
声音信号本来的面目 波形图
2013年7月12日
Machine Structure
9
多媒体处理
理解声音
频域(frequency

domain)
声音信号在各个频率的能量分布 乐音信号: 有明显的谐波
每一种感知被称作一种“媒体”(media)

2013年7月12日
人工智能
理解人类的感知
多媒体处理
“处理”主要指提取其语义内容 三维渲染、视频剪辑、声音合成等技术通常不叫 做“多媒体处理”


不过仍然可被认为是“多媒体技术” “多媒体处理”中也会用到一些相关技术
多媒体处理 多媒体素材 各种合成技术
谐波:频率是基准频 率整数倍的声音分量
2013年7月12日
Machine Structure
10
多媒体处理
理解声音
Βιβλιοθήκη Baidu 频域
音阶 振荡器 fx2
早期声卡:频率合成 FM: Frequency Modulation 使用不同的加权权重即可获 得不同音色


fx3
fx4
根据乐器的音色设置权重即可 模拟不同乐器的声音
制造机器来完成需要使用人类智能的工作 什么样的机器才能被认为有智能? 图灵测试

被测试的有一个人,另一个是声称自己有人类智 力的机器。测试时,测试人与被测试人是分开的, 测试人只有通过一些装置(如键盘)向被测试人 问一些问题,这些问题随便是什么问题都可以。 问过一些问题后,如果测试人能够正确地分出谁 是人谁是机器,那机器就没有通过图灵测试,如 果测试人没有分出谁是机器谁是人,那这个机器 就是有人类智能的。
2013年7月12日
Machine Structure
24
多媒体处理
理解图像
图像分割

如何结合二者的好处?


进行分割 但不假设分割结果是符合语义的,接受按照特征 一致性分割的结果 两步分类 首先将特征一致的区域分类成低级的、在视觉特 征上较一致的语义 合并语义一致的区域:Salient Object 然后把低级语义分类成高级语义

把特征矢量转换成语义的数学算法:分类
2013年7月12日
Machine Structure
15
多媒体处理
理解声音
分类(classification)

把特征矢量转换成语义的数学算法

p a t
例:语音识别 把MFCC所组成的高维空间分解成不同的部分,每部分 代表一个读音。如某个特征矢量落在某部分,则可知 道该矢量代表的读音。
多媒体处理
理解图像
基本方法:特征提取训练分类

但是:一幅图像中可能有多个语义

百闻不如一见
树 房子 花 草
2013年7月12日 Machine Structure 22
多媒体处理
理解图像
图像分割(segmentation)

把图像分割成较小的区域

准则? 语义:尚未获得 特征:如果分割效果很好,则语义已经获得,分 割本身已无意义 以特征为准则进行图像分割,其结果只能是特 征空间上一致的,不可能是语义上一致的
Machine Structure 3
2013年7月12日
人工智能
图灵测试
全面通过图灵测试
提问者可以提出任何问题 尚遥遥无期

局部通过图灵测试
提问者只能提某个领域的问题 已有先例


IBM Deep Blue
2013年7月12日
Machine Structure
4
人工智能
实现人工智能的必要条件
获得并理解人类的感知
视、听、触、味、嗅 目前可以被输入计算机的:视、听 目前可被计算机全面“理解”的:没有!


只可部分理解

有时候被叫做“模式识别”(Pattern Recognition) 传统人工智能技术关注的重点
Machine Structure 5
推理

2013年7月12日
Machine Structure
18
多媒体处理
理解声音
机器学习

特征矢量是高维矢量

常用:10-1000维
必须标注样本和语义的对应关系,只能由人完成

获得训练样本成本很高


训练集在特征空间的分布是非常稀疏的
2013年7月12日
Machine Structure
19
多媒体处理
理解声音
语义:不同的应用有不同的含义

声音、图像、视频:文字(关键字:keyword)即 被认为是语义的最佳表示

当前研究致力于提取可以表示声音、图像、视频等的 文字

文本:文字的真实含义才是语义


信息提取(IR: Information Retrieval):时间、地点、 人物、事件 主题分类(Topic Classification) ……
计算机科学引论
人工智能
智能
什么是智能
推理、计划、解决问题 抽象思维
连接复杂观点
快速学习、从实践学习 人类拥有这些能力
但是使用起来很累 科学是由懒惰者推动的


?!
Machine Structure 2
2013年7月12日
人工智能
人工智能(AI:
Artificial Intelligence)
分割还是不分割?
2013年7月12日
Machine Structure
23
多媒体处理
理解图像
图像分割

支持派:一定要分,否则难以提取合适的特征

主要处理自然景观等较复杂图像 研究复杂的分割算法

反对派:分割问题和分类问题一样难,所以不进 行分割

主要处理含单个物体的简单图像 研究复杂的分类算法
y
o
k
e
Machine Structure 16
2013年7月12日
多媒体处理
理解声音
分类
如何获得特征空间的划分方法? 机器学习(Machine Learning)



采集一大堆样本,样本与语义的对应关系已知。于是, 根据这个对应关系就可以知道特征空间中的某个区域 所对应的语义是什么。 例:让100个人说“o”,然后对其声音进行变换,发现 其MFCC都落在图中的区域,则可知该区域对应“o”。
实现智能不仅要能够输入 还要根据输入作出响应

推理

根据当前出境作出最有利于自己的行动规划

输出

把推理结果付诸实施 如果行动规划已经存在,一般输出相对简单
2013年7月12日
Machine Structure
34
推理
计算机如何推理
学习人的推理方法 人如何推理?
理解图像
第二步:根据图像中的Salient
Object分类
为高级语义

两步中都要使用高级建模算法
Mountain View
2013年7月12日
Machine Structure
27
多媒体处理
理解视频
视频是多个连续图像组成的流
理解图像的技术可以沿用 多个图像的信息应当叠加


相关文档
最新文档