深度学习如何提取特征
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
深度学习如何提取特征
参考⽂献:
引题:
⼀个粗糙的想法,简单粗暴:
法1:每幅图我让机器⼀个⼀个像素看,从像素来说,它最能准确地表达某个具体的物体具体的姿势。
可以想到,来了⼀个像素,你能⼲嘛,你能判断它是谁?逐像素,你只能:(1)对⽐⼀张图⽚和你有损压缩之后相差多少(2)设⼀个阀值,然后灰度分级。
⼀旦涉及特征,不会只是像素(尽管有raw features ,但这是输⼊,之后会对它⾃动提取特征)。
法2:我可能直观地想到,把图⽚分成若⼲块,这些若⼲块中逐部分去和其他图像对⽐,选择和它相似的块数最多的。
这样的分割有点滑稽,⽐如你分割到物体中间的部分,全是⼀种颜⾊,你去搜索和它相似的?那你只能够搜到⾐服相同的⼈了,不同的只是少部分。
⽐如,你看⼀个陌⽣⼈的⾐服,你能记住他吗?
法3:提取某种特征。
⼿动选,如sift,hog,harris...
法4:......
法N(N>=4):其实对于图⽚来说,如果表达式很关键的。
⽐如,对于我们⼈类来讲,轮廓是⼀种特征。
⼈类如果只⽤轮廓就能达到很⾼的识别度,如素描。
机器也应该存在某种描述⽅式。
因此,描述⽅式才是最重要。
思路:
竟然描述⽅式这么重要,那我给出⼈脑的粗糙分层习惯:
先看眼睛感受到⼀些聚集的像素,然后逐渐判断出分别是⼿,脚,腰,头,然后再上半⾝,下半⾝,然后整个⼈,最终判断出谁。
看起来有点诡异,貌似我们就看⾼度、肥胖、脸,甚⾄是先整个⼈,然后看细节(判断⽅式)。
也许这么说是对的,但是从描述的⽅式来看,底层到⾼层是没有问题的,因为他们是组合关系。
你不可能先有整体的描述,在分解出细节的描述。
假如有,先整体描述,整体怎么描述?(描述⽅式)。
讲个故事:
1995年,两个学者找到许多⿊⽩照⽚,他们从中精⼼挑选出400个patches,记为s i,i=1,2,...,400。
然后从⿊⽩照⽚中任意找⼀个patches 记为T,他们发现:
那么,如果“精⼼挑选”呢?他们这样做(稀疏编码):
稀疏编码是⼀个重复迭代的过程,每次迭代分两步:
1)选择⼀组 S[k],然后调整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T。
2)固定住 a[k],在 400 个碎⽚中,选择其它更合适的碎⽚S’[k],替代原先的 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T。
经过⼏次迭代后,最佳的 S[k] 组合,被遴选出来了。
令⼈惊奇的是,被选中的 S[k],基本上都是照⽚上不同物体的边缘线,这些线段形状相似,区别在于⽅向。
这意味着:
复杂图形,往往由⼀些基本结构组成。
⽐如下图:⼀个图可以通过⽤64种正交的edges(可以理解成正交的基本结构)来线性表⽰。
⽐如样例的x可以⽤1-64个edges中的三个按照0.8,0.3,0.5的权重调和⽽成。
⽽其他基本edge没有贡献,因此均为0 。
扩展:
另外,⼤⽜们还发现,不仅图像存在这个规律,声⾳也存在。
他们从未标注的声⾳中发现了20种基本的声⾳结构,其余的声⾳可以由这20种基本结构合成。
分层的思想:
既然这样,我们可以创建更多的层次:例⼦1:
例⼦2:。