人工神经网络之英语大写字母识别
《人工神经网络》课件
动量法:在梯度下降法的基础上,引入动量项,加速收敛速 度
添加项标题
RMSProp:在AdaGrad的基础上,引入指数加权移动平 均,提高了算法的稳定性和收敛速度
添加项标题
随机梯度下降法:在梯度下降法的基础上,每次只使用一个 样本进行更新,提高了训练速度
添加项标题
AdaGrad:自适应学习率算法,根据历史梯度的平方和来 调整学习率,解决了学习率衰减的问题
情感分析:分析文本中的情感 倾向,如正面评价、负面评价 等
推荐系统
推荐系统是一种基于用户历史行为 和偏好的个性化推荐服务
推荐算法:协同过滤、深度学习、 矩阵分解等
添加标题
添加标题
添加标题
添加标题
应用场景:电商、社交媒体、视频 网站等
应用效果:提高用户满意度、增加 用户粘性、提高转化率等
Part Six
类型:Sigmoid、 Tanh、ReLU等
特点:非线性、可 微分
应用:深度学习、 机器学习等领域
权重调整
权重调整的目的:优化神经网络的性能 权重调整的方法:梯度下降法、随机梯度下降法等 权重调整的步骤:计算损失函数、计算梯度、更新权重 权重调整的影响因素:学习率、批次大小、优化器等
Part Four
《人工神经网络》PPT 课件
,
汇报人:
目录
01 添 加 目 录 项 标 题 03 神 经 网 络 基 础 知 识 05 神 经 网 络 应 用 案 例 07 未 来 发 展 趋 势 与 挑 战
02 人 工 神 经 网 络 概 述 04 人 工 神 经 网 络 算 法 06 神 经 网 络 优 化 与 改 进
深度学习算法
卷积神经网络(CNN):用于图像处理和识别 循环神经网络(RNN):用于处理序列数据,如语音识别和自然语言处理 长短期记忆网络(LSTM):改进的RNN,用于处理长序列数据 生成对抗网络(GAN):用于生成新数据,如图像生成和文本生成
基于深度学习的手写英文字体识别研究
英文字体的类别信息,证明该算法具有良好的手写英文字体识别效果。
关键词 :深度学习 ;手写英文字体 ;自动编码器 ;组合自编码网络
中图分类号:TP391
文献标识码:A
文章编号:1001-5922(2021)07-0084-04
Research on Handwritten English Font Recognition Baesd on Deep Learning
的数据特征,导致识别准确率不高,故本研究对该算法
进行了改进,将结合标准降噪自动编码与分类降噪自
动编码,形成组合自编码网络算法,以提高算法识别的
准确率。
1.2 算法改进 组合自编码网络算法包括降噪自动编码器、分类
降噪自动编码器、组合特征分类器 3 个部分[7]。预训练 过程中,降噪自动编码与分类降噪自动编码各自独立 完成数据特征提取和类别特征提取,并按照特征比例 进行拼接得到组合特征。然后,组合特征会进入分类器 进行训练,此时,算法会根据最小化代价函数对模型参 数进行更新。最后,通过一定迭代次数的训练,得到识 别结果。组合自编码网络算法结构如图 1 所示。
ADHESION 粘 学术论文 接 Academic papers
数据信息与智能
收稿日期:2020-10-19 作者简介:高燕超(1986-)女 ,汉族,河北保定人,硕士,研究方向:英语翻译、英语信息化。
基于深度学习的手写英文字体识别研究
高燕超 (宝鸡职业技术学院,宝鸡 721000)
摘 要 :针对化学信息手写英文字体识别准确率低,缺少类别信息的问题,本研究基于深度学习,在传统
是图像去噪常用的方法之一,其通过将原始图像像素
至与模板进行对应,计算出输出图像的像素值。
2.3 二值化处理
人工神经网络概述
2.1 感知器
单层感知器的学习法:
2.1 感知器
多层感知器:
在输入层和输出层之间加入一层或多层隐单元,构成 多层感知器。提高感知器的分类能力。
两层感知器可以解决“异或”问题的分类及识别任一凸 多边形或无界的凸区域。
更多层感知器网络,可识别更为复杂的图形。
2.2 BP网络
多层前馈网络的反向传播 (BP)学习算法,简称BP 算法,是有导师的学习,它 是梯度下降法在多层前馈网 中的应用。
基本感知器
是一个具有单层计算神经元的两层网络。 只能对线性可分输入矢量进行分类。
n个输入向量x1,x2, …, xn 均为实数,w1i,w2i,…,wni 分别是n个输入 的连接权值,b是感知器的阈值,传递函数f一般是阶跃函数,y 是感 知器的输出。通过对网络权值的训练,可以使感知器对一组输入矢量 的响应成为0或1的目标输出,从而达到对输入矢量分类识别的目的。
网络结构 见图,u、y是网络的输
入、输出向量,神经元用节 点表示,网络由输入层、隐 层和输出层节点组成,隐层 可一层,也可多层(图中是 单隐层),前层至后层节点 通过权联接。由于用BP学习 算法,所以常称BP神经网络 。
2.2 BP网络
已知网络的输入/输出样本,即导师信号 。
BP学习算法由正向传播和反向传播组成 :
net.trainparam.goal=0.00001;
网络可能根本不能训
% 进行网络训练和仿真:
练或网络性能很差;
[net,tr]=train(net,X,Y);
若隐层节点数太多,
% 进行仿真预测
虽然可使网络的系统
XX1=[0.556 0.556 0.556 0.556 0.556 0.556 0.556] 误差减小,但一方面
基于BP神经网络的手写数字识别
基于BP神经网络的手写数字识别手写数字识别是人工智能领域中一个重要的研究方向。
它是指通过计算机对手写数字的图像进行识别和分类,从而实现对手写数字的自动识别。
BP神经网络是一种常用的模式识别方法,可以应用于手写数字识别任务中。
BP神经网络,全称为反向传播神经网络,是一种多层前馈神经网络。
其核心思想是通过训练来调整网络中连接权重的值,从而实现对输入模式的分类和识别。
BP神经网络由输入层、隐藏层和输出层组成,其中每个神经元与其他层的神经元相连。
手写数字识别任务的基本步骤如下:1. 数据预处理:需要对手写数字图像进行预处理,包括图像的灰度化、二值化、降噪等操作。
这样可以使得输入的图像数据更加规范化,便于网络的学习和训练。
2. 网络的构建:根据手写数字识别的需求,设计一个合适的BP神经网络结构。
一般来说,输入层的神经元数量与图像的像素数量相等,隐藏层的神经元数量可以根据实际情况进行设置,输出层的神经元数量一般为10,对应于0-9这10个数字的分类。
3. 训练网络:通过反向传播算法对网络进行训练。
随机初始化网络中的连接权重,并将输入的样本数据通过网络前向传播,得到网络的输出结果。
然后,计算输出结果与样本标签之间的误差,并根据误差调整网络中的连接权重。
通过多次迭代训练,直到网络的输出结果与样本标签的误差达到预定的阈值或者收敛。
4. 测试与评估:使用测试集对训练好的网络进行测试,并评估网络的性能。
可以计算识别准确率、召回率、精确率等指标,来评估网络的性能。
手写数字识别任务是一个典型的图像分类问题,其难点主要在于图像的非结构化和特征的高度变异性。
BP神经网络通过多次迭代训练,不断调整网络中的连接权重,可以逐渐提高网络的分类性能和准确度。
BP神经网络也存在一些问题,如容易陷入局部极小值、训练时间较长等。
为了提高手写数字识别任务的性能,可以采用一些改进的方法,如卷积神经网络(CNN)。
卷积神经网络通过引入卷积层和池化层,可以自动提取图像的局部特征,从而提高网络的特征表示能力和分类准确率。
bert-base-uncased和bert-base-cased的区别
bert-base-uncased和bert-base-cased的区别BERT (Bidirectional Encoder Representations from Transformers) 是一种预训练的神经网络模型,采用Transformer架构,能在各种自然语言处理任务中表现出色。
BERT有两个主要的预训练版本,即BERT-Base-Uncased和BERT-Base-Cased。
两者之间的区别在于:Uncased版本是对文本进行小写处理的,而Cased版本保留了原始文本的大小写信息。
BERT-Base-Uncased是基于小写文本的预训练模型。
在预处理阶段,将所有的文本转换为小写字母,即将文本中所有的大写字母转换成小写字母。
这样的预处理方式有助于减少模型的词汇大小,因为只保留了小写单词。
这意味着"Hello"和"HELLO"会被表示为相同的标记“hello”。
采用小写文本进行预训练有助于处理大小写不敏感的任务,例如情感分类或命名实体识别。
此外,Uncased版本的模型在预训练和微调过程中的模型大小较Cased版本较小,因为没有保留大写字母的额外信息。
BERT-Base-Cased是基于大小写文本的预训练模型。
在预处理阶段,不对文本进行大小写处理,保留了原始文本的大小写信息。
因此,"Hello"和"HELLO"会被看作两个不同的标记。
Cased版本的模型在预训练和微调过程中的模型大小相对较大,因为它保留了大写字母的额外信息。
这样的预处理方式适用于需要保留大小写信息的任务,例如命名实体识别或机器翻译。
两个版本的BERT模型在预训练和微调过程中的训练方式是一样的,唯一的区别就是在预处理阶段对文本大小写的处理。
Uncased版本通常在英语自然语言处理任务中表现较好,因为很多任务对大小写不敏感;而Cased版本在需要考虑大小写的任务中更加适用。
10 人工神经网络(ANN)方法简介(完整)
神经元的结构
树突从细胞体伸向其它神经元,神经元之间接受信号的联结点 为突触。通过突触输入的信号起着兴奋/抑制作用。当细胞体接 受的累加兴奋作用超过某阈值时,细胞进入兴奋状态,产生冲 动,并由轴突输出。
x1
w1
x2 xn
w2 wn
wi xi
感知器的激活函数
神经元获得网络输入信号后,信号累计效果整合函数u(X)大于 某阈值 时,神经元处于激发状态;反之,神经元处于抑制状 态。 构造激活函数,用于表示这一转换过程。要求是[-1, 1]之间 的单调递增函数。 激活函数通常为3种类型,由此决定了神经元的输出特征。
第三阶段
突破性进展:1982年,CalTech的物理学家J. Hopfield提出Hopfield神经网络 系统(HNNS)模型,提出能量函数的概念,用非线性动力学方法来研究 ANN, 开拓了ANN用于联想记忆和优化计算的新途径; 1988年,McClelland和Rumelhart利用多层反馈学习算法解决了“异或 (XOR)”问题。
§10.2 感知器(Perceptron) ——人工神经网络的基本构件
1、 感知器的数学模型——MP模型
感知器(Perceptron):最早被设计并实现的人工神经网络。 W. McCulloch和W. Pitts总结生物神经元的基本生理特征,提出 一种简单的数学模型与构造方法,建立了阈值加权和模型,简 称M-P模型(“A Logical Calculus Immanent in Nervous Activity”, Bulletin of Mathematical Biophysics, 1943(5): 115~133)。 人工神经元模型是M-P模型的基础。
字母识别的神经网络方法
2实验方法
为一个 1×3 的行 向量 。还 以上面 几个字母 量法,学习速率取为 0 0 ,动量项系数取为 5 .5 2 1宇母的数字化裹征 . 为例: 05 .,最大循环次数设为 80 次。 00 我们设计的人工神经网络模型是用软件 A=【 0 0 0 0 1 0 0 0 1 0 O 0 1 1 1 人 工神 经网络 模型 的识 别结果 根据 其输 0 1 1 1 1 1 实现的, 它只能处理数字信号 , 不能直接处理 l 0 0 1 1 1 O O O 1 0 0 0 出来决定, 方法为:当人工神经网络模型认为
长处理输入与输出元素间存在复杂的多元非 线性关 系的问题【】 4
在 本 文 中 。 作者 以神 经 网络 应 用软 件 E ge e ] a l [ 中的模式识别模块为平台,设计了 y5 反 向传播 型人工神 经 网络模 型 ,将其应 用于
l l 0 0 0 l l 1 1 1 1 l 0 0 0
字母 。 AN 模型 的结 构如 图 l N 所示 :
10 0 0 1l 1 10 0 】 】 l l
2 6个英文大写字母的识别。
第 二步 。为 了便于 人工神 经 网络模 型的
运算,将上述代表每个字母的5×7 矩阵转变
网络的学习采用反向传播算法的附加动
有时 当远 方主机 发送 SYN 数据 包过 来
民邮电出版社,00 1 2 0 年 0月. 第一版 . 程之前 、 ) 包在内核通过路 由算i 即将被 时, ( 数据 2 芏 ; 我们做简单丢弃的话 , 对方主机会持续发 (】( El . Mi h l Ln x系统安全实 2 美]l n L. t e .iu e c 1 转发之前,和() 3本地进程向网络发送数据包 送 S N数 据包过来 , Y 直到 多次超时失败 为止 。 用手册 . 电予工业 出版社 . 前三个关键 HO K位置发挥作用 O 因此我 们可以用 R J C ag t E E T tre来拒 绝数据 【】孔祥丰.lcwae Ln x 实用垒书. 3 Sa k r iu 电
人工神经网络
神经元
如图所示 a1~an为输入向量的各个分量 w1~wn为神经元各个突触的权值 b为偏置 f为传递函数,通常为非线性函数。以下默认为hardlim() t为神经元输出 数学表示 t=f(WA'+b) W为权向量 A为输入向量,A'为A向量的转置 b为偏置 f为传递函数
分类
根据学习环境不同,神经网络的学习方式可分为监督学习和非监督学习。在监督学习中,将训练样本的数据 加到网络输入端,同时将相应的期望输出与网络输出相比较,得到误差信号,以此控制权值连接强度的调整,经 多次训练后收敛到一个确定的权值。当样本情况发生变化时,经学习可以修改权值以适应新的环境。使用监督学 习的神经网络模型有反传网络、感知器等。非监督学习时,事先不给定标准样本,直接将网络置于环境之中,学 习阶段与工作阶段成为一体。此时,学习规律的变化服从连接权值的演变方程。非监督学习最简单的例子是Hebb 学习规则。竞争学习规则是一个更复杂的非监督学习的例子,它是根据已建立的聚类进行权值调整。自组织映射、 适应谐振理论网络等都是与竞争学习有关的典型模型。
神经网络在很多领域已得到了很好的应用,但其需要研究的方面还很多。其中,具有分布存储、并行处理、 自学习、自组织以及非线性映射等优点的神经网络与其他技术的结合以及由此而来的混合方法和混合系统,已经 成为一大研究热点。由于其他方法也有它们各自的优点,所以将神经网络与其他方法相结合,取长补短,继而可 以获得更好的应用效果。目前这方面工作有神经网络与模糊逻辑、专家系统、遗传算法、小波分析、混沌、粗集 理论、分形理论、证据理论和灰色系统等的融合。
人工神经网络知识概述
人工神经网络知识概述人工神经网络(Artificial Neural Networks,ANN)系统是20世纪40年代后出现的。
它是由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息存储、良好的自组织自学习能力等特点。
BP(Back Propagation)算法又称为误差反向传播算法,是人工神经网络中的一种监督式的学习算法。
BP 神经网络算法在理论上可以逼近任意函数,基本的结构由非线性变化单元组成,具有很强的非线性映射能力。
而且网络的中间层数、各层的处理单元数及网络的学习系数等参数可根据具体情况设定,灵活性很大,在优化、信号处理与模式识别、智能控制、故障诊断等许多领域都有着广泛的应用前景。
人工神经元的研究起源于脑神经元学说。
19世纪末,在生物、生理学领域,Waldeger等人创建了神经元学说。
人们认识到复杂的神经系统是由数目繁多的神经元组合而成。
大脑皮层包括有100亿个以上的神经元,每立方毫米约有数万个,它们互相联结形成神经网络,通过感觉器官和神经接受来自身体内外的各种信息,传递至中枢神经系统内,经过对信息的分析和综合,再通过运动神经发出控制信息,以此来实现机体与内外环境的联系,协调全身的各种机能活动。
神经元也和其他类型的细胞一样,包括有细胞膜、细胞质和细胞核。
但是神经细胞的形态比较特殊,具有许多突起,因此又分为细胞体、轴突和树突三部分。
细胞体内有细胞核,突起的作用是传递信息。
树突是作为引入输入信号的突起,而轴突是作为输出端的突起,它只有一个。
树突是细胞体的延伸部分,它由细胞体发出后逐渐变细,全长各部位都可与其他神经元的轴突末梢相互联系,形成所谓“突触”。
在突触处两神经元并未连通,它只是发生信息传递功能的结合部,联系界面之间间隙约为(15~50)×10米。
突触可分为兴奋性与抑制性两种类型,它相应于神经元之间耦合的极性。
每个神经元的突触数目正常,最高可达10个。
各神经元之间的连接强度和极性有所不同,并且都可调整、基于这一特性,人脑具有存储信息的功能。
人工神经网络.pdf
y(t )(w(t − 1) ∗ x(t )) > 0 . y(t )(w(t − 1) ∗ x(t )) ≤ 0
( x (t ) 分错)
控制收敛速度的参数
5.1 感知机
学习算法收敛性:
对线性可分的数据有下面的定理。
定理(Novikoff):假设训练数据有界 x(i ) ≤ D, 两类样本的最大边界距离(maximal margin)为 2ρ (线性SVM)。则当学习速度参数η = 1 时, 2 次更新就会收敛。 D 感知机学习算法至多做
x2
x1 0 0 1 1
A
B
B
A
x1
5.2 多层感知机
解决XOR问题
x2
A
B
B
A
x1
5.2 多层感知机
两层神经网络解决XOR问题的真值表
第一层
x1 0 0 1 1
x2 0 1 0 1
y1 0 1 1 1
y2 0 0 0 1
第二 层 B(0) A(1) A(1) B(0)
y2
B
BLeabharlann Ay15.2 多层感知机
5.2 多层感知机
例: (XOR问题)
问题的提出以及重要性:
1956-1958年Rosenblatt提出感知机,是为了实现 另一种形式(模拟)的计算机。与数字计算机形 成鲜明对照。 数字计算机是用逻辑门电路实现的。逻辑门电路 的设计:AND, OR, NOT; 实际上,数字计算机的所有逻辑电路都是用XOR 门实现的。
MLPs具有一致逼近能力,因此可以学习这个函 数,也就解决了XOR问题。后面要讲到的RBF网 络也是一致逼近子,也可以解决XOR问题。
ann原理
ANN原理及其应用介绍人工神经网络(Artificial Neural Network,简称ANN)是一种仿生机制的人工智能模型,灵感来自于生物神经网络。
ANN模型通过模拟神经元之间的连接和信息传递,以识别模式、进行分类和预测等任务。
本文将详细解释ANN的基本原理,并探讨其在不同领域的应用。
1. 神经元和连接ANN的基本组成单元是神经元,也称为节点或感知器。
神经元接收输入信号,对其进行加权求和,并应用非线性激活函数来产生输出。
神经元间通过连接进行信息传递,每个连接都具有一个权重,表示其重要性。
一个简单的神经元的数学模型如下:output = activation_function(weighted_sum(inputs) + bias)其中,inputs表示输入信号,weighted_sum表示加权求和的过程,bias是一个偏置项,用于调节神经元的灵敏度,activation_function是一个非线性函数,用于引入非线性特征。
2. 前向传播ANN的前向传播是指从输入层到输出层的信息传递过程。
在前向传播中,每个神经元接收来自上一层神经元的输出,并根据权重和激活函数计算其输出。
这个计算过程可以表示为一个层层嵌套的过程。
假设有一个三层的ANN,输入层、隐藏层和输出层。
其中,输入层没有任何计算,只是负责接收输入信号。
隐藏层和输出层的神经元按照前面介绍的方式进行计算。
整个前向传播的过程可以表示为:output_layer = activation_function(hidden_layer_weights * hidden_layer_outputs + hidden_layer_bias)其中,hidden_layer_weights是隐藏层到输出层的连接权重,hidden_layer_outputs 是隐藏层的输出,hidden_layer_bias是隐藏层的偏置项。
3. 反向传播与优化为了使ANN能够从示例中学习,需要进行反向传播和优化的过程。
ANN MNIST手写数字识别总结
由于第十四周除了正常上课外,其余时间在整理机器学习的笔记,做中特社会调查报告,然后就是元旦放假,故第十四周没提交周报。
本周正常上课,继续完成老师都布置的课业任务,总结通信系统仿真结果,并且完成报告的撰写,分析社会调查结果,做好报告,查阅物理层安全方面的资料,翻译和整理论文。
其余时间是开始学习深度学习理论和编程实践,人工神经网络(ANN)和卷积神经网络,了解深度学习几个框架(Caffe 、Torch、TensorFlow、MxNet),最主要还是TensorFlow,学习和查找了一下深度学习优化算法,并且利用人工神经网络做手写数字识别。
心得体会:第一个感受是时间过得很快,已然是15周了,要加快各方面进程。
神经网络从线性分类器开始,线性分类器是产生一个超平面将两类物体分开。
一层神经网络叫做感知器,线性映射加激励输出,每个神经元对输入信号利用激励函数选择输出,就像大脑神经元的兴奋或抑制,增加神经元数量、隐层数量,就可以无限逼近位置函数分布的形态,过多会出现过拟合算法。
ANN的学习方法是BP后向传播算法,其主要思想是每一层的带来的预测误差是由前一层造成的,通过链式求导法则将误差对每一层的权重和偏置进行求导更新权重和偏置,以达到最优结果。
因为ANN每一层神经元是全连接的,对于图像这种数据就需要非常大数量的参数,所以就出现了卷积神经网路CNN,利用一些神经元以各种模版在图像上滑动做卷积形成几张特征图,每个神经元的滑动窗口值不一样代表其关注点不一样,单个神经元对整张图的窗口权重是一样的即权值共享(这就是减少参数和神经元数量的原因),这么做的依据是像素局部关联性。
CNN主要有数据数据输入层、卷积计算层、激励层、池化层(下采样层)、全连接层、Batch Normalization层(可能有)CNN学习方法也是BP算法迭代更新权重w和偏置b。
CNN优点是共享卷积核,对高维数据处理无压力,无需手动选取特征,训练好权重,即得特征,深层次的网络抽取,信息丰富,表达效果好,缺点是需要调参,需要大样本量,训练最好要GPU,物理含义不明确。
基于BP神经网络的手写数字识别
基于BP神经网络的手写数字识别手写数字识别是计算机视觉领域的一个重要任务,它可以将手写数字转化为可识别的数字形式。
BP神经网络是一种常用的人工神经网络模型,它通过反向传播算法来训练模型,实现对手写数字的识别。
BP神经网络中的基本单元是神经元,它接收输入信号并通过激活函数进行处理,然后输出给下一层的神经元。
在手写数字识别任务中,神经网络的输入是一个数字图像,经过一系列的卷积、池化和全连接操作,最后输出一个表示数字的向量。
我们需要准备一个包含手写数字的数据集,该数据集包括一系列的手写数字图像和对应的标签。
可以使用MNIST数据集作为训练集和测试集,它包含了大量的手写数字图像和对应的标签。
然后,我们需要对数据集进行预处理,将图像进行灰度化处理,并将像素值归一化到0-1之间。
通过这些预处理操作,可以帮助模型更好地学习数字的特征。
接下来,我们需要构建BP神经网络模型。
该模型包括输入层、隐藏层和输出层。
输入层的神经元数目与图像的像素数目相等,隐藏层的神经元数目可以根据实际情况进行选择,输出层的神经元数目为10,分别代表数字0-9。
在模型训练过程中,我们需要定义损失函数来衡量模型输出与标签之间的差异。
常用的损失函数是交叉熵损失函数,它可以有效地衡量两个概率分布之间的距离。
然后,我们利用反向传播算法来更新模型的参数,通过多次迭代来不断优化模型的性能。
在每一次迭代中,我们将训练集中的手写数字图像输入到模型中,并根据损失函数计算损失值,然后利用反向传播算法来更新模型的参数。
我们使用测试集来评估模型的性能。
将测试集中的手写数字图像输入到模型中,得到模型的输出,然后将模型的输出与标签进行对比,计算模型的准确率。
基于深度学习的手写英文字母识别算法研究
基于深度学习的手写英文字母识别算法研究近年来,深度学习作为一种热门的机器学习方法,受到了广泛的关注和应用。
其中,深度学习在图像识别、自然语言处理等方面有很高的应用价值,而手写字母识别也是其中的一项重要应用。
1. 前言手写字母识别是指通过计算机算法自动识别手写字母的过程。
相比于打印体,手写字母具有更多的变化和独特的特征,所以手写字母识别的难度较大。
传统的手写字母识别方法主要使用特征提取的方法,但是这些方法需要人工提取特征,容易受到个体差异和字母变化的影响。
而深度学习则可以通过大量的样本数据进行自动学习,能够更好地解决这些问题。
2. 相关技术介绍手写字母识别的基本流程包括数据采集、数据预处理、特征提取、分类器训练和测试几个环节。
其中,深度学习主要应用在特征提取和分类器训练两个环节。
2.1 数据预处理数据预处理是指将采集来的原始数据进行处理,使其能够更好地适用于深度学习模型的输入。
在手写字母识别中,常见的数据预处理方法包括灰度化、二值化和去噪等。
2.2 特征提取特征提取是指从预处理后的数据中提取出对分类任务有帮助的特征,同时去除对分类任务没有用的冗余信息。
在传统的手写字母识别方法中,通常需要通过人工提取特征,如边缘、曲率等。
而在深度学习方法中,特征提取一般是通过卷积神经网络(Convolutional Neural Network,CNN)来实现的。
CNN可以通过多层卷积和池化操作,提取出对于手写字母识别任务有用的特征。
2.3 分类器训练特征提取完毕之后,需要将提取出的特征输入到分类器中进行训练。
传统的分类器有SVM,决策树等,而在深度学习中,广泛应用的分类器是全连接神经网络(Fully Connected Neural Network,FCN)。
FCN通过对提取的特征进行多层全连接操作,使得对于不同的手写字母,都可以通过学习到的分类器进行分类。
3. 实验结果为了验证基于深度学习的手写字母识别算法的有效性,我们使用英文字母数据集进行了实验。
LNN的名词解释
LNN的名词解释LNN,即Language Neural Network(语言神经网络),是一种基于深度学习的自然语言处理技术。
它借助神经网络的强大计算能力,通过对大规模语料库进行训练和学习,实现对人类语言的理解和生成。
LNN在近年来的发展中,已经在机器翻译、语义分析、情感识别等多个领域取得了重要的突破和应用。
一、LNN的基本原理LNN的基本原理是建立一个多层神经网络,通过一层一层的处理,对文本数据进行特征抽取和语义分析。
首先,LNN通过词嵌入(Word Embedding)技术将单词转化为低维向量表示,每个向量捕捉了单词的语义和上下文信息。
然后,这些向量通过一系列的隐藏层(Hidden Layers)进行处理,神经网络通过反向传播算法不断调整权重,以提高模型的准确性。
最后,输出层将生成最终的预测结果。
二、LNN在机器翻译中的应用LNN在机器翻译领域发挥了重要的作用。
传统的统计机器翻译方法通常需要大量的人工特征工程和规则定义,而LNN则能够基于大规模双语语料,通过端到端的学习实现自动翻译。
它可以捕捉句子的语义信息,解决了传统方法中的一些词序和语序问题。
同时,LNN还可以自适应地调整翻译模型,根据不同语种和领域的特点进行优化,取得更好的翻译效果。
三、LNN在语义分析中的应用LNN在语义分析方面也有广泛的应用。
语义分析是指识别和理解文本的情感、观点、意图等信息。
LNN可以通过学习语料库中的上下文关系,辨别出句子中的情感倾向。
这项技术可以应用于情感分析、舆情监测等领域,帮助企业、政府等机构快速了解公众对某一事件或产品的态度,并做出相应策略调整。
四、LNN的发展趋势和挑战LNN作为一种新兴的技术,还面临着一些发展趋势和挑战。
首先,LNN将会越来越注重在模型的深度和宽度上进行优化,以提高系统的准确性和效率。
其次,LNN会更加注重对话系统的开发,使机器能够更好地与人进行自然的对话,并且在推理和判断方面更加灵活。
基于BP神经网络的手写数字识别
基于BP神经网络的手写数字识别在当今数字化的时代,手写数字识别成为了一个重要的研究领域。
它在诸多方面都有着广泛的应用,比如银行系统中的支票处理、邮件分拣中的邮政编码识别,以及教育领域中的自动阅卷等。
BP 神经网络作为一种强大的机器学习算法,为手写数字识别提供了一种有效的解决方案。
首先,让我们来了解一下什么是手写数字识别。
简单来说,就是让计算机能够理解和识别我们手写的数字。
这听起来似乎很简单,但实际上是一项极具挑战性的任务。
因为每个人的手写风格都各不相同,数字的形状、大小、倾斜度等都存在很大的差异。
而且,手写数字往往会存在一些模糊、变形或者不完整的情况,这就给计算机的识别带来了很大的困难。
那么,BP 神经网络又是如何解决这个问题的呢?BP 神经网络是一种多层前馈神经网络,它由输入层、隐藏层和输出层组成。
在手写数字识别中,我们将手写数字的图像作为输入,经过网络的层层处理,最终得到输出结果,即识别出的数字。
在输入层,我们需要将手写数字的图像进行预处理,将其转换为适合神经网络处理的形式。
这通常包括图像的二值化、归一化、去噪等操作。
二值化就是将图像中的像素值转换为 0 和 1,0 表示黑色,1 表示白色,这样可以简化图像的信息。
归一化则是将图像的大小和像素值范围进行统一,以便于网络的处理。
去噪则是去除图像中的噪声,提高图像的质量。
经过预处理后的图像数据被输入到隐藏层中。
隐藏层是 BP 神经网络的核心部分,它通过对输入数据进行复杂的计算和变换,提取出数字的特征。
这些特征是一些抽象的、能够反映数字本质的信息,比如数字的轮廓、线条的走向、笔画的粗细等。
隐藏层中的神经元数量和层数会影响网络的性能,一般来说,神经元数量越多、层数越多,网络的学习能力就越强,但同时也会增加计算量和训练时间。
在输出层,网络会根据隐藏层提取的特征输出识别结果。
通常情况下,输出层的神经元数量与要识别的数字类别数量相同。
对于手写数字识别,由于我们要识别 0 到 9 这 10 个数字,所以输出层就有 10 个神经元。
人工智能应用导论实验手册-OCR实验手册
OCR实验手册4.3任务二:文字识别(OCR)4.3.1任务目标通过采用深度学习技进行对验证码进行图像识别,通过采用程序进行验证码生成进行数据集准备、采用opencv进行验证码分割、利用深度学习框架Keras进行模型搭建与训练、最后读取模型进行验证码识别,使读者能够:(1)体验一个完整的深度学习算法对验证码进行图像识别应用开发。
(2)掌握图像数据生成、处理、读取等操作。
(3)掌握使用深度学习框架进行模型搭建,训练与预测方法。
4.3.2任务实现本项目的主要流程:灰度→二值化→去干扰线及噪点→切割成单个字符→标注→识别学习并得到模型→使用模型识别。
对获得的原始验证码,处理流程总共分为以下几步:(1)对图片进行灰度处理,如图4-32。
图4-32 灰度处理(2)根据自己设置的阈值,对图片进行二值化处理。
图4-33 二值化处理(3)降噪处理,去除干扰的像素点及像素块。
图4-34 降噪处理(4)对图片进行切割,获得单个字符,并进行人工标注。
图4-35 图片分割(5)使用卷积神经网络进行模型训练,得到模型。
(6)使用训练得到的模型进行验证码识别。
步骤一:批量生成验证码在使用深度学习框架搭建验证码识别模型时,需要大量的验证码图片。
在这里,使用captcha模块生成验证码图片,验证码图片名称为验证码上显示的字符串。
验证码支持10个数字加26+26个大小写英文字母,一共62种字符类型。
通过运行程序在当前目录文件夹pic生成验证码。
运行代码:1gen_captcha.py,将使用代码生成随机验证码图像,运行程序后,在pic 文件夹中输出100张图像,如图4-36所示图4-36 验证码数据集步骤二:使用opencv看到验证码生成验证可以通过电脑的默认图片查看器查看,也可以用程序进行显示,这里采用opencv模板对图像进行读取与显示,同时还有打印图片的信息,例如图像宽高等。
代码路径:2show_img.pyimport cv2file_name = "./test_img/test_img_1.png"#读取图像img = cv2.imread(file_name)#图片大小信息print(img.shape)#显示验证码图片和验证码标题cv2.imshow("win", img)#窗口结束时间,如果为0,一直显示cv2.waitKey(0)运行效果如图4-37所示:图4-37 验证码显示步骤三:图像二值化处理由于验证码图像是四个字符,因此需要对这4个字符进行图像处理,完成分割,得到分别4个独立的字符,字符识别是对每个字符分别进行。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Hidden Unit Reduction of Artificial Neural Network on English Capital Letter RecognitionKietikul JEARANAITANAKIJDepartment of Computer EngineeringFaculty of EngineeringKing Mongkut‟s I nstitute of Technology LadkrabangBangkok, ThailandOuen PINNGERNDepartment of Computer EngineeringFaculty of EngineeringKing Mongkut‟s I nstitute of Technology LadkrabangBangkok, ThailandAbstract— We present an analysis on the minimum number of hidden units that is required to recognize English capital letters of the artificial neural network. The letter font that we use as a case study is the System font. In order to have the minimum number of hidden units, the number of input features has to be minimized. Firstly, we apply our heuristic for pruning unnecessary features from the data set. The small number of the remaining features leads the artificial neural network to have the small number of input units as well. The reason is a particular feature has a one-to-one mapping relationship onto the input unit. Next, the hidden units are pruned away from the network by using the hidden unit pruning heuristic. Both pruning heuristic is based on the notion of the information gain. They can efficiently prune away the unnecessary features and hidden units from the network. The experimental results show the minimum number of hidden units required to train the artificial neural network to recognize English capital letters in System font. In addition, the accuracy rate of the classification produced by the artificial neural network is practically high. As a result, the final artificial neural network that we produce is fantastically compact and reliable.Keywords—Artificial Neural Network, letter recognition, hidden unit, pruning, information gainI. I NTRODUCTIONAn artificial neural network can be defined as a model of reasoning based on the human brain. Recent developments on artificial neural network have been used widely in character recognition because of its ability to generalize well on the unseen patterns [1-8]. Recognition of both printed and handwritten letters is a typical domain where neural networks have been successfully applied. Letter recognition or in common, called OCR (Optical Character Recognition) is the ability of a computer to translate character images into a text file, using special software. It allows us to take a printed document and put it into a computer in editable form without the need of retyping the document (Negnevitsky, 2002, [9]).One issue of the letter recognition that uses the artificial neural network as the learning model is the suitable number of hidden units. The number of neurons in the hidden layer affects both the accuracy of character recognition and the speed of the training the network. Complex patterns cannot be detected by a small number of hidden units; however too many of them can unpleasantly increase the computational burden. Another problem is overfitting. The greater the number of hidden units, the greater the ability of the network to recognize existing patterns. However, if the number of hidden units is too big, the network might simply memorize all training examples. This may prevent it from generalizing, or producing incorrect outputs when presented with pattern that was not used in training.There are some proposed methods that can be used to reduce the number of hidden units in the artificial neural network. Sietsma and Dow [10], [11] suggested an interactive method in which they inspect a trained network and identify a hidden unit that has a constant activation over all training patterns. Then, the hidden unit which does not influence the output is pruned away. Murase et al. [12] measured the Goodness Factors of the hidden units in the trained network. The unit which has the lowest value of the Goodness Factor is removed from the hidden layer. Hagiwara [13] presented the Consuming Energy and the Weights Power methods for removal of both hidden units and weights, respectively. Jearanaitanakij and Pinngern [14] proposed the information- gain based pruning heuristic that can efficiently remove unnecessary hidden units within the nearly minimum period of time.In this paper, we analyze the reduction of hidden units of the artificial neural network for recognizing English capital letters that are printed in System font. There are 10x10 pixels for a particular image of English capital letter. Each pixel (or feature) is represented by either …1‟ or …0‟. Our objective is to determine the minimum number of hidden units that is required to classify the 26-English letters with the practical recognition rate. Firstly, unnecessary features are filtered out of the data set by the feature pruning heuristic [14]. Then the hidden unit pruning heuristic [14] is utilized in order to find a suitable number of hidden units. The analysis of the experimental results show exceeding low number of hidden units required to the classification process. In addition, the results support our heuristics [14] in terms of the compact network and the nearly minimum pruning time.The rest of this paper is organized into the following orders. In Section 2, we give a brief review about the information gain and our hidden unit pruning heuristic. In Section 3, the data set of English capital letters is described. Next, in Section 4, we describe the experimental results and analysis. Finally, in Section 5, the conclusions and possible future work are discussed.1-4244-0023-6/06/$20.00 ©2006 IEEE CIS 2006In jGain j kII. H IDDEN U NIT P RUNINGWe begin by briefly review the notion of information gain and our hidden unit pruning heuristic.A. Information GainEntropy, a measure commonly used in the information theory, characterizes the (im)purity of an arbitrary collection of examples. Given a collection S , containing examples with each of the C outcomes, the entropy of S isEntropy ( S ) =∑[ − p ( I ) log 2p ( I )], I ∈C(1)where p(I) is the proportion of S belonging to class I . Note that S is not a feature but an entire sample set. Entropy is 0 if all members of S belong to the same class. The scale of the entropy is 0 (purity) to 1 (impurity). The next measure is an information gain. This was first defined by Shannon and Weaver [15] to measure the expected reduction in entropy. For a particular feature A, Gain(S, A) means the information gain of the sample set S on the feature A and is defined by the following equation:Figure 1. Network notationsThe amount of information received at a hidden unit is the summation, on training patterns, of the total squared production Gain (S , A ) = Entropy (S ) −∑[(| Sv | / | S |).Entropy (S v )],v ∈ A(2)between weights, which connect from feature units to a hidden unit in a hidden layer, and information gains of all feature where Σ is the summation on all possible values (v ) of thefeature A ; Sv is the subset of S for which feature A has value v ; |Sv | is the number of elements in Sv , and; |S | is the number of elements in S.The merit of the information gain is that it indicates the units. Then the result is averaged over the number of training patterns and the number of feature units. We define the incoming information gains of the j -th hidden unit in n -th layer( Gain n) as the following: degree of significance that a particular feature has on the n=1 ×∑ ∑( n −1, n× n −1 ) 2 , (3)classification output. Therefore, the more information gain the Gain In j P × Iw i jPiGain i feature has, the more significance the feature gets. We always prefer the feature which has high value of information gain to those which have lower values.where P and I are the number of training patterns and the number of feature units in the (n-1)-th layer, respectively. This n Gain In j is, in turn, used for calculating the outgoingB. Hidden Unit Pruning Heuristicinformation gain of the j-th hidden unit. The degree of importance of a particular hidden unit can be determined by the We describe a hidden unit pruning heuristic (Jearanaitanakij outgoing information gain of the hidden unit ( G ain n ). The and Pinngern, 2005, [14]) used as ordering criterions for the hidden unit pruning in the artificial neural network. Before performing the hidden unit pruning, we must calculate the information gains of all features and then pass these gains to the hidden units in the next layer.The hidden unit pruning heuristic is based on thepropagated information gains from feature units. Before going further, let us define some notations used in this section such as Out j outgoing information gain of a particular hidden unit is the summation, on training patterns, of the total squared production between weights, which connect from the hidden unit to output units, and the incoming information gain of that hidden unit. Then the result is averaged over the number of training patterns and the number of output units. The outgoing information gain of the j-th hidden unit in the n-th layer ( n ) is given by: Out jinformation gain of feature unit i (Gain i ), incoming informationGain n=1× ∑ ∑( w n , n +1× Gain n ) 2 ,(4)gain of a hidden unit (Gain In ), outgoing information gain of a Out j P × OPkIn j hidden unit (Gain Out ), the weight from the i -th unit of the (n -1)- where O is the number of output units in the (n +1)-th layer. th layer to the j -th unit of the n -th layer ( n −1,n ), and, similarly, w ijthe weight from the j -th unit of the n -th layer to the k -th unit of Note that the number of training patterns, P , in both (3) and (4) is the number of training patterns that the network has seen so the (n +1)-th layer ( n , n +1). All notations are shown in Fig. 1.far. The hidden unit which has the lowest outgoing information w j kgain should be firstly removed from the trained network because it does not affect the convergence time for retraining the network that much. There is only one hidden unit removed at a time until the network cannot converge. Then, the last pruned unit and network configurations are restored.N u m b e r o f f e a t u r e s III. DATA SETThe data set used as the case study is the set of twenty-six English capital letters (A to Z) which are printed in System font. Each letter image is represented by 10x10 pixels. A particular pixel can be either on (…1‟) or off (…0‟). We scan each pixel in the enhanced letter image from top to bottom, from left to right, to locate the capital printed letter on the paper. An assumption has been made that the letters are separated clearly with each other.Figure 2. Image t ransforma ti onnoised and 5 noised images. Therefore, 260 letter images are used as the dataset. The dataset is randomly decomposed into 130 letter images for the training set, and 130 letter images for the test set. After a letter image has passed a transformation into an array of 10x10 binary-value features, the artificial neural network is brought into the training procedure. All features connect to input units by one-to-one relationship. The output units are encoded into 26 units, each stands for an English capital letter. For a particular classification, one of the 26 output units has value …1‟ whereas other output units must contain …0‟ as their values.IV.E XPERIMENTAL R ESULTSWe train the 26-letter data set with the initial artificial neural network which has 100 input units, 10 hidden units, and 26 output units. There is only one single hidden layer between the input and output layers. The learning algorithm used training process is the standard back-propagation algorithm (Rumelhart et al., 1986, [17]), without momentum. All the weights and thresholds are randomly reset into the range between -1 and +1. In order to obtain the highest recognition rate, the sum-squared error is set to be converged below 0.3. Note that the number of hidden unit, i.e. 10, here is not the minimum number but it is the number that allows the artificial neural network to converge easily. However, our goal is to find the minimum number of hidden units of the artificial neural network that still correctly classifies the patterns at high recognition rate.Since the number of hidden units depends on the number of input features, it is worthwhile to remove the feature units before the hidden unit pruning begins. The idea of feature removal is similar to the hidden unit pruning. Instead of using outgoing information gain, the information gain of every feature is used as the pruning criterion. When the initial network is trained, the feature which has the lowest information gain is firstly removed from the network. There is only one feature unit removed at a time until the network cannot converge. Then the final number of features is returned. The experimental result on the number of input features is depicted in Fig. 4.120 100 80 60 4020 Figure 3. 26 English capital letter images without noisesAs shown in Figure 2, all pixels in an extracted letter aretransformed to either …1‟ or …0‟. These pixels represent the features of the training set of the artificial neural network. For a particular pattern, there can be only one letter that corresponds to it. A set of non-noised 26 letter images is shown in Figure 3. In order to be realistic, we add more letter images which have noise probability of 0.05 in each pixel. Each letter has 5 non-0 15011001150120012501300135014001Number of epochsFigure 4. Number of features during the trainingThe number of features is constant at 100 units during the first 1473 training epochs. This is the duration that we train the initial neural network to get a convergence. When the networkN u m b e r o f h i d d e n u n i t s is trained, the number of features keeps decreasing until it settles down at 37. This means that the essential number of features for classifying the 26-letter of English capital letters in System font is 37. This is not only the minimum number of features, but also the number of features that still maintain the highest recognition rate of the artificial neural network.12 10 8 6 4 20 15011001150120012501300135014001Number of epochsFigure 5.Number of hidden units during the training processFig. 5 illustrates the number of hidden units during the training process. After the feature pruning has been done, at the 2000th epoch, the hidden unit which has the lowest outgoing information gain is pruned away. The hidden unit pruning process is seized, shown as a horizontal line, until the network is retrained. The hidden units are removed in succession until the network cannot be retrained. We discover that the final number of hidden units that maintains the highest recognition rate is 6.3.5 3 2.5 2 1.5 1 0.5 0Figure 6. Sum-squared error during the trainingFig. 6 shows the sum-squared error throughout the trainingprocess. The error gradually decreases from 4.75 to 0.3 within 1473 training epochs. When the network reaches a convergence point, the feature pruning process starts removing features one- by-one. This causes the sum-squared error increases slightly. However, the error suddenly decreases within a small period of time. The similar situation happens to the hidden unit pruning. The hidden unit pruning starts the task at the 2001st training epoch. At this point, the sum-squared error suddenly rises up to 3.5. This high error does not prolong the network training because the abrupt reduction of the error allows the network toconverge in no time. The ripples on the sum-squared errorindicate the places where the hidden unit reductions are taken. The pruning process finishes when the sum-squared error does not consecutively decrease within 500 epochs. Then the network is restored to the previous convergence point. The restoration of the network back to the previous convergence can explain why the sum-squared error at the end of the graph in Fig. 6 suddenly falls below 0.3.TABLE I. A CCURACY R ATE O N T HE T EST S ETTable I shows the accuracy rates on the test set between the conventional NN and our proposed method. The conventional approach has 10 hidden units and 100 input units, while the proposed method has 6 hidden units and 37 input units. We intend to use different number of hidden units in order to investigate that having the lower number of hidden units does not degrade the accuracy when classifying the unseen data. The result, in Table I, shows that the conventional NN has less accuracy rate than the proposed method. This can be explained as the effect of the overfitting problem that happens in the conventional NN. By having unnecessary hidden units, the conventional NN memorizes all training patterns instead of learning them. Moreover, our approach removes unimportant features from the original feature. This can filter some noises out of the training set.V.C ONCLUSIONSWe give an analysis of the hidden units that are necessary to recognize the English capital letters printed in System font. The 10x10 pixels in the letter image are the features that are passed into the input units of the artificial neural network. In the input layer, information gain indicates the degree of importance of a feature. The feature which has the smallest information gain is not important to the output classification and it should be ignored. As a result, we have the smallest number of epochs needed for retraining when that feature is pruned away. In the hidden layer, the hidden unit which has the smallest outgoing information gain tends to propagate rather small amount of information to the output units in the next layer. Consequently, removing that unit from the network gives little effect on the retraining time. The experimental result shows that the number of hidden units that is necessary to identify the 26 English capital letters in System font, which has 37 essential features, is 6 units. In addition, this small-sized artificial neural network gives a testing accuracy rate at 97.17%. Removing unnecessary hidden units reduces the overfitting problem that may occur to the network. If the network has too many hidden units, it will memorize all the training patterns, instead of learning them. This situation may prevent the network from generalizing, or producing incorrect outputs when presented with pattern that was not used in training.R EFERENCES[1] B. Widrow et al., “La yered neural nets for pattern recognition,”IEEETrans. On ASSP, vol. 36, no. 7, July 1988.[2] V.K. Govindan and A.P. Shivaprasad, “Character recognition –Review,”Pattern Recognition, vol. 23, no. 2, pp. 671-679, 1990.[3] B. Boser et al., “Hardware requirements for neural network patternclassifiers,” IEEE Micro, pp. 32-40, 1992.[4] A. Shustorovich and C.W. Thrasher, “Neural Network Positioning andClassification of Handwritten Characters,” Neural Networks vol. 9, no. 4, pp. 685-693, 1996.[5] R. Parekh, J. Yang and V. Honavar, “Constructive neural networklearning algorithms for pattern clas sification,”IEEE Transactions on Neural Networks, pp. 436-451, vol. 11. no. 2, 2000.[6] Kamruzzaman J., Kumagai Y., Mahfuzul Aziz S., “Characterrecognition by double backpropagation neural network,” Proceedings of IEEE Region 10 Annual Conference, Speech and Image Technologies for Computing and Telecommunications, vol. 1, pp. 411-414, 1997.[7] Kamruzzaman, J., “Co mparison of feed-forward neural net algorithms inapplication to character recognition,” Proceedings of IEEE Region 10 International Conference on Electrical and Electronic Technology, vol. 1, pp. 165-169, 2001.[8] Jacquet, D., Saucier, G., “Design of a digital neural chip: application tooptical character recognition by neural network,” Proceedings European Design and Test Conference, pp. 256-260, 1994. [9] Negnevitsky. M, Artificial Intelligence A Guide to Intelligent Systems,Addison-Wesley, 2002.[10] J. Sietsma and R.J.F. Dow, “Creating artificial neural networks thatgeneralize,” Neural Networks, vol.4, no.1, pp. 67-69, 1991.[11] J. Sietsma and R.J.F. Dow, “Neural net pruning – why and how,” in Proc.IEEE Int. Conf. Neural Networks, vol. I (San Diego), pp.325-333, 1988.[12] K. Murase, Y. Matsunaga, and Y. Nakade, “A Back-PropagationAlgorithm which Automatically Determines the Number of Association Units,”Proc. IEEE Int. Conf. Neural Networks, vol. 1, pp. 783-788, 1991.[13] M. Hagiwara, “Removal of Hidden Units and Weights for BackPropagation Networks,” Proc. IJCNN‟93, vol. 1, pp. 351-354, 1993. [14] K. Jearanaitanakij, O. Pinngern, “Deter mining the Orders of Feature andHidden Unit Prunings of Artificial Neural Networks,” Proc. IEEE 2005 Fifth Int. Conf. on Information, Communications and Signal Processing (ICICS), w3c.3, pp. 353-356, 2005.[15] Shannon, C. E. and Weaver, W., The Mathematical Theory ofCommunication, University of Illinois Press, Urbana, Illinois, 1949. [16] Quinlan, J. R., “Induction of decision trees,” Machine Learning, vol. 1,issue 1, pp. 81–106., 1986.[17] D.E. Rumelhart, G.E. Hinton, and R.J. Williams, “Learning internalrepresentations by erro r propagation,” in Parallel Distributed Processing: Exploration in the Microstructure of Cognition: vol.1: Foundations, eds.D.E. Rumelhart and J.L. McClelland, pp.318-362, The MIT Press,Cambridge, Massachusetts, 1986.。