神经元的形态分类和识别

合集下载

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

全国第七届研究生数学建模竞赛
题目神经元的形态分类和识别
摘要：
本文通过对神经元几何空间数据进行特征计算与提取，在此基础上对相关的任务结合特定的分类算法建立了数学模型。

本文的主要工作包括以下方面：
（1）：提出了一种基于“期望-标准差范围比对”的简单算法，采用附录A中的数据作为训练集，得到各个类别各个特征的期望和标准差进而得到相应的特征范围，对附录C的神经元进行特征比对，实现了对附录C的神经元类别的精确划分。

（2）利用了SVM算法，并从网站[1]上下载了更多的已知类别的神经元数据进行特征提取，输入编写的SVM 程序进行训练，对附录B中未知的神经元进行了分类。

（3）运用聚类算法对各种神经元进行了更具有一般性的聚类，并对神经元的命名提出了建议。

聚类算法更好地帮助我们识别未知类别，有利于发现区别于已知类型的其它神经元
（4）利用聚类算法对不同物种的同类神经元进行了分类及特征比较，从而确定了不同物种间的同类神经元具有一定的特征差异。

（5）我们是建立在两个假设之上，即同类神经元的空间几何特征存在很大的相似性和神经元随时间的变化体现为神经元房室数量的变化。

根据同类神经元房室数量的变化，得出神经元随时间流逝神经形态是怎样生长变化的。

并且，得出神经元的类型判别不仅仅孤立第看待其各个特征，还要观察期特征之间的相关性，这样更有利于判定神经元的所属类别。

关键词：形态特征；期望；标准差；支持向量机；聚类
中山大学承办
一问题重述
大脑是生物体内结构和功能最复杂的组织，其中包含上千亿个神经细胞（神经元）。

人类脑计划（Human Brain Project, HBP）的目的是要对全世界的神经信息学数据库建立共同的标准，多学科整合分析大量数据，加速人类对脑的认识。

神经元是大脑构造的基本单位，神经元的特性对脑的认识有着显著意义。

对神经元特性的认识，最基本问题是神经元的分类。

目前，关于神经元的简单分类法主要有：（1）根据突起的多少可将神经元分为多极神经元；双极神经元和单极神经元。

（2）根据神经元的功能又可分为主神经元，感觉神经元，运动神经元和中间神经元等。

我们只考虑神经元的几何形态，研究如何利用神经元的空间几何特征，通过数学建模给出神经元的一个空间形态分类方法，将神经元根据几何形态比较准确地分类识别。

神经元的空间几何形态的研究是人类脑计划中一个重要项目, 包含大量神经元的几何形态数据等,现在仍然在不断增加，在那里我们可获得大量的神经元空间形态数据，例如附录A和附录C。

通过获得的数据，我们主要解决以下几个问题：
（1）通过神经元几何空间数据进行神经元几何特征的选取及计算。

（2）通过已知类别的少量神经元的几何特征数据选择合适的算法进行分类。

（3）通过大量已知类别的神经元的几何特征数据选择合适的算法对未知类别的神经元进行分类。

（4）对不同物种的同类神经元选择合适的算法对其几何特征的差异进行判断。

（5）根据相关文献提出的方法，预测神经元形态的生长。

二基本假设
1）提取的33个特征能够区分神经元的类别。

2）在分类算法中，神经元的生长已经停止，即特征将不再变化。

3）给出的神经元数据是线性可分的。

4）对问题五，同种类别的神经元的集合形态特征具有很大的相似性。

5）对问题五，神经元房室数量的变化体现为其生长的变化，也即随着时间的流逝，树突和轴突不断地生长而发生变化。

三符号说明
N：一个神经元向量；
T：由m个神经元向量组成的矩阵；
E：特征值期望；
S：特征值标准差；
四神经元几何形态数据的特征提取与数据模型的建立
首先我们从网站上下载了更多的SWC格式的神经元几何空间数据，接着利用L-Measure[2]软件对每个神经元进行了33个特征的提取，最终的数据格式如下：
表1：神经元的数据结构
Soma_Surface 33571.5 45216 28577.6 30403.2
N_stems 11 10 13 12
N_bifs 150 122 171 175
N_branch 321 263 367 373
Width 1944 1827 1730 1923
Height 1412 1693 1766 1732
Depth 1638.6 1925.7 1698.4 1774
Diameter 2.63934 4.06792 3.75695 2.90775
Length 96039.8 78849.1 103228 113502
Surface 548245 512418 676400 499671
Volume 439406 390413 530778 283360
EucDistance 1588.52 1531.5 1617.49 1587.72
PathDistance 1822.94 1818 1734.79 1880.77
Branch_Order 9 9 9 11
Contraction 0.92836 0.948631 0.947193 0.942836
Fragmentation 1251 545 717 753
Partition_asymmetry 0.506922 0.444832 0.480742 0.444403
Bif_ampl_local 53.8477 44.0934 43.533 51.7272
Bif_ampl_remote 51.5732 42.9974 44.3678 52.2666
N_tips 1 1 1 1
SectionArea 63.9557 165.377 111.092 99.8725
Terminal_degree 2.5693 3.49472 3.98402 3.55838
TerminalSegment 1 1 1 1
Branch_pathlength 308.81 310.43 290.782 313.54
Parent_Daughter_Ratio 0.58654 0.6911 0.635912 0.63054
Bif_tilt_local 122.418 125.948 125.66 119.644
Bif_tilt_remote 125.771 134.6 128.265 121.592
Diam_threshold 1.37863 1.59348 1.53886 1.05599
HillmanThreshold 1.76244 1.62924 1.8302 1.2834
Helix -0.00062 -0.00018 -0.00407 -0.00347
Rall_Power 1.35106 1.77961 1.73104 1.60429
Taper_1 -0.02875 -0.00868 -0.01461 -0.01165
Taper_2 0.537273 0.479617 0.483718 0.505574
其中，每列表示1个神经元的特征向量，每行则表示神经元的相应的特征值。

特征值具体的定义如下：第1行：Soma_Surface，细胞体表面积；
第2行：N_stems，茎数；
第3行：N_bifs，分枝数；
第4行：N_branch，枝条树；
第5行：Width，平均宽度；
第6行：Height，平均高度；
第7行：Depth，平均深度；
第8行：Diameter，房室直径，取平均值；
第9行：Length，长度；
第10行：Surface，表面积；
第11行：Volume，体积；
第12行：EucDistance，房室的最大欧式距离；
第13行：PathDistance，房室的最大径向距离；
第14行：Branch_Order，枝条的最大层数；
第15行：Contraction，分枝的欧式距离与其径向距离比值，取平均值；
第16行：Fragmentation，碎片总数；
第17行：Partition_asymmetry，分枝两端末梢数的比例，取平均值；
第18行：Bif_ampl_local，分枝的子节点之间的角度，取平均值；
第19行：Bif_ampl_remote，相邻分枝间的角度，取平均值；
第20行：N_tips，末梢数；
第21行：SectionArea，房室的底面积，取平均值；
第22行：Terminal_degree，终端房室的角度，取平均值；
第23行：TerminalSegment，终端房室数目；
第24行：Branch_pathlength，分枝的房室长度和，取平均值；
第25行：Parent_Daughter_Ratio，分枝与其子房室的直径比，取平均值
第26行：Bif_tilt_local，分枝上相邻房室的角度，取平均值；
第27行：Bif_tilt_remote，分枝上相邻片段的角度，取平均值；
第28行：Diam_threshold，存在终端末梢的分枝的首个房室直径，取平均值；
第29行：HillmanThreshold，存在终端末梢的分枝的房室直径，取平均值；
第30行：Helix，神经元的螺旋性；
第31行：Rall_Power，分枝子房室的直径1.5次方之和，取平均值；
第32行：Taper_1，相邻连接两个分枝的直径差除以第一个分枝的长度，取平均值；
第33行：Taper_2，枝条最后个房室与首个房室的直径比，取平均值。

因此，任何一个神经元都可以用的向量表示，即：
N = （Soma_Surface,
N_stems,
N_bifs,
N_branch,
Width,
Height,
Depth,
Diameter,
Length,
Surface,
Volume,
EucDistance,
PathDistance,
Branch_Order,
Contraction,
Fragmentation,
Partition_asymmetry,
Bif_ampl_local,
Bif_ampl_remote,
N_tips,
SectionArea,
Terminal_degree,
TerminalSegment,
Branch_pathlength,
Parent_Daughter_Ratio,
Bif_tilt_local,
Bif_tilt_remote,
Diam_threshold,
HillmanThreshold,
Helix,
Rall_Power,
Taper_1,
Taper_2）;
m个神经元即可用的矩阵表示：
五问题一模型的建立与算法的设计
我们首先根据附录A和附录C样本神经元的空间集合数据，利用L-Measure软件计算出各类每个神经元的空间形态特征数据，诸如：Soma Surface、Number of Stems、Number of Bifurcation等特征。

根据所得结果发现不同类别神经元的空间形态特征数据相差很大，这里我们直接将中间神经元看作三类来处理，即分为双极中间神经元、三极中间神经元和多极中间神经元，总共有7类神经元数据。

5.1 算法设计—期望-标准差算法
这里我们采用附录A中的神经元作为训练数据，附录C中的神经元作为测试数据。

对7类神经元中的每类计算各个特征的期望E，以及标准差S。

期望E反映了各类神经元各个特征的平均水平，而标准差S反映了各类神经元各个特征的波动范围，这样我们可以通过期望E和标准差S来确定各类各个特征的一个范围，即为[E-S, E+S]。

5.2 模型建立
预处理数据中我们用L-Measure软件以及我们的转换程序得出了每类神经元有33个特征。

附录A中7类神经元的个数分别为：
表2 各类神经元对应的数量
神经元类别名数量
Cat Motoneuron 5
Purkinje cell 6
Rat pyramidal 7
Bipolar interneuron 5
Tripolar interneuron 5
Multipolar cell 9
Sensory neuron 7
针对7类神经元分别计算33个特征的期望E和标准差S，得到各个神经元类别的33个特征范围[E-S, E+S]。

针对附录C中的7个神经元分别进行测试，每一个神经元都有33个几何形态特征，我们分别将33个特征与每个类别的特征范围进行比对。

若是待测试神经元特征数据落于某类别的特征范围之内，则给该类加1。

最终将待测试神经元与7个类型的特征范围比对完毕，比较每个类别的得分高低，得分最高者类别为待测试神经元所属的类别。

5.3 模型求解
对7个类计算所得的期望E和标准差S，详细数据见附件，这里我们只给出Cat Motoneuron的特征期望和特征标注差的计算结果。

表3 Cat Motoneuron的特征期望和特征标注差的计算结果
特征名特征期望E 特征标注差S
Soma_Surface 35042.34 6609.58206757432
N_stems 10.8 1.92353840616713
N_bifs 159.8 24.139179770655
N_branch 340.2 48.6744286047613
Width 1897.6 126.056733259275
Height 1669 146.058207574925
Depth 1743.18 113.246509879996
Diameter 3.171814 0.701332308203465
Length 101729.58 15254.4858071978
Surface 556130.2 70311.025*******
Volume 383804.8 107992.30327065
EucDistance 1600.524 53.0767795744995
PathDistance 1884.822 166.425384391925
Branch_Order 9.4 0.894427190999916
Contraction 0.9379092 0.011760626671228
Fragmentation 820.2 263.015588891609
Partition_asymmetry 0.459971 0.0334570359266926
Bif_ampl_local 49.42846 5.20567524035067
Bif_ampl_remote 49.21692 5.2229048940221
N_tips 1 0
SectionArea 101.86332 40.7395084070365
Terminal_degree 3.376448 0.519096605190209
TerminalSegment 1 0
Branch_pathlength 307.9714 10.0313889766074
Parent_Daughter_Ratio 0.645963 0.0432671666162692
Bif_tilt_local 122.1648 3.8097140575114
Bif_tilt_remote 126.0346 5.81442536283681
Diam_threshold 1.351318 0.227992334454472
HillmanThreshold 1.573678 0.241413527417169
Helix -0.003142941 0.0029162711475619
Rall_Power 1.701918 0.25310889745325
Taper_1 -0.014673254 0.00818625466568687
Taper_2 0.4890022 0.0361871850065738
得到7个类的特征范围[E-S, E+S]，以及附录C中七个神经元的特征数据，将特征数据与特征范围比对，记得如下结果：
表4 附录C中的神经元测试结果
得分附录C1 motor neuron-A 附录C2 purkinje neuron-A 附录C3 pyramidal neuron-A 附录C4 Bipolar interneuron-A
Cat Motoneuron 26 5 4 4
Purkinje cell 14 17 15 14
Rat pyramidal 6 6 18 10
Bipolar interneuron 5 15 11 30
Tripolar interneuron 10 11 12 10
Multipolar cell 12 10 13 15
Sensory neuron 11 16 11 15
测试所属类别结果 Cat Motoneuron Purkinje cell Rat pyramidal Bipolar interneuron
得分附录C5 tripolar interneuron-A 附录C6
Multipolar interneuron-A 附录C7 sensory neuron-A
Cat Motoneuron 7 6 5
Purkinje cell 22 18 20
Rat pyramidal 3 8 8
Bipolar interneuron 8 9 9
Tripolar interneuron 28 17 23
Multipolar cell 27 25 25
Sensory neuron 22 12 32
测试所属类别结果 Tripolar interneuron Multipolar cell Sensory neuron
从表4中可以看出附录C中的7个神经元的测试结果与其真实所属类别完全符合。

从一程度上说明我们这种方法对于根据神经元的空间几何特征判别其所属类别是有效的。

该方法思路简单清晰，运算量小效率高，并且达到了很好的分类效果。

六问题二模型的建立与算法的设计
对未知类型的数据进行分类，通常是利用机器学习的方法，通过大量已知类别的数据进行有监督的学习，对模型进行训练，然后对未知类别的数据进行分类。

我们同样利用L-measure获得了附录B中20个神经元的特征数据，在问题一的数据比较基础上，由于附录B中的神经元类别并未知晓，因此利用已知确切类别的神经元数据来对附录B进行类别分析。

6.1 算法设计-SVM分类算法
我们采用SVM分类算法对问题进行分类。

支持向量机（SVM，Support Vector Machine）是由Vapnik 首先提出来的，像多层感知网络和径向基函数网络一样，可用于模式分类和非线性回归。

支持向量机的主要思想是建立一个分类超平面作为决策曲面，使得正例和反例之间的隔离边缘被最大化。

支持向量机的基础是统计学习理论，更精确的说，支持向量机是结构风险最小化的近似实现。

这个原理基于这样的事实：学习机器在测试数据上的误差率（即泛化误差率）以训练误差率和一个依赖于VC维数（Vapink-Chervonekis dimension）的项的和为界限，在可分模式情况下，支持向量机对于前一项的值为零，并且使第二项最小化。

一个分类器的期望风险会满足以下不等式：
其中，表示期望风险，表示经验风险，表示结构风险。

支持向量机是通过将不等式右边最小化，来降低分类器的期望风险。

因此，尽管它不利用问题本身领域内的内部问题，但是在模式分类的问题上，支持向量机能提供比较好德尔泛化性能，这个属性是支持向量机特有的。

支持向量机具有以下的优点：
1. 通用性：能够在很广的各种函数集中构造函数；
2. 鲁棒性：不需要微调；
3. 有效性：在解决实际问题中总是属于最好的方法之一；
4. 计算简单：方法的实现只需要利用简单的优化技术；
5. 理论上完善：基于VC维推广理论的框架。

在支持向量x(i)和输入空间抽取的向量x之间的内积核这一个概念是构成支持向量机学习算法的关键。

支持向量机是由算法从训练数据中抽取的小的子集构成。

支持向量机的体系结构如下图所示：
图1 支持向量机的体系结构
其中K为核函数，其种类主要有：
线性核函数：；
多项式核函数：；
径向基核函数: ；
两层感知器核函数：。

6.2 模型建立
模型建立首先需要从原始数据里把训练集和测试集提取出来，然后进行一定的预处理（必要时还需要进行特征提取与选择），之后用训练集对SVM进行巡练，再用得到的模型来预测测试集的分类标签，算法流程如图所示：
图2 模型流程图
6.3 模型求解
附录A中的是已分好类的神经元，有五大类七小类共44个样例；
附录C中是附录A中七类不同种类神经元样例的典型样例，一共7个；
附录B中是待分类的神经元，一共20个，其中可能含有不属于附录A和附录C 中任何一种类型的神经元。

要对附录B中的20个未分类的数据进行分类，此时仅仅采用A中的44条数据进行SVM模型训练显然是不够的，因此，通过访问的官方网址下载了七种一共349条数据。

利用这额外的349条数据作为SVM模型的训练集，B中的20条数据作为测试集进行分类。

表5 训练集与测试集
训练集（数目）测试集（数目）
网络下载（349）附录B （20）
下载数据中各类神经元数目：
表6 各类神经元的数目与标号
种类数目标号
Motor 100 1
Purkinje 10 2
Pyramidal 18 3
Bipolar 6 4
Tripolar 25 5
Multipolar 29 6
Sensory 127 7
Unknown 45 8
6.3.1 数据的归一化处理
对训练集合测试集进行归一化预处理，采用归一化映射如下：
式中，，，归一化的效果是原始数据被规整到[0,1]范围内，即，这种归一化方式称为[0,1]区间归一化。

本题采用MATLAB编程，在MATLAB中，mapminmax函数可以实现上述归一化，其常用函数接口如下：
[y,ps]=mapminmax(x)
[y,ps]=mapminmax(x,ymin,ymax)
其中，x是原始数据，y是归一化后的数据，ps是个结构体记录的是归一化的映射，mapminmax函数所采用的映射是：
其中，和是原始数据的最小值和最大值，和映射的范围参数，可调剂，默认为-1和1，此时的映射函数即为上面说的[-1,1]归一化。

如果把置为1，则此时的映射函数即为上面说的[0,1]归一化。

6.3.2 训练工具
用训练集对SVM分类器进行训练，用得到的模型对测试集进行神经元分类预测。

其中SVM的实现采用的是libsvm工具箱[3]。

Libsvm是台湾大学林智仁（Lin Chin - jen）教授等开发设计的一个简单，易于使用且快速有效的SVM模式识别与回归的软件包，它不仅提供了编译好的可在Windows系统下的执行文件，还提供了源代码，方便改进、修改以及在其他操作系统上应用；提供了很多的默认参数，利用这些默认参数就可以解决很多问题并提供了交互检验（cross validation）的功能。

6.3.4 分类结果
在程序中，我们分别用1-8数字代表对应的类别，其中1-7对应已知的7类，8代表未知类，即Unknown
类。

分类结果如下表：
表7 SVM分类结果
标号测试结果对应类别
B1 1 Motor Neuron
B2 8 Unknown
B3 1 Motor Neuron
B4 3 Pyramidal Neuron
B5 2 Puekinje Neuron
B6 2 Puekinje Neuron
B7 2 Puekinje Neuron
B8 2 Puekinje Neuron
B9 2 Puekinje Neuron
B10 1 Motor Neuron
B11 1 Motor Neuron
B12 3 Pyramidal Neuron
B13 7 Sensory Neuron
B14 7 Sensory Neuron
B15 8 Unknown
B16 8 Unknown
B17 7 Sensory Neuron
B18 7 Sensory Neuron
B19 1 Motor Neuron
B20 1 Motor Neuron
由表中结果可知存在Unknown类别，因此确实需要引入新的类别或定义新的神经元名称。

七问题三模型的建立与算法的设计
在本问题中针对的分类问题不仅仅是对附录A和附录C中所提到的7种重要的神经元类型进行测试区分，同任务2一样，需要尽量对所有类型进行分类，甚至建立新的类型，因此，仅仅采用SVM的有监督学习模型已经不足以解决此问题。

所以需要采用聚类的无监督学习方式进行建模和分析，其中Kohonen神经网络是一种比较好的模型。

7.1 Kohonen网络算法
Kohonen网络是自组织竞争网络的一种，该网络为无监督学习网络，能够识别环境特征并自动聚类，Kohonen 神经网络是芬兰赫尔辛基大学教授Teuvo Kohonen提出的，该网络通过自组织特征调整网络权值，使神经网络收敛于一种表示形态。

在这一形态中，一个神经元只对某种输入模式特别匹配或特别敏感。

Kohonen 网络学习的学习是无监督的自组织学习过程，神经元通过无监督竞争学习使不同的神经元对不同的输入模式敏感，从而特定的神经元在模式识别中可以充当某一输入模式的检测器。

网络训练后神经元被划分为不同区域，各区域对输入模型具有不同的响应特征。

Kohonen神经网络结构为包含输入层和竞争层两层前馈神经网络，神经网络第1层为输入层，输入层神经元个数同输入样本向量维数一致，取输入层节点数为m。

第2层为竞争层，也称输出层，竞争层节点呈现二维阵列分布，取竞争层节点数为n。

输入节点和输出节点之间以可变权值全连接，连接权值为
(i=1,2,…,m;j=1,2,…,n)。

Kohonen网络拓扑结构示意图如下图所示。

图3. Kohonen网络拓扑结构
Kohonen神经网络算法工作机理为：当样本输入网络时，竞争层上的神经元计算输入样本与竞争层神经元权值之间的欧几里得距离，距离最小的神经元为获胜神经元。

调整获胜神经元和相邻神经元权值，使获得神经元及周边权值靠近该输入样本。

通过反复训练，最终各神经元的连接权值具有一定分布，该分布把数据之间的相似性组织到代表各类神经元上，使同类神经元具有相近的权系数，不同类的神经元权系数差别明显。

需要注意的是，在学习的过程中，权值修改学习速率和神经元邻域均在不断减少，从而使同类神经元逐渐集中。

Kohonen网络训练步骤如下：
步骤一：网络初始化。

初始化网络权值。

步骤二：距离计算。

计算输入向量与竞争层神经元j之间的距离
步骤三：神经元选择。

把与输入向量X距离最小的竞争层神经元c作为最优匹配输出神经元。

步骤四：权值调整。

调整节点c和在其领域内包含的节点权系数，即
式中，，分别为神经元c和t的位置；计算两神经元之间欧几里得距离；为领域半径；为学习速率。

，一般随进化次数的增加线性下降。

步骤五：判断算法是否结束，若没有结束，返回步骤二。

7.2 模型建立
基于Kohonen网络的神经元聚类算法流程如图所示：
图 4 算法流程
网络初始化根据输入神经元的几何特征初始化网络，由于输入数据有33维，已知神经元分类为7种，所以输入层节点数为33。

竞争层节点代表输入数据潜在的分类类别，竞争层节点数一般大大多于数据实际类别，选择竞争层节点数为100个，竞争层节点排列在10行10列的方阵中。

按照步骤二中的距离公式计算和输入样本最接近的竞争层节点作为该样本的优胜节点。

权值调整按照步骤四中的公式调整优胜节点邻域半径r内的节点权值，其中邻域半径和学习速率随着进化过程逐渐变小，这样输入数据逐渐向几个节点集中，从而使网络实现聚类功能。

本题中最大邻域半径和最小邻域半径按照经验给出，分别为
r1max=1.5；r1min=0.4。

最大学习概率rate1max为0.1，最小学习率rate1min=0.01。

网络共学习调整maxgen次。

7.3实验结果与分析：
图5 聚类情况图例
如上图所示，该方法用349个样例训练之后，将所有的样例类型分布在10*10的网格之内，不同的符号，代表了不同的类型输出，例如
坐标（2,0）的符号是*，表示该节点对Motor类型的数据敏感；
坐标（6,8）的符号式□，表示该节点对Bipolar类型的数据敏感；
而空白部分表示的是未知类型。

如果此时有一样样例需要分类，则将此样例放入该模型，我们会得到一个10*10以内的一个坐标，该坐标在上图中所代表的类型则是测试样例的模型。

例如，我们B1的数据进行测试得到的坐标是（4,4），而该坐标表示的类型是Motor Neuron，所以我门将B1归为Motor Neuron类型。

7.4 神经元的命名建议
神经元的形态多种多样，但都可分为胞体和突起两部分。

胞体的大小差异很大，小的直径仅5～6μm，大的可达100μm以上，突起的形态、数量和长短也很不相同。

神经元突起又分树突和轴突两种。

树突多呈树状分支，它可接受刺激并将冲动传向胞体；轴突呈细索状，末端常有分支，称轴突终末，轴突将冲动从胞体传向终末。

通常一个神经元有一个至多个树突，但轴突只有一条。

神经元的胞体越大，其轴突越长。

于是，神经元除了根据题中所给的根据突起的多少进行分类外，还可以根据胞体的大小、轴突、树突的长短进行分类命名。

八问题四模型的建立与算法的设计
8.1 题目分析：
本题的目的是为了区分两种不同物种的同一类的神经元，因此同样可以采用和问题3相同的策略，即采用无监督的聚类来实现，不过相较前一题，问题4有其自身的一些特点：
（1）是在同一大类下区分两种（或几种）子类，因此前提是是所有进行区分的是同一种类神经元，区别在于是不同的物种。

所以可以通过前两题所采用的方法（例如SVM）来实现在同一大类的数据的这个前提。

（2）此任务同样可以采用Kohonen神经网络聚类算法来实现，目的是为了区分不同物种的同一类型的神经元，所以重点在于不能将两种（或者几种）数据分类时有重叠现象，即对于不同物种的神经元在产生优胜节点时不应该出现下述现象：
同一节点对两种（或多种）物种的数据都敏感（例如某一节点既是*又是o）。

8．2 模型的建立与结果：
此模型的建立和任务3类似，为了加强区分型，实验还引入了cat的purkinje cell以增加区分度。

实验结果如下图：
图6 Guinea-pig与Mouse的Purkinje cell聚类
图7 Cat与mouse的Motoneuron的聚类
图8 三者的purkinje的聚类
说明：o表示Guinea-pig的Purkinje cell类型敏感的输出节点，*表示对Mouse的Purkinje cell类型敏感的输出节点，此两类节点没有重合，说明该Kohonen网络能够将此两类不同类型的神经元细胞区分。

不过随着测试集的增大，可能会出现重叠现象。

另外，值得注意的是此模型只是能够区分出来不同的物种的相同神经元，在网格中的相对位置并不能解释生物学上的物种差异。

九问题五的预测方案
这里我们根据同种类别的多个神经元的房室数量的不同来推测神经元的实际形态随着时间的流逝，几何形态特征发生哪些变化，进而去预测神经元形态的生长变化。

我们以附录A 中 Cat Motoneuron类型为例，对于附录A Cat Motoneuron类别中有5个神经元，它们的房室数分别为：
表8 Cat Motoneuron 各个神经元的房室数
神经元房室数
Motoneuron 1 1268
Motoneuron 2 560
Motoneuron 3 740
Motoneuron 4 778
Motoneuron 5 846
按神经元各房室数由小到大进行排序：Motoneuron 2、Motoneuron 3、Motoneuron 4、Motoneuron 5、Motoneuron 1。

该五个神经元的空间几何特征为：
表9 Cat Motoneuron 各个神经元的空间集合特征
特征名 Moto2 Moto3 Moto4 Moto5 Moto1
Soma_Surface 45216 28577.6 30403.2 37443.4 33571.5
N_stems 10 13 12 8 11
N_bifs 122 171 175 181 150
N_branch 263 367 373 377 321
Width 1827 1730 1923 2064 1944
Height 1693 1766 1732 1742 1412
Depth 1925.7 1698.4 1774 1679.2 1638.6
Diameter 4.06792 3.75695 2.90775 2.48711 2.63934
Length 78849.1 103228 113502 117029 96039.8
Surface 512418 676400 499671 543917 548245
Volume 390413 530778 283360 275067 539406
EucDistance 1531.5 1617.49 1587.72 1677.39 1588.52
PathDistance 1818 1734.79 1880.77 2167.61 1822.94
Branch_Order 9 9 11 9 9
Contraction 0.948631 0.947193 0.942836 0.922526 0.92836
Fragmentation 545 717 753 835 1251
Partition_asymmetry 0.444832 0.480742 0.444403 0.422956 0.506922
Bif_ampl_local 44.0934 43.533 51.7272 53.941 53.8477
Bif_ampl_remote 42.9974 44.3678 52.2666 54.8496 51.5732
N_tips 1 1 1 1 1
SectionArea 165.377 111.092 99.8725 69.0194 63.9557
Terminal_degree 3.49472 3.98402 3.55838 3.27582 2.5693
TerminalSegment 1 1 1 1 1
Branch_pathlength 310.43 290.782 313.54 316.295 308.81
Parent_Daughter_Ratio 0.6911 0.635912 0.63054 0.685723 0.58654
Bif_tilt_local 125.948 125.66 119.644 117.154 122.418
Bif_tilt_remote 134.6 128.265 121.592 119.945 125.771
Diam_threshold 1.59348 1.53886 1.05599 1.18963 1.37863
HillmanThreshold 1.62924 1.8302 1.2834 1.36311 1.76244
Helix -0.00018 -0.00407 -0.00347 -0.00738 -0.00062
Rall_Power 1.77961 1.73104 1.60429 2.04359 1.35106
Taper_1 -0.00868 -0.01461 -0.01165 -0.00968 -0.02875
Taper_2 0.479617 0.483718 0.505574 0.438829 0.537273
其中特征N_branch的变化曲线为：
图9 特征N_branch的变化曲线
特征Length的变化曲线为：
图9 特征Length的变化曲线
神经元种类不同，树突和轴突的生长变化不同进而其各自的几何形态不同。

运动神经元主要是接受神经信号的神经元，其房室主要位于其树突上。

相反，感觉神经元主要是获知感觉冲动并传导出去，故而其房室主要位于轴突之上。

一个神经元在其生命期中，其各种几何形态特征也是按照抛物线形态变化，早期神经元处于生长阶段，各种特征也在不断增加，到其最高峰就是达到最大值，进而进入衰退期，其几何特征也逐步下降，直至死亡。

这些形态变化对我们确定几何形态特征的影响：不同类型的神经元其几何特征相差很大，同类型的神经元虽然在相同特征上有一定数量上的差异，但是对所有特征综合考虑，同类型的神经元几何特征存在着紧密的相似性，这样我们确定的几何形态特征就不仅仅要考虑各项特征独立的指标，而要更多地考虑每个神经元的特征之间存在什么关系，这种关系从某种程度上讲更决定了其所属神经元的类型。

十模型评价
在问题一中，我们采用了期望-标准差范围比对的方法进行神经元空间形态的分类。

该方法思路简单清晰，运算量小效率高，并且达到了很好的分类效果。

但是该方法也存在着明显的不足，当训练样例特征范围波动很大，所得到的特征范围就过于宽泛，很难达到理想的分类效果。

同时当存在多个最大得分相同的类别时，并不能合理选择真正属于哪个类别。

针对该问题，我们还可以提出一个改进策略，既是分析神经元空间几何的各个特征，为每一个特征分配一个合理的权重，而不是将每个特征都看作是平等的，这种加权的得分对于最终的分类效果更优。

问题二中，我们采用支持向量机的分类算法，SVM 的关键在于核函数，低维空间向量集通常难于划分，解决的方法是将它们映射到高维空间。

但这样带来的困难时计算复杂度的增加，需要改进的方法既是引入核函数，选用适当的核函数，这样可以得到高维空间的分类函数。

问题三也同样利用了SVM算法，以及聚类算法进行神经元类别的识别，对这两种算法的实验结果进行了比较，并对神经元的命名提出了建议。

聚类算法更好地帮助我们识别未知类别，有利于发现区别于已知类型的其它神经元。

可以再采用其它一些聚类策略对神经元进行分析处理，已达到最优效果。

问题四也是利用聚类算法，对不同物种的同类神经元进行聚类，找出不同物种神经元的同类神经元的差异性。

聚类算法行之有效，例如很好地区分了附录A中猪的普肯野神经元和鼠的普肯野神经元。

问题五，我们是建立在两个假设之上，即同类神经元的空间几何特征存在极大的相似性和神经元随时间的变化体现为神经元房室数量的变化。

根据同类神经元房室数量的变化，我们建立一个神经元排序，得出神经元随时间流逝神经形态是怎样生长变化的。

并且，得出神经元的类型判别不仅仅孤立第看待其各个特征，还要观察期特征之间的相关性，这样更有利于判定神经元的所属类别。

对于样例的分类聚类是机器学习、模式识别最常见的问题，而样例是通过其各个属性特征表征的，不同的属性特征来自于不同的方面，在一些简单问题上，我们往往将不同的属性特征统一看待，这样虽然简便易行，但当遇到比较精确的分类聚类时，这种处理方式往往打不到理想的结果，这就要求我们对这些属性特征进行预处理，选出最有价值，并且可以降低计算复杂度的属性特征，可以利用诸如主成分分析PCA等策。