多特征/多维度分析法简介

合集下载

一种基于多维度特征参数的睡眠质量评估方法及装置[发明专利]

一种基于多维度特征参数的睡眠质量评估方法及装置[发明专利]

专利名称:一种基于多维度特征参数的睡眠质量评估方法及装置
专利类型:发明专利
发明人:罗语溪,张婷婷,宋迎杰,连佳铠
申请号:CN202110224051.2
申请日:20210301
公开号:CN112842279B
公开日:
20220308
专利内容由知识产权出版社提供
摘要:本发明公开了一种基于多维度特征参数的睡眠质量评估方法及装置,所述方法包括:采集用户睡觉时前额两导联处的脑电波信号;提取所述脑电波信号在时域维度、频域维度以及非线性维度的特征参数,生成多维度特征参数;将所述多维度特征参数输入至预设的睡眠分析模型中,以使所述睡眠分析模型根据所述多维度特征参数生成所述用户的睡眠分析结果;根据所述睡眠分析结果评估所述用户睡眠质量。

通过实施本发明实施例能够睡眠质量评估的准确性。

申请人:中山大学
地址:510275 广东省广州市海珠区新港西路135号
国籍:CN
代理机构:广州三环专利商标代理有限公司
更多信息请下载全文后查看。

基于多维度多特征模型的语域变异研究综述

基于多维度多特征模型的语域变异研究综述

基于多维度多特征模型的语域变异研究综述作者:王雪娇来源:《文教资料》2013年第20期摘要: Douglas Biber创建的多维度多特征模型(Multi-dimensional/Multi-featureanalysis)是迄今为止涉及语言特征最多、分类最细致的研究语域变异的方法,在国内外逐渐被广大学者所认可并得到了广泛应用。

关键词:多维度多特征模型语体语域变异1988年,Biber创建了多维度多特征分析模型(Multi-dimensional/Multi-featureanalysis),以语料库和计算机统计技术为基础,通过分析语言特征的“共现”(co-occurring)模式,对语域变异进行多维度分析,揭示各语体之间的差异。

自建立以来,多维度多特征模型在语料库语言学研究中逐渐受到重视并占有独特的地位。

一、多维度多特征模型的建立1988年,Biber在其论著Variation across Speech and Writing中,从英国LOB语料库(Lancaster-Oslo/Bergen Corpus)和LLC语料库(London-Lund Corpus)中选取了23种口笔语语域的文本,对文本中的67种语言特征进行了调查。

通过因子分析法,他对这些语言特征在口笔语语域中的共现情况加以分析,并确立了最终的五个维度:信息性/参与性、叙述性/非叙述性、指代明确性/指代有赖场景、说服性、抽象性/非抽象性。

二、国外研究概况Biber(1992)运用其多维度框架对索马里语的口笔语语域进行了分析。

该研究从26种口笔语语域中选取了279篇语料分析其65种语言特征的分布,并用因子分析法统计出其五个维度值。

与其他语言的分析结果相同,该研究表明仅凭一个维度无法充分描述口笔语语域间的关联。

此外,Biber总结了以往研究,发现任何语言都有一个或更多的口语维度。

这些维度不能完全确定口笔语之间的差异,但是它们与我们通常所认为的口笔语语域有关。

多标记特征选择算法的综述

多标记特征选择算法的综述

㊀第52卷第4期郑州大学学报(理学版)Vol.52No.4㊀2020年12月J.Zhengzhou Univ.(Nat.Sci.Ed.)Dec.2020收稿日期:2020-04-27基金项目:国家自然科学基金项目(61672331,61806116);山西省重点研发计划项目(201803D421024,201903D421041);山西省自然科学基金项目(201801D221175);山西省高等学校优秀成果培育项目(2019SK036);山西省高等学校青年科研人员培育计划;山西省高等学校科技创新项目(201802014);山西省研究生创新项目(2019SY005);山西省省筹资金资助回国留学人员科研项目㊂作者简介:姚二亮(1994 ),男,山西忻州人,博士研究生,主要从事粗糙集㊁多标记学习研究,E-mail:1310222154@;通信作者:李德玉(1965 ),男,山西曲沃人,教授,主要从事粒计算㊁机器学习研究,E-mail:lidy@㊂多标记特征选择算法的综述姚二亮1,㊀李德玉1,2(1.山西大学计算机与信息技术学院㊀山西太原030006;2.山西大学计算智能与中文信息处理教育部重点实验室㊀山西太原030006)摘要:特征维度灾难是多标记学习重要挑战之一,为此已有大量多标记特征选择算法被提出㊂将已有方法进行归类,对研究现状和进展进行综合论述,对于多标记特征选择方法的进一步研究具有重要意义㊂首先,将多标记特征选择算法从4个角度进行归类,对一些代表方法和理论进行详细介绍;然后,分别阐述各类算法的优缺点及适用场景;最后对多标记特征选择的进一步研究方向进行总结㊂关键词:多标记学习;维度灾难;降维;特征选择中图分类号:TP18㊀㊀㊀㊀㊀文献标志码:A㊀㊀㊀㊀㊀文章编号:1671-6841(2020)04-0016-12DOI :10.13705/j.issn.1671-6841.20201220㊀引言现实领域中,很多场景下样本不仅仅对应单一语义㊂例如图像标注领域[1],一幅图片可能具有多个标注概念;文本分类领域[2],一件新闻事件可能同时具有多个主题;生物工程领域[3],一个蛋白质可能同时具有多种生物功能㊂传统单标记监督方法已不能很好地解决多语义问题,为此多标记学习框架被提出㊂不同于单标记学习,多标记学习中一个样本对应一个非空标记集合,其丰富的标记概念往往需要高维的特征空间描述,因此特征维度灾难已是多标记学习的重要挑战之一[4]㊂在多标记学习中,特征高维问题一方面使得学习算法具有较高的时间和空间复杂度,另一方面,也降低了学习器的精度和泛化能力,甚至造成过拟合现象㊂为此已有大量多标记降维方法被提出㊂同单标记学习一样,多标记降维方法大致分为两类,一类为多标记特征抽取方法[5-7],另一类为多标记特征选择方法㊂特征抽取是指对原始特征空间进行特定组合(线性组合)将其映射到一个低维空间,该类方法通常可以有效降维并取得不错的分类效果,但是不能保留原始特征的物理意义,对应分类过程不具有解释性㊂而现实领域中的很多问题,往往需要更好的解释性,例如医疗领域,好的解释性有助于医生更好地运用模型;金融领域,好的解释性有助于金融公司了解为用户推荐基金的原因㊂相较于特征抽取,特征选择方法不仅可以有效去除特征空间中冗余㊁无关特征,而且可以保留原始特征的物理意义,具有更好的解释性,为此多标记特征选择已成为一项重要研究课题㊂近年来,已有大量多标记特征选择算法被提出,在很大程度上降低了维度灾难对于多标记学习的影响㊂与单标记特征选择不同,多标记特征选择需要综合考虑特征与多个标记之间的关系,同时需要考虑标记之间的相关性㊂对多标记特征选择的研究主要包括,怎样构建合适的特征选择框架和怎样定义特征与标记集相关性的度量㊂现有的多标记特征选择可以从4个角度进行归类㊂1)从数据转换角度,现有多标记特征选择算法可分为:转化法㊁直接法㊂转化法是指将多标记问题转化为单标记问题,进而可直接运用已有单标记特征选择方法㊂直接法是指对现有特征选择方法进行改进,例如构建新的多元度量㊁运用矩阵稀疏范数等方法㊂2)从特征选择过程与学习器的联系出发,考虑到多标记特征选择是否依赖于特定学习器,现有多标记㊀第4期姚二亮,等:多标记特征选择算法的综述特征选择算法可分为:过滤式㊁包裹式㊁嵌入式三种㊂3)从不同标记特征子集的共享程度出发,考虑到不同标记可能拥有不同的特征子集,现有多标记特征选择算法可分为:标记共享式㊁标记粒化式㊁标记专属式三种㊂4)从数据的应用场景出发,考虑到现实多标记数据会存在动态更新现象,现有多标记特征选择算法可分为:非增量式㊁增量式㊂本文将从以上4种不同角度对多标记特征选择方法进行归类论述,并具体介绍各类方法的相关理论及具体方法,分析各类方法优缺点,进而对多标记特征选择方法的进一步研究进行总结㊂1㊀数据转化多标记数据可通过不同方式转为单标记数据,包括将多标记问题转为多个二分类问题或将多标记问题转为一个多分类问题,这些转化方法已在多标记分类中得到很好应用,可以直接运用已有单标记分类算法解决多标记分类问题㊂多标记特征选择同样也可以转化为具体的单标记特征选择㊂从数据转化角度分析,现有多标记特征选择算法可归为:基于标记幂集的多标记特征选择(label powerset multi-label feature selection, LP_MLFS);基于二值相关的多标记特征选择(binary relevance multi-label feature selection,BR_MLFS);非转化多标记特征选择(directed multi-label feature selection,Direct_MLFS)㊂1.1㊀基于标记幂集的多标记特征选择最直接的转化方法为标记幂集方法(label power set,LP)[8],这类方法的主要思想是将多标记数据中的每一种标记组合看作一种类别,将多标记数据转化为一个多类别单标记数据,例如表1到表2的转化;然后运用单标记特征选择算法选出重要特征子集㊂接下来,首先介绍LP以及它的改进方法PPT(pruned problem transformation),然后介绍一些基于LP的多标记特征选择方法㊂表1㊀多标记数据Table1㊀Multi-label data样本A1A2A3l1l2l3 x10.10.20.1100 x20.20.10.3100 x30.10.10.2001 x40.20.30.1010表2㊀多类别数据Table2㊀Multi-class data样本A1A2A3类别x10.10.20.11 x20.20.10.31 x30.10.10.22 x40.20.30.13㊀㊀LP最初被提出用于解决多标记分类,这种转化方法有效考虑了标记相关性,但是也存在两个比较大的问题㊂一类问题是,该方法转化所得数据类别数与标记个数呈指数关系,并且类别往往不平衡,分类效果不太理想㊂另一类问题是,由于训练集数量有限,并非所有可能的组合类别都出现在训练集中,因此LP的预测结果仅局限于训练集中已出现类别,不具有好的泛化能力㊂针对LP在转化过程中数据类别数与标记个数呈指数关系的问题,文献[9]提出一种新的转化方法PPT,该方法运用剪枝策略,在LP的基础上,通过设置最小类别数阈值,过滤掉出现频率小的类别数据,有效避免了LP方法中类别多㊁类别不平衡问题㊂基于LP转化方法,已有大量多标记特征选择算法被提出㊂文献[10]在音乐情感识别多标记任务中,首先基于LP方法将多标记数据转化为单标记数据,然后运用单标记卡方检验方法对转换后数据进行特征选择,实验展示了该方法的有效性㊂文献[11]提出一种基于PPT转化的多标记特征选择算法,首先应用PPT 转化策略将多标记数据转为单标记数据,然后基于互信息运用启发式搜索策略对转化后数据进行特征选择,实验验证了该方法的有效性㊂文献[12]将PPT转化策略和ReliefF算法相结合构建了一种新的多标记特征选择算法㊂1.2㊀基于二值相关的多标记特征选择二值相关(binary relevance,BR)法可以将多标记数据转化为多个二分类数据[1],已在多标记分类中得到有效运用,也被运用于多标记特征选择㊂需要注意的是,本文所介绍的BR方法在文献[13]中归为external7181郑州大学学报(理学版)第52卷approach BR方法,本文将从标记是否共享特征的角度详细介绍㊂基于BR转化的多标记特征选择主要思想是,首先将多标记数据转为多个二分类数据;然后运用单标记特征选择算法对每个二分类数据进行特征排序;最后根据某种融合策略对所得多个排序序列进行融合,得出合适的特征排序或特征子集㊂文献[14]提出了随机 k-标记集 (random k-label sets,RAKEL)多标记分类方法㊂作者首先基于BR转化策略将多标记数据转化为多个二分类数据;然后运用卡方检验得出每个二分类数据的特征排序;最后运用融合策略选出最终的特征子集,有效提高了RAKEL算法的分类效率㊂文献[15]分别应用BR和LP策略对多标记数据进行转换,运用信息增益和ReliefF度量对特征进行评价,并给出了4种算法的对比结果,分析了不同算法和不同度量的优势与缺点㊂1.3㊀非转化多标记特征选择将多标记数据转化为单标记数据,再运用已有特征选择方法对转化后的单标记数据进行特征选择,转化过程往往会造成一些信息的损失或转化本身会存在一些问题,直接对多标记数据进行特征选择是一种更加自然的方法[16-22]㊂这类方法主要思想是运用或构建多元变量相关性度量或借助一些矩阵稀疏化方法等㊂文献[16]首次将ReliefF算法应用于多标记特征选择㊂文献[17]对ReliefF度量进行改进以便适用于多标记特征选择,该方法不同于上面所介绍的转化类方法,不需要将多标记数据转化为单标记数据,而是引入汉明距离作为样本之间不相似性度量,去计算样本之间的最近邻样本,进而使ReliefF算法能有效对多标记数据进行特征选择㊂文献[18]提出一种基于多元互信息多标记特征选择(pairwise multivariate mutual information,PMU)算法,该方法首先给出了高维联合熵的近似计算方法;然后运用多元互信息度量特征子集与标记集之间的相关性,运用前向贪心策略对特征进行排序,并根据给定选择特征个数获得了对应的特征子集㊂文献[19]提出一种快速多标记特征选择算法,首先从理论上分析了PMU算法中基于互信息的特征得分函数具有较高时间复杂度,提出三种加速策略:丢弃得分函数中非必要计算项;重用预计算熵项;识别有效标记对㊂实验展示了该算法相比于其他多标记特征选择算法具有更高效率㊂文献[20]提出一种新的基于互信息的多标记特征选择算法,定义了一种新的得分函数,相比于PMU中只考虑二阶交叉信息,该函数能够考虑任意程度的交叉信息㊂文中也从理论上分析了考虑低阶交叉信息的得分函数为何可以获得有效的特征子集,实验结果也表明考虑高阶交叉信息的得分函数反而具有较高计算成本和更低的分类性能㊂PMU算法在处理大规模多标记时,会随标记规模增加而不能很好地考虑特征间的冗余性,很容易引入冗余特征㊂文献[21]给出一种新的特征度量准则,有效避免处理大规模标记时,偏重于考虑最大化相关性,而不能很好地考虑最小冗余性的问题,提出了一种处理大规模标记的多标记特征选择㊂与传统的多标记特征选择方法相比,该方法在处理大规模多标记数据时取得了更好的效果㊂文献[22]基于帕累托优势概念提出一种快速的多标记特征选择算法,将多标记特征选择问题作为多目标优化问题,首先运用对称不确定性(symmetrical uncertainty,SU)度量每个特征与每个标记的相关性,依据帕累托优势概念,特征集被划分为可支配特征集和非支配特征集,将非支配特征集作为约简子集㊂现有的多标记特征选择方法大多属于非转换式方法,接下来本文会从特征选择过程与学习器的联系角度进行更多的介绍㊂1.4㊀各类方法对比无论是基于转化还是直接的多标记特征选择,都在一定程度上降低了特征维度,提高了算法的效率和精度㊂为了更好地阐述这些方法,表3对各类方法的优缺点进行了详细介绍㊂2㊀特征选择过程与学习器的联系考虑到多标记特征选择是否依赖于特定学习器,多标记特征选择算法可分为:过滤式(filter)㊁包裹式(wrapper)㊁嵌入式(embed)㊂2.1㊀过滤式多标记特征选择过滤式多标记特征选择不依赖具体学习器,过滤式方法一般分为两类:第1类方法是选择合适的评价指㊀第4期姚二亮,等:多标记特征选择算法的综述㊀㊀表3㊀LP_MLFS㊁BR_MLFS㊁Direct_MLFS方法对比Table3㊀The comparison of LP_MLFS㊁BR_MLFS㊁Direct_MLFS 方法优势缺点LP_MLFS思想简单,实现容易完成转化后,可以直接运用现有的任何单标记特征选择方法转化后的数据类别的数量很大,会严重影响特征选择效果不能真正反映多标记数据之间的真实分布BR_MLFS思想简单避免了LP转化方法类别组合数大的问题可以直接运用现有的任何单标记特征选择由于将多标记数据转为多个二分类数据,因此特征选择过程耗时融合策略对于最终的结果影响大不能考虑标记之间相关性Direct_MLFS无须转化,保持了原始数据的真实分布考虑了标记之间的相关性避免了转化方法带来的问题对于多元变量之间的度量是比较复杂的不能有效利用现有的成熟算法标度量每个特征关于标记集的重要性,得出特征排序,根据预先设定的最小阈值或特征个数,选出对应特征子集;第2类方法是选择合适的评价指标,运用相应的搜索策略选出一个特征子集,无须预先设定最小阈值或特征个数㊂第1类方法关键在于特征排序的好坏,且需要预先设定所选特征个数,这类方法常用评价标准主要有卡方㊁信息增益㊁互信息等㊂具体一些方法如下㊂文献[23]基于信息增益提出了一种多标记特征选择方法,该方法首先计算每个特征和标记集之间的信息增益大小,以此度量每个特征的重要度;然后给定最小重要度阈值,进而选出特征子集㊂文献[24]基于最大相关性最小冗余性(minimum redundancy maximum relevancy,mRMR)原则提出一种新的多标记特征选择方法,该方法运用互信息分别度量候选特征与标记集之间的相关性㊁候选特征与已选特征之间的冗余性,然后基于mRMR原则给出最终特征重要性度量㊂根据预先设定要选择的特征个数,运用所定义度量基于前向增量式搜索策略选出特征子集㊂该方法充分地考虑了特征之间的冗余性,剔除了更多的冗余特征㊂文献[25]基于邻域互信息提出一种多标记过滤式特征选择方法,该方法从最大㊁平均㊁最小三个不同粒度的样本间隔定义了三种多标记邻域互信息,同样根据预先设定特征子集个数,选出合适的特征子集㊂相比于已有基于互信息的多标记特征选择方法,该方法最大优势在于处理数值型数据时无须进行离散化处理,避免了离散化所带来的信息损失㊂第2类方法可直接选出特征子集,无须预先设定特征个数,这类方法主要基于粒计算理论,具体的特征评价标准有依赖度㊁邻域依赖度㊁模糊依赖度和辨识能力等,主要方法有互补属性约简㊁基于变精度粗糙集的多标记特征选择㊁基于邻域粗糙集的多标记特征选择㊁基于模糊粗糙集的多标记特征选择等㊂文献[26]基于粗糙集理论构建了多标记可变精度属性约简方法,称为δ-置信度约简,它可以正确捕获标签间隐含的不确定性㊂此外,还引入了与δ-置信度约简相关的可分辨矩阵,基于可分辨矩阵来计算δ-置信度约简,进而得出多标记决策表的约简子集㊂该方法在理论和应用方面都具有重要意义㊂文献[27]针对多标记分类任务,运用粗糙集理论系统分析了标记的不确定性,提出了保持标记不确定性不变的多标记特征选择方法㊂首先通过分析表明经典粗糙集中的依赖度并不能有效度量标记的不确定性;然后从标记不确定角度构建了多标记粗糙集模型,定义粗糙决策函数表示样本可能具有的标记集,细致决策函数表示样本确定具有的标记集,并结合这两种决策函数定义了特征的依赖度函数,提出了一种启发式多标记特征选择算法,即互补决策约简(complementary decision reduct,CDR)㊂CDR具有很强的理论保证,可以直接处理多标记数据,实验也展示了该方法的优越性㊂文献[28]针对多标记分类任务,构建了多标记邻域粗糙集模型,给出新的下近似定义去刻画特征对于标记集的分类能力,设计了一种启发式多标记特征选择算法㊂算法基于邻域关系,因此可以直接对数值型多标记数据进行特征选择,而无须进行离散化㊂文中在5个数值型多标记数据上进行对比实验,验证了该算法的有效性㊂9102郑州大学学报(理学版)第52卷文献[29]从标记关系出发对多标记数值型数据进行特征选择,首先定义了属性-标记矩阵概念;然后运用标记集上的模糊相似关系去刻画标记关系,给出了新的模糊上下近似㊁依赖度定义,并设计了一种前向启发式多标记特征选择算法㊂该方法将标记关系引入到多标记特征选择中,并从理论上分析了标记关系随属性集的粒度变化,实验验证了挖掘标记关系在多标记特征选择中的有效性㊂文献[30]提出一种新的模糊粗糙集模型用于多标记特征选择㊂文中指出运用模糊粗糙集对多标记进行特征分析的瓶颈在于难以找到目标样本的真正异类样本,这直接影响模糊上下近似的鲁棒性㊂文中首先定义每个样本的得分向量,以评估相对于目标样本而言是异类样本的概率;然后利用局部采样来构造样本之间的稳健距离㊂文中定义了候选属性的重要度度量,并设计了一种贪心前向特征选择算法,实验验证了该算法的有效性㊂文献[31]从样本和标记两个角度共同去刻画特征的区分能力㊂针对多标记特征选择任务,对模糊粗糙集框架下的模糊辨识关系重新定义,利用最大样本模糊辨识度量特征可区分的样本对个数,和最大标记模糊辨识度量特征可区分的样本对所对应的标记个数,引入调和系数将两种度量结合,设计了一种新的启发式多标记特征选择算法㊂文中从两个不同的角度度量特征的区分能力,可以在保持或提高分类性能的基础上有效降低特征维度㊂2.2㊀包裹式多标记特征选择包裹式多标记特征选择方法主要思想是从特征集合中选择可使学习器性能最佳的特征子集㊂由于特征子集组合种类随特征个数增加而指数性增长,因此从所有特征组合中进行搜索是一个NP-hard问题㊂为此一般会选取一些时间复杂度低的搜索策略,例如启发式策略或是演化算法等㊂文献[32]提出了基于朴素贝叶斯的多标记分类(multi-label naive bayes classification,MLNB)算法㊂为了提高算法的效率,文中首先运用主成分分析法(principal component analysis,PCA)进行特征抽取,在降维后的数据上将MLNB作为包裹式分类器,排序损失RankLoss和汉明损失HammingLoss作为适应度函数,运用遗传算法搜索策略对多标记数据进行特征选择㊂文献[33]首次将文化基因算法(memetic algorithm)应用到多标记特征选择方法中,统一了多标记特征选择与局部优化设计有关的特定问题,解决了关于染色体进行选择的局部优化问题㊂考虑到计算成本随特征和标记个数指数性增长,文中运用近似互信息降低增加操作(add operation,ADD)和删除操作(delete oper-ation,DEL)的计算负担㊂相比于基于遗传算法的特征选择,该方法可有效防止过早收敛,并提高了计算效率㊂文献[34]将多标记特征选择作为一种多目标优化问题,其目的是寻找一组帕累托非支配解㊂文中运用改进的多目标粒子群算法进行优化,采用概率编码运算符表示粒子,将汉明损失(HammingLoss)和特征数量作为算法的适应度函数㊂为保证粒子群优化(particle swarm optimization,PSO)算法能够收敛到帕累托前沿,采用自适应均匀变异来扩展所提算法的搜索能力;为提高算法的性能,文中也设计了一种基于差分学习的局部研究策略来探索搜索空间稀疏区域㊂针对基于进化算法(evolutionary algorithm,EA)的多标记特征选择,文献[35]首次提出一种无参种群初始化方法,该方法可以作为进化算法的预处理㊂文中首先引入条件互信息,设计了一种得分函数计算每个特征的重要度,进而生成初始种群;然后将生成的种群作为基于EA的多标记特征选择方法的输入㊂该方法提高了传统基于EA的多标记选择方法的分类性能㊂2.3㊀嵌入式多标记特征选择在嵌入式特征选择中,学习器训练与特征选择在同一个优化框架内完成,两者不可独立,一般嵌入式多标记特征选择式方法可分为两类:一类为基于树模型的特征选择方法,树节点的划分特征所组成的集合就是选择出的特征子集;另一类是在回归模型中引入惩罚项进行特征选择,基于不同的假设,一般的方法是使用l2,1或l1范数对模型进行正则化㊂文献[36]提出了基于树模型的多标记特征选择方法(multi-label C4.5,ML C4.5),该方法中首先训练多标记分类树模型;然后基于树顶端特征分类能力强㊁树底端特征分类能力弱的原则,选择出合适的特征子集,该方法在训练分类模型的同时选出了合适的特征子集㊂文献[37]提出了一种凸半监督多标记特征选择算法㊂文中首先将未标记数据的标记初始化为零,选用㊀第4期姚二亮,等:多标记特征选择算法的综述最小二乘损失函数和l2,1正则项进行模型训练和稀疏特征选择;之后,将置信度高的未标记训练数据保存,并在下一轮迭代中将其视为已标记数据进行训练;最后,将获得的稀疏系数矩阵用于特征选择㊂该方法可以有效运用未标记数据进行特征选择,与现有的涉及特征分解的多标记特征选择算法不同,该算法只需要解决几个线性方程组㊂因此可应用于大规模多标记数据㊂文献[38]提出了一种基于l2,1范数正则化的多标记特征选择,该方法考虑了标记相关性,为避免原始标记空间噪音干扰,首先运用矩阵压缩的方法将原始标记空间压缩到一个低维空间;然后在压缩后的标记空间上构建回归模型,基于l2,1范数行式稀疏的性质构建了一种嵌入式多标记特征选择㊂文献[39]针对多标记学习提出一种基于流形正则化判别式特征选择(manifold regularized discriminative feature selection,MDFS)算法,MDFS结合流行假设,首先诱导出与原始特征空间具有相同局部结构的低维嵌入,引入线性映射函数去构建原始特征与低维嵌入之间的联系;考虑到标记之间的共现关系,MDFS引入标记流行正则化去捕获全局标记关系;最后引入l2,1范数正则化实现特征选择㊂实验验证了MDFS具有较好的效果,引入标记相关性使MDFS的性能有了总体提高㊂2.4㊀三种方法优缺点对比以上分别介绍了过滤式㊁包裹式㊁嵌入式的关键思想和代表方法,为更好地认识各类方法,表4给出了各类方法优缺点的具体描述㊂表4㊀过滤式㊁包裹式和嵌入式方法对比Table4㊀The comparison of filter,wrapper and embedded方法优势缺点过滤式不依赖特定分类器,选择出的特征子集对于不同分类器适用性更强除了特定评价指标外,往往需要设定选择特征个数若考虑特征之间的冗余性,往往需要计算多个特征之间的组合包裹式对于特定分类器,可以选出更好的特征子集无须运用或构建特征评价标准依赖特定分类器,所选特征子集不一定适用于其他分类器特征组合多,搜索空间大,算法复杂度高嵌入式无须反复评价特征子集重要性,效率高特征选择在学习过程中完成,可有效提高分类器训练效果获得的特征子集并不一定适用于其他分类器3㊀不同标记共享特征子集的程度多标记学习中每个标记具有不同的语义,因此每个标记可能对应不同的特征描述㊂针对多标记特征选择,从不同标记共享特征子集的程度,存在三种不同假设:1)所有标记共享相同特征子集;2)不同的标记享有不同的特征子集;3)将标记依据某种度量划分为多个标记粒,同一个粒内的标记享有相同的特征子集,不同粒内的标记享有不同特征子集㊂基于这三种不同假设,多标记特征选择算法可分为三类:标记共享式㊁标记专属式㊁标记粒化式㊂3.1㊀标记共享式标记共享式多标记特征选择方法,假设所有标记共享相同特征子集,图1给出标记共享方法的直观示意㊂3.2㊀标记专属式标记专属式多标记特征选择方法,考虑到每个标记应有不同刻画,对每个标记单独进行特征选择,选出每个标记专属特征子集,在图2给出标记专属式方法的直观示意㊂文献[40]首次提出了标记专属特征的概念,认为每个标记具有其自身的特征,称这些特征为专属特征㊂文章提出了一种基于专属特征的多标记学习(multi-label learning with label specific features,LIFT)算法㊂LIFT首先对每个标记的正负类样本分别聚类,利用聚类结果分析得出每个标记的专属特征;然后利用专属特征对每个标记训练一个二分类模型㊂LIFT利用专属特征更好地刻画了每一个标记概念,取得了不错的分12。

多维数据综合分析系统及其分析方法与制作流程

多维数据综合分析系统及其分析方法与制作流程

图片简介:本技术公开的属于数据分析技术领域,具体为一种多维数据综合分析系统,该多维数据综合分析系统包括数据存储数据库、基站数据库、数据关联模块、数据分析模块、数据表格图形绘制模块和数据标记模块,该多维数据综合分析系统的分析方法的具体步骤如下:S1:获取话单文件、账单文件和取证文件获取并存储在数据存储数据库内,通过特定的模型和算法,在巨量的话单、账单、电子取证信息中进行数据关联碰撞,分析出符合条件的数据,通过特有的显示模型提供给用户分析线索;能够对被调查人员进行多方位的数据行为刻画,对比分析出被调查人员在某些特定时间/事件内的联系对象、活动轨迹、资金交易、交易对象等信息。

技术要求1.一种多维数据综合分析系统,其特征在于,该多维数据综合分析系统包括数据存储数据库、基站数据库、数据关联模块、数据分析模块、数据表格图形绘制模块和数据标记模块;所述数据分析模块包括话单分析单元、账单分析单元和综合分析单元;所述数据存储数据库、基站数据库之间相互建立联系,所述数据存储数据库存储话单文件、账单文件和取证文件,所述数据关联模块收集时间信息、空间信息和事件信息;所述话单文件、账单文件和取证文件存储到数据存储数据库内,所述数据存储数据库的输出端与数据关联模块连接,所述数据关联模块的输出端与数据分析模块连接,所述数据分析模块的输出端与数据表格图形绘制模块连接,所述数据表格图形绘制模块的输出端与数据标记模块连接。

2.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述话单文件包括通话记录、基站信息和离线地图。

3.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述账单文件包括交易记录和银行信息。

4.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述取证文件为电子取证信息。

5.根据权利要求1所述的一种多维数据综合分析系统,其特征在于:所述话单分析单元、账单分析单元的输出端与综合分析单元连接,所述综合分析单元经过用户授权进行分析操作。

建设浸润式课程文化滋养多元化发展潜能

建设浸润式课程文化滋养多元化发展潜能

建设浸润式课程文化滋养多元化发展潜能作者:叶薇芳来源:《基础教育参考》2017年第24期上海市华东师大一附中实验小学是一所随着教育改革的脚步发展起来的颇具特色的现代化学校。

自20世纪80年代以来,学校坚持以“为学生提供适合他们发展的教育”为办学理念,以“调整课程结构、强化科技教育、开发学生潜能、创建办学特色”为教育改革的突破口,在深入调研、分析校情的基础上,直面教育发展的新形势、现实问题和新挑战,坚持“以项目为中心”的实践导向和“以问题为中心”的创新导向,积极营造自主探究、互动高效、快乐体验的浸润式课程文化氛围,满足学生的内在发展需求,滋养多元化发展潜能,全面提升课程教学质量。

一、“四多与四有”:优化课程框架结构在深入推进课程教学改革过程中,学校以《基础教育课程改革纲要(试行)》为指导,以有效学习为核心,以学生需求为导向,着力建构多层次、多种类、高质量的学校课程体系,打造“为学生提供适合他们发展的教育”的浸润式课程文化。

浸润式课程文化建设的魅力在于系统生态性。

为了构建浸润式课程文化系统,学校从三方面提升课程领导力:其一,理解和把握课程方案,严格执行课程计划,提升学校课程规划能力;其二,开发和利用课程资源,提高创造性落实课程方案的能力;其三,有效开展课堂评价,提升课程更新与评价的能力。

在此基础上,逐步形成了具有“多特征、多维度、多元化、多形式”特征的课程体系。

浸润式课程文化建设的魅力在于结构有机性。

在具体实施过程中,学校强调学科课程、活动课程和环境课程之间有机结合,同时还关注学科课程、活动课程和环境课程内部的有效协同。

在学科课程方面,加大基础型课程的执行力度,强调规范;加宽拓展型课程的拓展广度,增加门类;加强探究型课程的研究深度,选择项目。

如学校先后自主研发了《科学与未来》《健身与锻炼》《小剪刀,大艺术》《纺锦织绣》等十多本校本教材及相应课程,丰富了学生的课堂活动,彰显了学校的办学特色。

又如,学校以“创智天地,生态乐园”为主题,坚持课程建设的自主创新、课题选择的科学前沿、内容取舍的生活趣味等原则。

结合多维度特征的病理图像病灶识别方法

结合多维度特征的病理图像病灶识别方法

目前,通过病理检查对癌症进行诊断是一种常用的方法,它能够提供明确的疾病诊断,指导病人的治疗。

对病理图像进行人工分析本身是一件非常有挑战性的工作,一张病理切片通常包含数百万个细胞[1],一名病理科医生一天需要分析许多病理图像,这给他们带来很大的工作负担,疲劳阅片现象时有发生[2-3]。

同时,该领域内专家的培养速度赶不上病例的增加速度,将有限的、珍贵的人力资源大量投入到重复的病理图像的识别诊断中是非常可惜的。

通过卷积神经网络[4](Convolutional Neural Network,CNN)快速识别病理图像中的病变区域是本文的主要研究内容。

CNN是一种高效的学习方法,局部连接和权值共享的特点降低了网络模型的复杂程度,减少了需要学习的参数。

将计算机辅助诊断应用于数字病理图像已经结合多维度特征的病理图像病灶识别方法胡伟岸1,邹俊忠1,郭玉成2,张见1,王蓓11.华东理工大学信息科学与工程学院,上海2002372.清影医疗科技(深圳)有限公司,广东深圳518083摘要:长时间的病理图像人工诊断会使医生产生视觉疲劳,误诊和漏诊情况容易发生。

针对以上现象,提出一种结合卷积神经网络中多维度特征的方法,快速准确识别出病理图像中的病灶区域。

使用感兴趣区提取及图像裁剪获得小尺寸图块数据;使用染色校正的方法以解决图块染色不均,对比度弱等问题;搭建深度学习模型,使用多组深度可分离卷积提取不同尺度的特征,加入残差连接以避免梯度消失,联合不同维度的特征信息以提高特征利用率。

实验结果表明,染色校正能够提高预测准确率,上述模型具有参数少、鲁棒性强的特点,最终对病理图像病灶的识别均能达到较高的准确率,假阳性及假阴性均较低,未来将具有广泛的应用前景。

关键词:多维度;深度学习;卷积神经网络;深度可分离;染色校正;病理图像;病灶文献标志码:A中图分类号:TP391doi:10.3778/j.issn.1002-8331.2001-0126Lesion Recognition Method of Pathological Images Based on Multidimensional FeaturesHU Wei’an1,ZOU Junzhong1,GUO Yucheng2,ZHANG Jian1,WANG Bei11.School of Information Science and Engineering,East China University of Science and Technology,Shanghai200237,China2.Tsimage Medical Technology,Shenzhen,Guangdong518083,ChinaAbstract:Time-consuming artificial diagnosis of pathological images will cause visual fatigue of doctors,while both mis-diagnosis and missed diagnosis are easy to occur.In response to the above phenomena,a method combining multidimen-sional features of convolutional neural network is proposed to quickly and accurately identify lesion in pathological images. ROI extraction and image cutting is used to obtain small-scale block data.The method of stain correction is used to solve the problems of uneven staining and weak contrast in block data.A deep learning model is built,using several depthwise separable convolution to extract features of different dimensions,adding residual connection to avoid gradient disappear-ance,combining the feature information of different dimensions to improve feature utilization.The experimental results show that stain correction can improve prediction accuracy and the above model has the characteristics of few parameters and strong robustness.At the same time,the accuracy of lesion recognition in pathological images can reach a high level, while both false positive rate and false negative rate are low,so it will have a broad application prospect in the future.Key words:multidimensional;deep learning;convolutional neural network;depthwise separable;stain correction;patho-logical image;lesion基金项目:国家自然科学基金(61773164);上海市自然科学基金(16ZR1407500)。

语料库语言学语汇编V20

语料库语言学语汇编V20
Pedagogic corpus
教学语料库
Phraseology
短语学、短语
Phraseological uni t/seque nee
短语单位/序列
Phraseological profile
短语概貌
Plain text
纯文本
POSgram
赋码序列、码串
POS seque nee
赋码序列、码串
POS taggi ng/Part-of-Speech taggi ng
搭配词;搭配
Collocability
搭配强度、搭配力
Collocati on
搭配、词语搭配
Collocati onal stre ngth
搭配强度
Collocati onal framework/frame
搭配框架
Collocational profile
搭配概貌
Collocati onal n etwork
一次词
Header/Text head
文本头、头文件
Hidden Markov model (HMM)
隐马尔科夫模型、隐马模型
Historical corpus
历时语料库
HowNet
知网
ICTCLAS
中科院汉语分词系统
Idiom prin ciple
习语原则、成语原则
Idiomaticity
习语性、地道程度
多维分析、多维度分析法
Meaning by collocati on
搭配辨义
Metadata
元信息
MF/MD approach/multi-feature/multi-dime nsi onal an alysis

多特征融合的图像分类方法研究

多特征融合的图像分类方法研究

多特征融合的图像分类方法研究一、前言图像分类是计算机视觉领域的一个重要研究领域。

它通常可以归纳为两个主要任务:第一是图像分割,第二是分类。

其中,分类任务则是根据不同的特征对不同的图像进行分类。

目前,已经有许多研究表明,多特征融合技术在图像分类任务中是非常重要的。

在本文中,我们将介绍一种基于多特征融合的图像分类方法,并对其进行详细的研究和分析。

二、多特征融合的图像分类方法多特征融合技术是一种将多种不同类型的特征结合在一起以提高分类精度的方法。

在图像分类任务中,不同的特征通常可以划分为以下几类:1.颜色特征颜色特征指的是图像中不同像素的颜色分布情况。

通常使用直方图统计不同颜色的出现次数,进而构建不同颜色的特征向量。

2.纹理特征纹理特征指的是图像中不同区域的纹理分布情况。

通常使用局部二值模式(LBP)或方向梯度直方图(HOG)等方法来提取纹理特征。

3.形状特征形状特征指的是图像中不同物体的形状以及物体之间的位置关系。

通常使用边缘检测或轮廓识别等方法来提取形状特征。

以上三种特征在图像分类中都是非常常见的特征。

而多特征融合技术则是将不同的特征结合在一起,以提高分类准确率。

通常有以下几种融合方法:1.特征串联特征串联是将不同特征的特征向量拼接在一起的方法,得到一个更长的特征向量。

这种方法虽然简单,但容易带来过拟合问题。

2.特征加权平均特征加权平均是将不同特征的特征向量进行加权平均,得到一个综合的特征向量。

权重可以使用学习算法或者手工设置。

3.特征堆叠特征堆叠是将不同特征的特征向量分别输入给不同的分类器,最后将所有分类器的分类结果进行结合的方法。

这种方法比较复杂,但可以有效地避免过拟合问题。

4.特征选择特征选择是从多个特征中选择一些最相关的特征输入到分类器中。

这种方法可以减少特征向量的维度,提高分类效率和准确率。

以上四种多特征融合方法在图像分类中都有广泛应用。

具体应用时需要根据不同的任务和数据,选择适当的方法融合不同的特征。

海空背景下低慢小目标泛探雷达多域多维特征建模与分析

海空背景下低慢小目标泛探雷达多域多维特征建模与分析

海空背景下低慢小目标泛探雷达多域多维特征建模与分析邓振华;陈小龙;薛伟;张月;汪兴海;关键;赵志坚【期刊名称】《信号处理》【年(卷),期】2024(40)5【摘要】飞鸟和无人机等“低慢小”目标回波微弱、特征不明显,对雷达探测和识别提出了很高的要求,对其特征建模与特性分析是基础,而获取雷达多域多维的目标特征是前提。

数字阵泛探雷达通过“宽发窄收”工作模式,实现目标的长时间积累,实现更高的积累增益和多普勒分辨率,能够获得目标的多域多维特征,为“低慢小”目标的精细化处理和探测识别一体化奠定了基础。

该文针对海空背景下的飞鸟、旋翼和固定翼无人机、直升机等“低慢小”目标,利用数字阵泛探雷达系统获得的距离-方位-帧间、距离-脉冲-帧间等多维数据,提取目标的时域回波特征(单帧脉冲回波、动态脉冲回波)、变换域多普勒特征(多普勒瀑布图、微多普勒谱)、长时间机动特征(加速度序列、加加速度序列、航迹)7类19种多域多维特征,能够充分的反映目标在单帧和多帧数据间的幅值起伏、能量变化、运动、机动、微动等特性,从而实现对“低慢小”目标的精细化特性描述与分析。

最后,采集并构建了数字阵泛探雷达“低慢小”目标特征数据集,对典型目标的特征进行验证和定量、定性分析,总结不同目标的特征差异,验证结果表明,四种类型的“低慢小”目标的多维特征具有明显的区别,获得的特征和差异将为后续的“低慢小”目标分类和识别提供重要支撑。

【总页数】14页(P801-814)【作者】邓振华;陈小龙;薛伟;张月;汪兴海;关键;赵志坚【作者单位】哈尔滨工程大学烟台研究院;海军航空大学;中山大学电子与通信工程学院【正文语种】中文【中图分类】TN957.51【相关文献】1.PD雷达探测低慢小目标性能分析2.线性调频连续波雷达对低小慢目标检测及性能分析3.“低慢小”目标探测雷达在城市复杂环境下的应用4.强杂波背景下FMCW雷达低小慢目标探测研究因版权原因,仅展示原文概要,查看原文内容请购买。

高中数学教材中数学史内容对比研究的一个框架

高中数学教材中数学史内容对比研究的一个框架

高中数学教材中数学史内容对比研究的一个框架作者:***来源:《中学数学杂志(高中版)》2022年第04期【摘要】数学史是提升学生数学核心素养的重要依托,以教育目标分类学(修订版)为理论依据,从学习者的认知水平、知识分类以及数学史在教材中的主要渗透特征三个维度构建了高中数学教材中数学史内容对比研究的框架. 基于本框架对新人教A版高中数学必修册和北师版高中数学必修册教材中数学史的相关内容进行了对比研究. 结果显示:二者在总体数量方面相差不大;在认知水平和知识分类两个维度的史实分布特征具有较强的一致性;在主要渗透特征方面二者呈现出一定的差异性. 为教师教学提出以下几点建议:(1)引导学生以史料为背景进行数学写作,提高学生数学元认知水平;(2)前置“数学史学习任务清单”,以兴趣引领学生主动认知;(3)史实材料的选取要兼顾“德育”和“智育”,培养学生数学核心素养.【关键词】数学史;高中数学;教材对比1 問题提出随着数学课程改革的不断深入,数学文化的育人价值被逐渐挖掘. 2003年,我国首次将数学文化纳入普通高中数学课程标准[1],这意味着数学文化已经受到数学教育界的广泛关注. 数学史作为数学文化的有机组成部分,是学生了解数学科学发展脉络、体会数学文化属性的重要依托,而教科书作为教师“教”与学生“学”的主要载体,是开展数学史实学习的重要资源. 2019年,我国部分地区开始率先使用依据《普通高中数学课程标准(2017版)》编写的新版高中数学教材,按照教育部“同纲异构”的教材编写原则,各版本教材在数学史内容的选择和编排上存在着一定的差异.对数学史在各版本教材中的选择和编排进行研究,不仅有利于总结教材编写经验,为今后的教材编写提供借鉴,而且对于教师把握教材、体会教育理念的转变有着重要的指导意义. 通过对文献进行研读,笔者发现已进行的数学史对比研究多从数学史在教科书中的内容类型、内容来源、呈现视角等方面进行探索和比较[2][3][4],而从学习者的认知水平和知识分类这两个角度的研讨较少. 本研究从数学史在教科书中的主要渗透特征、学生对数学史的认知水平以及知识分类三个维度构建了高中数学教材中数学史内容对比研究的框架,以期为广大数学教育工作者提供参考,对不同版本高中数学教材进行广泛对比研究,为教师的史实教学提供建设性意见. 2 三维框架构建2.1 理论依据《布卢姆教育目标分类学(修订版)分类学视野下的学与教及其测评》[5](以下简称《修订版》)是对Lorin W.Anderson和David R.Krathwohl等人所编写的《教育目标分类学:认知领域》一书的修订和完善. 《修订版》将原认知框架修改为知识和认知过程两个维度,知识维度划分为事实性、概念性、程序性、元认知知识四个类别;认知过程划分为记忆/回忆、理解、应用、分析、评价、创造六个类别,每一类别又划分为2~7个不等的亚类共30个. 应该说《修订版》作为当今完善程度最高、适用范围最广的教育目标分类理论之一,为教育科研人员提供了良好的理论研究框架,同时也为一线教师的教学实践提供了操作指引和理论支撑;但高中数学教材中的数学史内容有限、涉及范围较窄,过细的类别划分对于《修订版》在数学史领域的应用是十分困难的. 布卢姆曾提出:“每个领域都应该有符合该领域实际特征的目标分类系统,它更详细,更接近于该领域的语言符号系统和问题思维方式,因此,在合适的情况下,它可以具有新的类别及类别的合并与删除.”因此,将原分类系统进行整合与删除后,其在数学史领域的可操作性可能会更强. 2.2 框架建构2.2.1 从学习者认知水平的角度1.了解与记忆史实对于数学教科书中出现的具有如下特征的数学史实内容了解和记忆即可:无需通过任何形式和手段(如通过查阅资料对其进行归纳、总结与拓展)对史实材料进行加工,仅以阅读的形式进行认知;不涉及数学技能和数学思想方法的运用. 一般来讲,数学名言、数学家简介和数学符号的由来等史料都属于这一层次.2.理解与应用史实对于数学教科书中出现的具有如下特征的数学史实内容需要进行理解和应用:在认知过程中涉及到运算、推理、画图、数据整理等解决数学问题所必需的数学技能的史实材料;以史实材料(即包括数学自身发展历史,也包含数学在其他学科中的应用史)为背景的数学建模活动. 例如新人教A版高中数学教科书必修第一册P39探究中第24届国际数学家大会会标的由来——赵爽弦图,见图1. 虽然学习者在初中已经学习过赵爽弦图的相关史实内容,但由于此处要求从图中“找出一些相等关系和不等关系”,故此处史实内容从认知水平来看要达到理解与应用的层次.新人教A版教材P39探究活动3.整合与归因史实对于数学教科书中出现的具有如下特征的数学史实内容需要进行整合与归因:需根据已有的史实材料、通过查阅资料等手段对其进行分析、拓展和评价,并最终以数学写作的形式进行汇报的任务.例如新人教A版选择性必修第一册P89中的“请你查阅有关资料,进一步了解吴文俊的事迹,了解我国数学家在数学机械化方面的卓越贡献”. 要想完成上述学习任务,学习者可以按照如下步骤进行,见图2.2.2.2 从知识分类的角度1.陈述性史实知识将数学教科书中出现的具有如下特征的数学史实内容划分为陈述性史实知识:史实内容为数学发展所必须的基本要素:关于语言的或计算的符号、历史事件的地点、人物及其言论等史实;上述基本要素的文字扩展、评价,不同要素间的以文字为主要形式的整合. 例如人教A版高中数学教科书必修第一册P62旁注,“函数符号y=f(x)是由德国数学家莱布尼茨在18世纪引入的”就是一个陈述性史实知识;人教A版高中数学教科书必修第一册P97,以“函数的形成与发展”为主题进行文献阅读和数学写作,这是众多数学基本要素间的整合,属于陈述性史实知识.2.应用性史实知识将数学教科书中出现的具有如下特征的数学史实内容划分为应用性史实知识:与数学定理、数学思想方法、数学技能有关的史实内容;以史实(既包括数学科学自身发展历史,也包含数学在其他学科中的应用史)为背景建立数学模型的相关知识. 例如新人教A版必修第二册P81中的“代数基本定理”;P91中的“棣莫佛定理”;P121中的“祖暅原理”等都属于应用性史实知识.2.2.3 从主要渗透特征的角度1.总体数量:即数学史在数学教材中的出现次数.2.运用方式:汪晓勤提出了数学教材运用数学史的五种方式[6],具体内容见表1.3.呈现位置:数学史在数学教材中的呈现位置主要有三种:前置式、并置式和后置式[3]. 前置式即指数学史出现在数学知识之前,并置式即数学史与数学知识同时出现,后置式是数学史在数学知识之后出现. 例如:北师版高中数学教材每一章都以数学名言引入,这是前置式;人教A版教材在介绍弧度制时,在旁注介绍了弧度制概念的提出,这就是并置式. 三维对比研究框架整体结构见图3.3 案例分析3.1 研究对象以新人教A版高中数学必修册教材和北师版高中数学必修册教材为对象进行对比研究. 将数学史的概念界定为:数学教科书中涉及到的有关数学概念、定理、思想方法的发展历程,数学家简介、与数学有关的名言,数学符号的由来,数学在社会政治、经济、文化以及其他领域的应用史. 3.2 研究结果分析3.2.1 二者在认知水平维度和知识分类维度的史实分布特征具有较强的一致性研究发现,新人教A版必修册和北师版必修册在认知水平和知识分类两个维度的史实分布特征具有较强的一致性,即P1、P2层次的史实内容相比较多,P3层次较少,K1、K2两个层次的史实内容数量较接近,且K2层次的史实内容略多于K1层次,见图4. 具体来说,新人教A版必修册在P1、P2、P3层次的史实数量分别为15处、22处和5处,在K1、K2层次的史实数量分别为18处和22处;北师版必修册在P1、P2、P3层次的史实数量分别为20处、25处和4处,在K1、K2层次的史实数量分别为21处和28处.3.2.2 二者在数学史的运用方式及呈现位置方面具有一定的差异性在主要渗透特征方面,二者呈现出“一同二异”的表现特征. 具体而言,在总体数量方面,新人教A版和北师版必修册相差不大,分别为42处和49处;在运用方式方面,新人教A版教材在点缀式、附加式、复制式、顺应式、重构式这五种方式的占比分别为0%、47.6%、2.4%、28.6%、21.4%,而北师版的这一数据为0%、20.4%、24.5%、49.0%、6.1%;在呈现位置方面,新人教A版中数学史内容在前置式、并置式、后置式这三个位置的占比分别约为4.8%、57.1%、38.1%,而北师版的这一数据为28.6%、16.3%、55.1%,究其原因是北师版教材中引用了大量的数学名言放置在章首页,这就造成了北师版“前置式”和“复制式”在各自整体内占比较高,见图5.3.2.3 从三维结构整体来看,二者各具特色从三维结构整体来看,二者各具特色,既有共同关注的重点,也有不同的渗透理念,见表2. 首先,二者对学生在陈述性史实知识方面的认知水平要求较低,多为P1层次,分别为14处和17处,而对于应用性史实知识的认知水平要求多为P2层次,分别为22处和23处. 其次,二者都是处于(P2,C2,K2)层次的史实内容最多,且这一层次史实内容的渗透特征也较相似,即都是顺应式运用最多、附加式次之. 但是,北师版在这一层次共运用顺应式20次,占比87.0%,而新人教A版在这一层次的主要运用方式也为顺应式,但占比只有54.5%,可见,北师版教材的编写侧重于对史实内容的加工,而新人教A版还关注史实的重构. 此外,二者在(P3,C3,K1)和(P3,C3,K2)层次、(P1,C3,K1)和(P2,C3,K2)层次的呈现位置方面也呈现出了较强的一致性. 由此可见,在整体结构方面,二者各有所长,既有共性,也有差异.4 启示教材作为贯彻课程标准和承载课程理念的物质载体,是师生开展史实学习的重要资源. 通过对框架的构建和两个版本教材中数学史内容的对比研究,发现了两个版本教材在数学史内容的选择和编排上的共性与差异,为教师教学提出以下三条建议. 4.1 引导学生以史料为背景进行数学写作,提高学生数学元认知水平研究表明,数学写作可以有效提高学生的数学元认知水平[7],而对史实内容进行整合与归因,就是学习者通过收集、归纳、整理等方式,从更高的视角对史料进行意义建构,并最终以数学写作的形式呈现的过程. 这一过程不仅有利于学习者了解数学概念、公式、定理的发生发展脉络,更重要的是对于学生数学元认知水平的提升具有重要意义. 在新人教A版教材和北师版教材中,P3层次的史实数量占比分别为12%和8%,相比P1、P2层次的史实数量占比较低. 因此,在教学过程中,教师要有意识地引导学生对教材中涉及的史料进行拓展与分析,培养学生收集、分析、归纳材料和数学写作方面的能力,提升学生的数学元认知水平. 4.2 前置“数学史学习任务清单”,以兴趣引领学生主动认知美国数学家魏尔德认为:数学课堂上只强调数学的技术是不够的,要使学生被数学所吸引,一定要运用数学历史知识[8]. 而史料的不同运用方式和呈现位置会给学生带来不同的情感体验. 在运用方式方面,教师要借鉴教材,采取顺应式和重构式的方式,以此来保证史料的时代适用性. 在史料呈现位置方面,教师可以在章开头设置“数学史学习任务清单”. 例如“圆锥曲线的方程”这一章涉及了大量的史实知识,从梅内赫莫斯的“梅氏三线”到欧几里得的《圆锥曲线》,再到阿波罗尼奥斯的《圆锥曲线论》和安提缪斯的“两钉一线”椭圆画法[9],学生只有了解圆锥曲线的产生发展历程,对知识的建构才会更加深刻. 在学习本章之前,教师可以预先列出每一节涉及的史料,引导学生自主探索,调查圆锥曲线的发展历程,激发学生的学习兴趣,促进学生主动认知. 4.3 史实材料的选取要兼顾“德育”和“智育”,培养学生数学核心素养数学学科核心素养是数学课程目标的集中体现,是具有数学基本特征的思维品质、关键能力以及情感、态度和价值观的综合体现[10],即核心素养的培养要兼顾“德育”和“智育”. 数学史在数学与人文之间架起了一座桥梁,因而在德育上可以发挥独特的优势[9]. 因此,教师在史料的选取过程中,在保证趣味性、科学性、可学性、有效性、人文性的史料选取原则下[11],要重视中国传统文化中的数学元素,兼顾学生的德与智共同发展. 例如,在介绍《赵爽弦图》的过程中,也可以将赵爽“负薪余日,聊观《周髀》”的故事介绍给学生,这样既让学生了解了赵爽弦图,发展了学生的“智”,又让学生感受到赵爽刻苦钻研的精神,培养了学生的“德”.参考文献[1] 史宁中,吕世虎,李淑文.改革开放四十年来中国中学数学课程发展的历程及特点分析[J].数学教育学报,2021,30(01):1-11.[2] 刘云,朱维宗.高中数学必修教科书中数学史内容的呈現方式探析[J].数学教育学报,2012,21(02):86-89.[3] 徐乃楠,孔凡哲,刘鹏飞.高中数学教科书中的数学史呈现研究[J].数学教育学报,2015,24(02):61-65.[4] 张盛熔.新人教A版高中数学必修册教科书中数学史内容的研究[D].武汉:华中师范大学,2020.[5] Lorin W.Anderson等.布卢姆教育目标分类学修订版:分类学视野下的学与教及其测评[M].蒋小平等译.北京:外语教学与研究出版社,2009,21-48.[6] 蒲淑萍,汪晓勤.数学史怎样融入数学教材:以中、法初中数学教材为例[J].课程·教材·教法,2012,32(08):63-68.[7] 胡耀华.数学写作的价值及若干教学建议[J].数学教育学报,2007,56(03):60-62.[8] 杨渭清.数学史在数学教育中的教育价值[J].数学教育学报,2009,18(04):31-33.[9] 汪晓勤,沈中宇.数学史与高中数学教学——理论、实践与案例[M].上海:华东师范大学出版社,2020:60.[10] 中华人民共和国教育部.普通高中数学课程标准(2017年版)[M].北京:人民教育出版社,2018:4.[11] 陈晏蓉,汪晓勤.数学史料的选取原则与案例分析[J].教育研究与评论(中学教育教学),2017(12):37-43.作者简介常海斌(1999—),男,吉林公主岭人,硕士生;主要从事数学教育研究.。

lstm解决多特征二分类问题的算法

lstm解决多特征二分类问题的算法

lstm解决多特征二分类问题的算法【导言】在机器学习领域,解决多特征二分类问题一直是一项具有挑战性的任务。

而长短时记忆网络(LSTM)作为一种强大的深度学习算法,被广泛应用于各个领域。

本文将深入探讨LSTM解决多特征二分类问题的算法原理与应用,并分析其优劣之处。

通过本文的阅读,您将对LSTM在多特征二分类问题中的应用有更深入的理解。

【正文】1. LSTM的概念与原理长短时记忆网络(LSTM)是一种特殊的循环神经网络(RNN),其主要用于解决序列数据处理问题。

与传统RNN相比,LSTM能更好地解决梯度消失和梯度爆炸的问题,以及更好地记忆长期依赖关系。

2. LSTM在二分类中的应用LSTM在多特征二分类问题中的应用十分广泛。

以文本分类为例,对于一篇文章进行情感分析,LSTM可以对文章的特征进行建模,并最终给出一个正负情感的预测值。

LSTM的强大记忆能力和对长期依赖关系的节选使其在处理多特征二分类问题时能够更好地捕获特征之间的关联性。

3. LSTM解决多特征二分类问题的步骤(1) 数据预处理:根据实际情况选择合适的特征提取方法,并进行数据归一化或标准化处理,以加快收敛速度和提高准确性。

(2) 构建LSTM模型:定义LSTM的输入层、隐藏层和输出层,并确定各层的维度。

选择合适的激活函数和优化器,如sigmoid激活函数和Adam优化器,以提高模型的性能。

(3) 模型训练与验证:将数据集划分为训练集和验证集,使用训练集对LSTM模型进行训练,并通过验证集评估模型的性能。

根据验证集的准确率和损失函数值,调整模型参数,以提高模型的泛化能力。

(4) 模型预测与评估:使用测试集对已训练好的LSTM模型进行预测,并计算预测结果与真实标签的比对度,以验证模型的准确性和鲁棒性。

4. LSTM解决多特征二分类问题的优劣LSTM作为一种循环神经网络,具有很强的记忆能力和建模能力,能够处理多特征之间的复杂关系,从而更好地应对多特征二分类问题。

基于神经网络的多特征轻度认知功能障碍检测模型

基于神经网络的多特征轻度认知功能障碍检测模型

第 62 卷第 6 期2023 年11 月Vol.62 No.6Nov.2023中山大学学报(自然科学版)(中英文)ACTA SCIENTIARUM NATURALIUM UNIVERSITATIS SUNYATSENI基于神经网络的多特征轻度认知功能障碍检测模型*王欣1,陈泽森21. 中山大学外国语学院,广东广州 5102752. 中山大学航空航天学院,广东深圳 518107摘要:轻度认知功能障是介于正常衰老和老年痴呆之间的一种中间状态,是老年痴呆诊疗的关键阶段。

因此,针对潜在MCI老年人群进行早期检测和干预,有望延缓语言认知障碍及老年痴呆的发生。

本文利用患者在语言学表现变化明显的特点,提出了一种基于神经网络的多特征轻度认知障碍检测模型。

在提取自然会话中的语言学特征的基础上,融合LDA模型的T-W矩阵与受试者资料等多特征信息,形成TextCNN网络的输入张量,构建基于语言学特征的神经网络检测模型。

该模型在DementiaBank数据集上达到了0.93的准确率、1.00的灵敏度、0.8的特异度和0.9的精度,有效提高了利用自然会话对老年语言认知障碍检测的准确率。

关键词:轻度认知功能障碍;自然会话;神经网络模型;多特征分析;会话分析中图分类号:H030 文献标志码:A 文章编号:2097 - 0137(2023)06 - 0107 - 09A neural network-based multi-feature detection model formild cognitive impairmentWANG Xin1, CHEN Zesen21. School of Foreign Languages, Sun Yat-sen University, Guangzhou 510275, China2. School of Aeronautics and Astronautics, Sun Yat-sen University, Shenzhen 518107, ChinaAbstract:Mild cognitive impairment (MCI) is both an intermediate state between normal aging and Alzheimer's disease and the key stage in the diagnosis of Alzheimer's disease. Therefore, early detec‐tion and treatment for potential elderly can delay the occurrence of dementia. In this study, a neural net‐work-based multi-feature detection model for mild cognitive impairment was proposed, which exploits the characteristics of patients with obvious changes in linguistic performance. The model is based on ex‐tracting the linguistic features in natural speech and integrating the T-W matrix of the LDA model with the subject data and other multi-feature information as the input tensor of the TextCNN network. It achieved an accuracy of 0.93, a sensitivity of 1.00, a specificity of 0.8, and a precision of 0.9 on the DementiaBank dataset, which effectively improved the accuracy of cognitive impairment detection in the elderly by using natural speech.Key words:mild cognitive impairment; natural speech; neural network model; multi-feature detec‐tion; speech analysisDOI:10.13471/ki.acta.snus.2023B049*收稿日期:2023 − 07 − 18 录用日期:2023 − 07 − 30 网络首发日期:2023 − 09 − 21基金项目:教育部人文社会科学基金(22YJCZH179);中国科协科技智库青年人才计划(20220615ZZ07110400);中央高校基本科研业务费重点培育项目(23ptpy32)作者简介:王欣(1991年生),女;研究方向:应用语言学;E-mail:******************第 62 卷中山大学学报(自然科学版)(中英文)轻度认知障碍(MCI,mild cognitive impair‐ment)是一种神经系统慢性退行性疾病,也是阿尔茨海默病(AD,Alzheimer's disease)的早期关键阶段。

基于多维度多特征模型的语域变异研究综述

基于多维度多特征模型的语域变异研究综述
体 特征 : 东 非英语 的表 达更 具 有正 式 性 , 特 别 是 在 所 指 清 楚, 所 指有赖 场景 维度 , 抽象性/ 非 抽 象 性 维 度 及 信 息 性 维 度 更 是 如此 。 三、 国 内研 究 概 况 2 0 0 1 年, 雷秀云 、 杨 惠 中 讨 论 了 基 于 语 料 库 的 研 究 方 法
多、 分类 最细致的研 究语域 变异的方法 , 在 国内外逐 渐被 广大学者所认 可并得 到 了广泛 应用。
关 键 词 :多 维度 多特 征 模 型 语 体 语 域 变异
1 9 8 8 年, B i b e r  ̄ i ] 建 了多维度多特征分析模 型( Mu l t i - d i . me n s i o n a l / Mu h i - . - f e a t u r e a n a l y s i s ) , 以语 料库 和计算 机统 计技
结 了以往 研究 , 发现任 何语言 都有一个 或更 多 的 口语 维度 。 这些维度 不能完 全确定 口笔语之 间 的差 异 ,但是 它们 揭示各语体之 间的差异 。白建 立 以来 ,多维 度多特 征模型 在语料库语 言学 研究 中逐渐受
到 重 视 并 占有 独 特 的 地 位 。


多维 度 多 特 征 模 型 的 建立
对比, 研究者 总结 出二 者有相 似的变 异范 围。从表 面上 看 ,
域进行 了分析 。该研究从2 6 种 口笔语语域 中选 取了2 7 9 篇语 料分析其6 5 种 语言 特征 的分布 ,并 用 因子 分析法 统计 出其
五 个 维 度 值 。与 其 他 语 言 的 分 析 结 果 相 同 , 该 研 究 表 明仅 凭

个 维 度 无 法 充 分 描 述 口笔 语 语 域 间 的关 联 。 此外 , B i b e r 总

基于多维度分析模式的语言变异研究综述

基于多维度分析模式的语言变异研究综述

基于多维度分析模式的语言变异研究综述
荣红
【期刊名称】《河北大学学报(哲学社会科学版)》
【年(卷),期】2008(033)001
【摘要】本文旨在总结和评价多维度变异研究领域在近二十年中取得的成果.文章指出,一方面,多维度变异研究是语料库语言学和社会语言学交叉的产物,在方法论上促进了变异研究的发展;另一方面,多维度变异研究实现了对语言特征的综合性分析和对语言变异的多维度的描写,补充和扩大了经典社会语言学变异研究的成果.文章提出,与多种研究方法的结合,尤其是与民族志等定性研究方法的结合,是多维度变异研究发展的方向.
【总页数】6页(P107-112)
【作者】荣红
【作者单位】北京师范大学,外国语言文学学院,北京100875;河北师范大学,外国语学院,石家庄,050016
【正文语种】中文
【中图分类】H310
【相关文献】
1.基于多维度多特征模型的语域变异研究综述 [J], 王雪娇
2.生态话语多维度多层面分析模式建构 [J], 孙永春
3.基于多维度创新生态系统视角推动京津冀协同创新发展的研究综述 [J], 赵烨楠;
陈阳;周红;周祥
4.多维度特征融合的教学行为智能分析模式构建 [J], 赵刚;朱文娟;胡碧灵;夏青;刘闪;初洁
5.基于多维度创新生态系统视角推动京津冀协同创新发展的研究综述 [J], 赵烨楠;陈阳;周红;周祥
因版权原因,仅展示原文概要,查看原文内容请购买。

  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
De . c 2011
多特征 / 多维度分析法 简介

( 州工 业职 业技 术 学院 徐 I

徐 州 210) 200
信 息 管理 学 院 ,江 苏

要 :多特征 / 多维度分析 法, 通过分析语言特征的共现模式, 确定语域变异的维度, 对不同语篇类
型 进行 多维度 的 比较 分析 , 以求全 面地揭 示语体 之 间的 差异 。
a ayi 模 型 , n ls ) s 即多 特 征/ 维 度 分 析 法 , 于 描 述 多 用 口语 和 书面语 体裁 间 的语 篇关 系 。 种方 法使 用标 这 准化 的 以计 算 机 为基 础 的文本 语 料 库 和 自动 识 别
量 , 本研 究 中 即大量 语 言 特征 的频 率 , 在 被简 化 为
词 ; ) 问 词 ; ) 词 形 式 ; ) 动语 态 ; ) 格 (疑 D (名 E (被 F ( 属 G
形 式 ; ) 属 特 征 ; ) 词 短语 , 容 词 和副 词 ; ) (从 H (介 I 形 ( J
词 汇专 一 性 ; ) 汇 类 别 ;L情 态 ;M) 门动 词 ( 词 K () ( 专
据 中概括 或 总结 的一些领 域 。也 就是 说 , 每个 因子
代表 了高 度共 享差 异 的一 个 领域 , 一组 以高频率 共
现 的语言 特征 。这 些 因子是 原始 变量 的线 性组 合 , 从所 有变 量 的相关 矩 阵得 出。 下列 表列 出 了每个 因

维度 的确 立依 据
维 度 都包 括 两 组特 征 , 组 带 有正 负 荷值 , 一 一组 带 有 负负荷 值 。 因子 负荷 的正 和 非偏 好 结 构 ; ) 致 ; ) 定 。 ( 缩 (一 0 (否 P
如 此 分类 反 映 了每个 特征 的语 法 功 能而 非 语 篇 功
维 度 的 确 立 最 初 是 通 过 对 英 国 L n atr a cs — e
子下各 个 语 言特征 的 因子负荷 。 一个 因子负荷表 示
该语 言特 征 与相应 的语 用功 能有 多大 程度 的联 系 。 它 反 映 了各 语 言特 征 与 因子 整体 间共 现关 系 的密 切性 。 接着 用 因子分 析法 处理 大量 的数 据 , 显示 出那 些语 法特 征在 篇章 中趋 于共 现 。 组共 现的特 征被 每 称 为变异 的一 个维 度 。 通过对 口语语 域 和书 面语 语
能, 每个 特 征被 描述 为文 本 中 的功能 符号 。基 于 这
互 补分 布 。 代表 的功 能意 义是相 对 的 。 所
二 、 ie 对各维 度 的描述 Bb r
通 过研 究 4 1 8 篇语 料 中 的 6 语 言特征 的分 7个
布 特 征 , ie 定 义 并 阐释 了 6个 主 要 维 度 。表 格 Bb r 21及 22分别 列 出 了在 维 度一 和维 度 二上 有较 大 . .

技术来 计 算频 率显 著 的词 汇和语 法 特征 。 这些 特征
的共 现模 式 可 以通 过 多变 量 统计 方 法 来 分析 确认 文本 中语 言变 异 的功 能维 度 , 提供 有 关这 些 维度 并 的体 裁 之间关 系 的全 面描 述 。

小 组派 生变量— — 因子 。 一个 因子代 表原始 数 每
根 据 每 一维 度 上 “ 现 ” 共 性语 言 特 征 共 同 的功
能 意义 ,可对 每 一维 度 代表 的功能 意 义做 出解 释 。
每个 语 言特 征 的 因子负 荷值 从 一 . + ., 1 0到 1 负荷 值 0
越 高说 明该 特征 与这一 维度 的联 系越 密切 。 多数 大
语 料 库语 言 学 家 D u lsB b r 1 8 o ga ie 于 9 8年 建
立 的 MD MF Mut- i nin l Mut-etr / f l dme s a/ i o l fa e i u
特征 提供 了一个 确定 英语 功 能维度 的坚 实基础 。
因子 分 析是 多特 征/ 维度 分析 法研 究 文本 差 多 异 的主要 统计工 具 。在 因子分 析 中 , 量 的原始 变 大
关 键 词 :多特 征 ; 多维 度 ; 现模 式 共 中 图分类 号 : ~ HO 0 文献 标 识码 : A 文章 编号 :6 3 3 3 ( 0 1 1 — 0 9 0 17 — 2 1 2 1 )2 0 4 — 3
语 法 范畴 的特征 可 以具有 相 同 的功能 。 因此 , 些 这
第3 第1 卷 2期
21 年 1 01 2月
赤 峰 学 院 学 报 (科 学 教 育 版 )
Ju n l f h e g nv r t si c o ra o i n i s y(c n e&e u a o ) C f U ei e d ctn i
V0. .2 1 3 No 1
域 的 多维 度 定 量分 析 .我们 确 立 了 6个 主要 的维
度。
先确 认 一 系列具 有功 能关 联 的 6 7个语 言 特征 。根 据 其语 法 类 别将 这 些 特征 分 为 1 6大语 法 范畴 : ) ( A
时 态语 态 标识 语 ; ) 间地 点 副词 ; ) (时 B ( 代词 和 代 动 C
O l— egn语 料 库 ,简称 为 L B语 料 库 及 L n s B re o O o— dn L n o — u d英 语 口语 语 料 库 的 6 7项 语 言 特 征 的分 布进 行 量化 分析 后定 义 的。 O L B语料 库包 括 5 0篇 0
文本 样 本 . 篇约 2 0 每 0 0字 , 自 1 选 5种体 裁 。 二个 第 是 L n o — u d语 料库 。该语 料库 搜 集 了 8 o dn L n 7个英 语 口语 文本 .约 5 O万 词 。代 表 了 6大主要 言 语情 境。 通 过 调 查 以前 对 口语/ 面 语 差 异 的 研 究 , 书 首
相关文档
最新文档