基于决策树的面向对象变化信息自动提取研究
基于决策树和马尔可夫链的问答对自动提取
系统 最 终 性 能 的 主要 因素 。 为 了提 高 问答 对 的 规 模 、 分 利 用 互 联 网 资 源 , 文 提 出 了一 种 基 于 决 策 树 和 马 尔科 充 本 夫链 的 在 互 联 网上 自动抽 取 问答 对的 算 法 。先根 据 网页 中的 HTML标 记把 网 页表 示成 一棵 D OM 树 ; 然后 利 用树 中每 个 节 点 的 结 构 和 文 字信 息 , 取 相 应 的特 征 ; 抽 最后 将 得 到 的 节 点 特 征 通 过 由决 策 树 和 一 阶 马 尔可 夫链 结 合 得 出的 分 类模 型进 行 分 类 。试 验 结 果 表 明 准 确 率 达 到 了 9 . 9 , 回 率 达 到 了 8 . 3 V。 对 大 量 网 页 抽 取 的 结 038 召 602 o 果 表 明 该 分 类模 型 能 够适 应 对各 种 各 样 的 网页 的抽 取 。 关键 词 : 工 智 能 ; 式识 别 ; 息抽 取 ; OM 树 ; 策 树 ; 尔 可 夫链 人 模 信 D 决 马
n d .La ta lw h e t r so e p s h ls i c t n mo e ,wh c r a e yd cso r ea d M a k v mo e ,t oe s l o t ef a u e v r a st eca sf a i d l i o ih c e t d b e iin te n r o d l o
影像信息提取之--面向对象特征提取流程
影像信息提取之--面向对象特征提取流程“同物异谱,同谱异物”会对影像分类产生的影响,加上高分辨率影像的光谱信息不是很丰富,还有经常伴有光谱相互影响的现象,这对基于像素的分类方法提出了一种挑战,面向对象的影像分类技术可以一定程度减少上述影响。
本专题以ENVI中的面向对象的特征提取FX 工具为例,对这种技术和处理流程做一个简单的介绍。
本专题包括以下内容:●面向对象分类技术概述● ENVI FX简介● ENVI FX操作说明1、面向对象分类技术概述面向对象分类技术集合临近像元为对象用来识别感兴趣的光谱要素,充分利用高分辨率的全色和多光谱数据的空间,纹理,和光谱信息来分割和分类的特点,以高精度的分类结果或者矢量输出。
它主要分成两部分过程:对象构建和对象的分类。
影像对象构建主要用了影像分割技术,常用分割方法包括基于多尺度的、基于灰度的、纹理的、基于知识的及基于分水岭的等分割算法。
比较常用的就是多尺度分割算法,这种方法综合遥感图像的光谱特征和形状特征,计算图像中每个波段的光谱异质性与形状异质性的综合特征值,然后根据各个波段所占的权重,计算图像所有波段的加权值,当分割出对象或基元的光谱和形状综合加权值小于某个指定的阈值时,进行重复迭代运算,直到所有分割对象的综合加权值大于指定阈值即完成图像的多尺度分割操作。
影像对象的分类,目前常用的方法是“监督分类”和“基于规则(知识)分类”。
这里的监督分类和我们常说的监督分类是有区别的,它分类时和样本的对比参数更多,不仅仅是光谱信息,还包括空间、纹理等对象属性信息。
基于规则(知识)分类也是根据影像对象的属性和阈值来设定规则进行分类。
表1为三大类分类方法的一个大概的对比。
类型基本原理影像的最小单元适用数据源缺陷传统地物的单个的中低分辨丰富的空基于光谱的分类方法光谱信息特征影像像元率多光谱和高光谱影像间信息利用率几乎为零基于专家知识决策树根据光谱特征、空间关系和其他上下文关系归类像元单个的影像像元多源数据知识获取比较复杂面向对象的分类方法几何信息、结构信息以及光谱信息一个个影像对象中高分辨率多光谱和全色影像速度比较慢表1 传统基于光谱、基于专家知识决策树与基于面向对象的影像分类对比表2、ENVI FX简介全名叫“面向对象空间特征提取模块—Feature Extraction”,基于影像空间以及影像光谱特征,即面向对象,从高分辨率全色或者多光谱数据中提取信息,该模块可以提取各种特征地物如车辆、建筑、道路、桥、河流、湖泊以及田地等。
基于优化地貌特征和纹理信息的黄土高原沟缘线提取方法
基于优化地貌特征和纹理信息的黄土高原沟缘线提取方法LUO Zhidong;LIU Erjia;QI Shi;YAO Zhanjun【摘要】沟缘线是黄土高原地区的典型特征线,其提取结果是构建地表空间分布式水土流失过程模型的基础.本文提出了基于优化地貌特征和纹理信息的面向对象沟缘线自动提取方法,即通过构建适宜的地形因子和纹理信息,利用地物的几何结构、地形纹理和相邻像元差异性的关系,采用面向对象多尺度分割技术,基于决策树分类的方法提取沟缘线.选取沟缘线发育典型的黄土高原地区,以1:10 000的DEM为数据源,确定了最优的分割参数和分类特征.相对于人工识别的沟缘线,该方法提取的结果在4个像元缓冲范围内为90%,绝对误差均值为2~3个像元,最大误差为4~6个像元.通过与基于坡面形态特征及汇水过程特点的提取算法进行对比,可知该方法克服了传统从形态特征出发的自动提取结果出现大量噪声的缺陷,提高了沟缘线提取精度,位置准确性增强,为黄土高原大范围宏观地貌分异研究提供了有效的方法和途径.【期刊名称】《农业机械学报》【年(卷),期】2019(050)001【总页数】7页(P285-291)【关键词】黄土高原沟壑区;沟缘线;数字等高模型;面向对象;灰度共生矩阵【作者】LUO Zhidong;LIU Erjia;QI Shi;YAO Zhanjun【作者单位】;;;【正文语种】中文【中图分类】P2830 引言黄土高原在长期流水侵蚀下,形成支离破碎、沟壑纵横的黄土地貌景观。
沟缘线作为沟间地(正地形)和沟谷地(负地形)的分界线[1],是切沟、冲沟最为发育的部位,影响物质与能量传输过程,造成正负地貌单元在土壤类型、地表组成、地貌特征、侵蚀营力等方面产生巨大差异[2-3]。
研究其空间分布及变化特征有助于全面分析黄土高原地貌演变情况和衡量地表侵蚀状况[4-5],为制定区域水土保持规划、水土保持措施布局及土地覆被调查奠定数据基础。
面向对象的红树林信息提取
1 引 言
红树林信息。本文利用 的面 向对象的方法 , 实现了
红树 林 的 自动提 取 , 海 岸带 红 树 林 进 一 步 研 究 提 为
( 中国测绘科学研究院 , 北京 10 3 ) 00 9
摘要 : 红树林 是世 界上最重要的生态系统之一 , 对于海岸带 的保护起着非常重要 的作 用。然而 , 由于红树林所 处 的地理环境 , 对其进行实地调查是很 困难的。遥感 的出现 , 为我 们研究 红树林 提供 了一个很 好 的技 术手段 。但
由于红树林分布于潮间带 , 野外调查工作十分 困难 , 工作量大 , 费用高 ; 其次红树林地势平坦 , 用传 统的资源调查方法难 以准确定位和勾绘 。因此 , 国 内外对红树林的研究大多采用遥感的方法 。但传统 的信息提取方法大部分是面 向像元 的统计方法 , 这 些方法对于中低分辨率 的卫星影像 比较适用 , 但对 于高分辨率卫 星数 据并不适用 。由于红树林 的 J 光谱信息与其他植被 的光谱 信息非常相似 , 利用传
红树林生态系统是地球上生产力最高的海洋四 大生态系统之一 , 国际上生物 多样性保护和湿地 是 生态保护的重要对象 , J已成为近年来 国际上普遍
关 注 的环境 资源 热点 问题 之一 。红 树林 有着 特 殊 的
供 了一个很好的方法 。
2 研究 区域 概 况及 实验数 据
本文选取有代表性 的东寨港部分 区域作为研究
图 1 b 研究 区域部分全色影像 ()
对红树林 的提取很难在一种尺度上完成 , 了更高 为 精度的提取 红树林 信息 , 利用最大面 积法 , 确定 最 优 的分割 尺度 为 10和 10 其 中 ,5 0 5, 10主 要 针 对
基于C5.0决策树算法的落叶松人工林提取研究
doi:10.3969/j.issn.1672-6375.2020.04.003收稿日期:2019-12-25基金项目:“十三五”国家重点研发计划“落叶松高效培育技术研究”(项目编号:2017YFD0600400)。
作者简介:马婷(1995-),女,汉族,陕西西安人,硕士在读,主要研究方向:林业遥感。
落叶松是我国北方地区造林和森林更新的主要树种之一,其木材结构细密,材质优良,抗腐蚀,抗压能力强,具有显著的社会和经济效益[1-3]。
随着国家林业重点工程项目的稳步推进,落叶松人工林的造林面积逐年增加,针对落叶松人工林资源的调查也成为林业调查领域的一项新需求[4]。
如何有效利用遥感影像获取落叶松人工林空间位置分布,及时准确掌握落叶松人工林资源信息,已成为落叶松人工林栽培关注的热点问题。
目前,国内外学者针对落叶松人工林的研究多集中于抚育间伐、土壤特性、经营情况、病虫害和苗圃培育等方面,应用遥感影像探索落叶松人工林空间位置分布的研究鲜有报道[5-9]。
因此,利用遥感手段快速获取落叶松人工林的空间位置分布,无论是理论研究还是实际应用都有重要意义。
由于决策树算法具有灵活、直观、运算效率高等特点[10-12],在林业遥感研究领域中,国内外学者利用决策树算法在森林类型精细分类、不同林地类型提取识别等问题上已进行了大量研究。
2012年Suchenwirth 等人通过提取遥感影像的光谱信息、空间信息和地形因子等,建立基于专家知识的决策树模型并进行决策树分类,从中提取了芦羊、硬木、白杨林和草地等植被[13]。
2014年白秀莲等人基于Landsat TM 数据和C5.0决策树算法,设计了一种基于多特征变量组合的数据集进行土地覆盖分类,结果表明当特征变量合适时,分类结果能够满足用户需求[14]。
2015年梁守真等人尝试将多时相的Landsat TM 数据与MODIS-NDVI 数据组合,进行基于面向对象的决策树橡胶林信息提取实验,结果表明,综合考虑橡胶的季相特征,能有效获取橡胶林分布信息[15]。
Sentinel-2数据的小型湖泊水生植被类群自动提取方法——以翠屏湖为例
Sentinel-2数据的小型湖泊水生植被类群自动提取方法——以翠屏湖为例汪政辉; 辛存林; 孙喆; 罗菊花; 马荣华【期刊名称】《《遥感信息》》【年(卷),期】2019(034)005【总页数】10页(P132-141)【关键词】Sentinel-2; 水生植被; 湖泊; 决策树分类; Otsu【作者】汪政辉; 辛存林; 孙喆; 罗菊花; 马荣华【作者单位】西北师范大学地理与环境科学学院兰州730070; 中国科学院南京地理与湖泊研究所南京210008; 淮阴师范学院江苏区域现代农业与环境保护协同创新中心江苏淮安223001【正文语种】中文【中图分类】X870 引言水生植被具有吸附净化、阻滞水流、促进沉降、澄清水质、抑制藻类等生态功能,在维持湖泊生态系统平衡、物质循环和水质方面发挥着重要的作用[1-2]。
水生植物繁茂的湖泊,水体具有较高清澈度,较低的营养盐浓度和藻类生物量[3]。
水生植被,尤其是沉水植被的盖度和丰度直接决定着湖泊的稳态[4]。
因此,大范围、准确、快速地监测湖泊水生植物类群及其时空分布对湖泊管理和生态修复具有十分重要的意义。
传统的水生植物监测方法主要以人工调查法为主,精度虽高,但费时费力,监测覆盖范围小,且时空连续性差。
卫星遥感技术具有宏观、低成本、快速、动态的优势,同时具有实时性和历史追溯性等特点,已成为浅水湖泊水生植物监测的有效手段[5-7]。
相比陆生植被,水生植被由于其生长在复杂度较高的水体中,其光谱特性具有复杂性[8]。
相关研究[9-12]表明,挺水和浮叶植物大部分叶片位于水面之上,光谱信号无需经过水体辐射传输过程,受水环境影响较小,具有典型的植被光谱特征;而沉水植被由于完全沉入水中,反射光谱易受水环境参数影响,其光谱特征与挺水和浮叶植被有显著差异。
不同水生植被类群的光谱特征及对水环境的光谱响应各有差异,也是水生植被遥感监测的理论基础。
近年来,国内外学者基于多种遥感卫星数据,也在不同的大型浅水湖泊先后开展了一系列水生植物遥感分类和制图研究[13-15],并发展了一些用于区分水生植被与其他植被及藻华的光谱指数,如Villa等[16]发现使用蓝光和近红外波段构建的归一化水生植被指数(normalized difference aquatic vegetation index,NDAVI)对水生植被具有很高的敏感度,且可以降低背景噪声对水生植被提取的影响,并在太湖和加尔达湖等湖泊取得了较好的应用效果;Liu等[17]考虑了藻类与水生植被在物候特征上的差异,基于浮游藻类指数(floating algal index,FAI)建立了植被出现频率指数(vegetation presence frequency,VPF)用于识别太湖水生植被和藻华;Oyama等[18]基于蓝藻水华与水生植被的光谱差异,结合归一化水体指数(normalized difference water index,NDWI)和浮游藻类指数构建决策树识别日本的3个湖(lakes kasumiguara,inba-numa and tega-muma)的蓝藻水华和水生植被。
envi基于规则的面向对象信息提取原理
envi基于规则的面向对象信息提取原理面向对象信息提取是一个基于规则的技术,旨在从文本中抽取出有价值的信息。
这个技术的主要思想是将文本信息转换成对象的形式,然后通过一系列规则来提取出需要的信息。
这种方法可以帮助我们从大量文本数据中快速准确地获取所需的信息,为数据挖掘和分析提供了重要的支持。
面向对象信息提取的原理是将文本信息转换成对象的形式。
在面向对象的思想中,一切皆为对象,每个对象都有其特定的属性和行为。
在信息提取中,我们将文本中的实体、关系和事件等抽象成对象,并为其定义相应的属性和行为。
例如,一个新闻报道可以被抽象成一个新闻事件对象,其中包含新闻标题、内容、发布时间等属性,以及浏览、评论、分享等行为。
在面向对象信息提取中,我们使用一系列规则来提取文本中的信息。
这些规则可以基于语法、语义、规则模式等多种方式进行定义。
例如,我们可以通过正则表达式来匹配特定模式的文本,通过语义关系来提取实体之间的关联信息,通过规则模式来识别特定的事件等。
这些规则可以在不同层次上进行组织,形成一个层次化的信息提取系统,从而实现对不同信息层次的提取和组织。
面向对象信息提取的优势在于其对文本信息的结构化处理。
通过将文本信息抽象成对象的形式,我们可以更加方便地对其进行分析和处理。
同时,面向对象的思想也使得信息提取系统具有良好的可扩展性和可维护性,可以根据需求不断扩展和修改规则,适应不同领域和任务的需求。
面向对象信息提取的实现需要考虑多个方面的技术和方法。
首先,需要建立一个合适的对象模型,将文本信息进行合理的抽象和组织。
其次,需要设计一套规则系统,用于提取和处理文本信息。
规则系统的设计需要考虑到信息的多样性和复杂性,需要综合运用多种技术手段,以实现对文本信息的全面提取。
此外,还需要考虑到处理大规模文本的效率和性能问题,需要采用高效的算法和技术,以满足实际应用的需求。
面向对象信息提取的应用领域非常广泛,可以用于各种文本的信息抽取和分析。
基于决策树的算法分析与应用示例
基于决策树的算法分析与应用示例在机器学习领域,决策树是一个经典的算法,它可以在面对大量数据时进行快速且可靠的分类或回归。
本文将介绍决策树算法的原理与应用,并通过一个具体的案例来展示其实际应用价值。
一、什么是决策树算法决策树是一种树形结构的分类模型,它的构建过程就像是一次“递归”的决策过程。
假设我们有一组数据,每个数据点都有若干个特征(即不同的属性),我们要根据这些特征来决定其类别(如是/否、高/中/低等)。
而决策树的生成就是一个逐步“分治”的过程,将原始数据分成不同子集,并根据不同特征来分别处理,最终得到一棵带有判定条件的树形结构。
决策树的构建过程可以分为三个步骤:特征选择、决策树生成和决策树剪枝。
其中,特征选择是指从所有特征中选出一个最佳特征来作为当前的分类依据;决策树生成是指利用选定的特征对数据进行划分,生成一棵完整的决策树;决策树剪枝是指对已经生成的决策树进行优化,去除一些不必要的节点和分枝,以避免过拟合等问题。
除了常见的二叉树决策树外,还有多叉树、CART树、C4.5树、ID3树等多种类型的决策树算法。
它们在特征选择、剪枝等方面有所不同,但本质上都是基于“树形结构”来完成分类或回归任务的。
二、决策树算法的应用示例决策树算法有许多实际应用,如金融风险评估、医学诊断、信用卡反欺诈等。
这里我们以一个简单的基于决策树的鸢尾花分类为例来说明决策树的应用过程。
鸢尾花数据集是机器学习中常用的一个数据集,它包含了150条记录,每条记录都有四个特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度。
根据这些特征,我们需要判断鸢尾花属于哪种类型:山鸢尾(Iris-setosa)、变色鸢尾(Iris-versicolor)或维吉尼亚鸢尾(Iris-virginica)。
以下是如何用Python和sklearn库来实现这一任务:```python# 引入相关库和数据集from sklearn.datasets import load_irisfrom sklearn.tree import DecisionTreeClassifierfrom sklearn.model_selection import train_test_splitiris = load_iris()X_train, X_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.3, random_state=42)# 构建决策树模型并进行训练clf = DecisionTreeClassifier(criterion='entropy', max_depth=10, random_state=42)clf.fit(X_train, y_train)# 预测并评估模型准确率y_pred = clf.predict(X_test)score = clf.score(X_test, y_test)print(score)```上述代码首先引入了相关的Python库和鸢尾花数据集,并将数据集分为训练集和测试集。
基于决策树的面向对象变化信息自动提取研究
中图 分 类 号 : P 9 T 7
文献 标 识 码 : A
文 章 编 号 :0 0 17 2 1) 1 —0 9 —0 1 0 —3 7 (0 1 1 4 0 1 4
t r e o e t b ih t e d c so r emo e o u o tcc a sf a i n Or a iea d a a y et e s n h sz d a t i u e f ma e u e s tt s a l h e ii n t e d lf ra t ma i l s ii t . g n z n n l z h y t e ie t r t so s c o b i g
■ 感应 用
遥感信息
基于决 策树 的面 向对象变化信息 自动提取研究
张雨 霁i 李 海涛②, 海燕② f ) ~, Байду номын сангаас
( 辽 宁工程技术大学 , 新 130 ; 中国测绘科学研究 院 , 京 103) ① 阜 200② 北 0 0 9
摘要 : 了从不 同时相 的遥感影像 数据 中自动提 取变化 信息且保 证 其效率 , 文结合 面 向对 象分析 技术 , 为 本 提 出 了一种 基于决策树变化信息 自动提取 的新方法。该方法利用影像 的特征指数及 形状特 征、 光谱特征 、 理特征 纹 等作 为特 征集, 将其作为知识库应用到决策树 控制模 型 中, 进而利用该模型 实现 自动分类 。对所 得到 的分 类后影
Z HANG -i , ito GU iy n Yuj0~ LIHa-a 0, Ha- a  ̄
遥感影像分类方法比较研究
遥感影像分类方法比较研究一、本文概述随着遥感技术的迅速发展,遥感影像已成为地理信息系统、环境科学、城市规划等领域获取地表信息的重要手段。
遥感影像分类作为遥感技术应用的关键环节,其准确性和效率直接影响到后续的信息提取和应用。
研究遥感影像分类方法,对于提高遥感数据处理能力,促进遥感技术的广泛应用具有重要意义。
本文旨在比较研究不同遥感影像分类方法的特点、优势与局限性,以期在理论层面为遥感影像分类提供方法论的参考。
文章首先将对遥感影像分类的基本概念、分类体系进行阐述,为后续的比较研究奠定基础。
接着,文章将详细介绍几种主流的遥感影像分类方法,包括基于像元的分类方法、面向对象的分类方法、深度学习分类方法等,并对各方法的原理、实现步骤进行深入剖析。
在此基础上,文章将通过实验数据,对各分类方法的性能进行评估和比较,分析各方法的优劣和适用场景。
文章将总结遥感影像分类方法的发展趋势,展望未来的研究方向和应用前景。
通过本文的研究,旨在提高遥感影像分类的准确性和效率,推动遥感技术在各个领域的应用发展。
也为遥感领域的学者和实践者提供有益的参考和借鉴。
二、遥感影像分类方法概述遥感影像分类是遥感技术应用的重要领域之一,其目的在于通过对遥感影像的解译和分析,识别并区分地表上的不同特征和目标。
随着遥感技术的发展和进步,遥感影像分类方法也在不断更新和完善。
目前,遥感影像分类方法主要分为监督分类、非监督分类和深度学习分类等几种。
监督分类是基于已知训练样本进行分类的方法。
它通过选择具有代表性的训练样本,提取其特征并构建分类器,然后利用该分类器对整个遥感影像进行分类。
常见的监督分类方法包括最大似然分类、支持向量机分类、决策树分类等。
这些方法在遥感影像分类中具有较高的精度和稳定性,但需要大量的训练样本和先验知识。
非监督分类是基于影像内部像素之间的相似性进行分类的方法。
它不需要先验知识和训练样本,而是根据像素之间的统计特征或空间关系进行聚类分析,将具有相似性质的像素归为一类。
决策树规则提取
决策树规则提取摘要:一、决策树规则提取的概述1.决策树的概念2.决策树规则提取的重要性3.决策树规则提取的方法二、决策树规则提取的技术原理1.ID3算法2.C4.5算法3.CART算法三、决策树规则提取的应用领域1.数据挖掘2.机器学习3.人工智能四、决策树规则提取的优缺点分析1.优点a.易于理解和解释b.可以处理连续型和离散型数据c.对于数据噪声和不完整信息具有较好的容错性2.缺点a.对于属性选择方法依赖较强b.对于大规模数据处理效率较低c.可能导致过拟合现象五、决策树规则提取的发展趋势与展望1.基于深度学习的决策树规则提取方法2.提高决策树规则提取的效率和准确性3.拓展决策树规则提取在其他领域的应用正文:一、决策树规则提取的概述决策树是一种基于树结构的分类与回归模型。
它通过一系列的问题对数据进行递归划分,最终得到一个叶节点,每个叶节点代表一个分类或回归结果。
决策树规则提取是从决策树中提取出具有实际意义的规则,以便于理解和解释。
它对于数据挖掘、机器学习和人工智能等领域具有重要意义。
二、决策树规则提取的技术原理1.ID3算法:ID3算法是一种基于信息增益的决策树生成算法。
它选择信息增益最大的属性作为当前结点的属性,递归地生成子结点。
但ID3算法对于连续属性处理能力较弱,且容易受到噪声干扰。
2.C4.5算法:C4.5算法是ID3算法的改进版本,采用信息增益比作为属性选择的标准,解决了ID3算法偏向选择取值较多的属性的问题。
此外,C4.5算法还支持生成包含属性值范围的决策树,从而增强了处理连续属性的能力。
3.CART算法:CART算法是一种生成二叉决策树的算法,它将数据集划分为互不重叠的子集,每个子集对应一个叶节点。
CART算法不仅可以用于分类问题,还可以用于回归问题。
三、决策树规则提取的应用领域决策树规则提取在数据挖掘、机器学习和人工智能等领域具有广泛应用。
例如,在金融风险评估、网络入侵检测、医疗诊断和推荐系统等方面,决策树规则提取可以辅助人们更好地理解和分析数据,从而为决策提供有力支持。
基于决策树的数据挖掘算法研究及应用
基于决策树的数据挖掘算法研究及应用随着数据采集和存储技术的不断发展,越来越多的数据被积累和储存。
如何从大量的数据中提取有用的信息,是一个重要的问题。
数据挖掘技术就是解决这一问题的有力工具之一。
在数据挖掘领域,决策树是一种重要的算法。
一、决策树算法及其原理决策树是一种树形结构,可以将数据集按照特征进行划分,最终得到一棵树。
在分类问题中,决策树的叶节点代表不同的分类结果,而内部节点则代表特征。
根据不同的原则,可以得到不同的决策树算法。
以ID3算法为例,其核心思想是在构造决策树时,在每个节点上选择最优的特征进行划分。
具体原理如下:1.计算每个特征的信息熵信息熵是衡量随机变量不确定度的指标,计算公式为:H(X) = -Σ P(xi) * log2 P(xi)其中xi表示随机变量X的不同取值,P(xi)表示xi的概率。
计算特征A的信息熵时,可以按照以下步骤进行:1)对于特征A的每个取值ai,计算数据集D中该取值出现的概率P(ai);2)根据当前特征A的取值ai将数据集D分为若干个子集Di,每个子集Di包含特征A取值为ai的数据样本;3)计算每个子集Di的信息熵,记为H(Di);4)根据子集Di的大小,计算特征A的信息熵:H(A) = -Σ P(ai) * H(Di)2.计算每个特征的信息增益信息增益是指使用特征A对数据集D进行划分所获得的纯度提升。
信息增益越大,说明特征A对分类结果的影响越大。
计算特征A的信息增益的公式为:Gain(A) = H(D) - H(A)其中H(D)为数据集D的信息熵。
3.构造决策树根据信息增益排序选择最优特征A,以该特征为节点划分数据集。
对于特征A的每个取值ai,生成一个子节点,并以该子集Di 为数据集,递归构建决策树。
二、决策树算法的应用决策树算法在数据挖掘领域广泛应用。
以下是几种常见的应用场景。
1.客户分类在销售和营销领域,决策树可以用于客户分类。
以银行为例,客户可以根据年龄、收入、教育程度等特征进行分类,然后针对不同客户群体推出相应的金融产品。
envi基于规则的面向对象信息提取原理
envi基于规则的面向对象信息提取原理Envi是一种基于规则的面向对象信息提取系统,它能够从文本中自动识别和提取出特定的信息。
本文将介绍Envi的原理及其在信息提取领域的应用。
Envi的信息提取原理基于规则。
它通过定义一系列规则来指导信息的提取过程。
这些规则可以包括正则表达式、关键词匹配、语法规则等。
Envi根据这些规则对输入的文本进行解析和分析,从而识别出有用的信息。
Envi的信息提取过程包括三个主要步骤:预处理、规则匹配和信息抽取。
在预处理阶段,Envi会对输入的文本进行一系列的处理,包括去除无用的标点符号、停用词、数字等。
这样可以减少噪音,提高信息提取的准确性。
接下来,在规则匹配阶段,Envi会根据预先定义的规则对处理后的文本进行匹配。
规则可以根据具体的需求进行定制,以识别出特定的信息。
例如,可以定义一个规则来匹配以"姓名:"开头的文本,以提取出人名信息。
在信息抽取阶段,Envi会根据匹配到的规则,从文本中抽取出相应的信息。
这些信息可以是实体,例如人名、地点名等,也可以是关系,例如人与公司之间的工作关系。
Envi的优势在于它的灵活性和扩展性。
由于规则是可以自定义的,用户可以根据自己的需求来定义规则,从而适应不同的信息提取任务。
同时,Envi还支持规则的组合和嵌套,可以更精确地进行信息匹配和抽取。
Envi在信息提取领域有着广泛的应用。
它可以应用于文本分类、实体识别、关系抽取等任务。
例如,在新闻领域,可以使用Envi来提取新闻标题中的关键词和实体,从而进行新闻分类和主题分析。
在商业领域,可以使用Envi来抽取公司之间的合作关系和竞争关系,从而进行市场分析和竞争情报收集。
Envi的局限性在于它依赖于预定义的规则,因此对于一些复杂的信息提取任务,可能需要大量的规则来覆盖不同的情况。
此外,由于规则是人工定义的,可能存在一定的主观性和局限性。
因此,在实际应用中需要不断优化和更新规则,以提高信息提取的准确性和效率。
中分辨率遥感影像土地利用覆被信息自动提取研究——以太原市区Landsat8影像为例
中分辨率遥感影像土地利用覆被信息自动提取研究——以太原市区Landsat8影像为例侯志华;马义娟【摘要】“土地利用/土地覆被”(简称LUCC)是全球环境变化研究的热点问题之一,遥感技术是LUCC研究的重要手段,遥感影像LUCC信息的高精度自动提取成为众多专家学者关注的重要研究领域.Landsat系列卫星影像是最早且最为广泛使用的中分辨率陆地遥感影像.文章以2013年2月发射的Landsat8卫星的OLI影像为研究对象,利用ENVI软件,对太原市区的土地利用/土地覆被信息分别用最大似然法和决策树分类法实现自动提取,并进行精度比较.结果表明:最大似然法提取的总体精度为69.33%,Kappa系数为0.605 5,主要是耕地与林地、草地、建设用地以及建设用地与裸地的混分、错分现象较为严重,造成分类精度较低;而决策树分类法的自动提取通过确定适当的判别规则,使地类间的混分、错分现象明显改善,分类总体精度提高到91.33%,Kappa系数达到0.892 3,各土地利用类型的分类精度均有一定提高.【期刊名称】《太原师范学院学报(自然科学版)》【年(卷),期】2014(013)004【总页数】6页(P93-98)【关键词】自动提取;决策树分类;最大似然分类;土地利用/土地覆被;Landsat8【作者】侯志华;马义娟【作者单位】太原师范学院地理科学学院,山西太原030031;太原师范学院地理科学学院,山西太原030031【正文语种】中文【中图分类】TP790 引言土地利用/土地覆被(LUCC)研究,一直受到国际组织和世界各国的普遍关注,广泛成为地学、生态、环境、土地等领域的热点课题[1,2],众多专家学者从LUCC的演化规律、驱动机制、空间格局、生态响应、环境变化等角度探索研究[3-6].随着遥感技术的发展与成熟,利用遥感影像成为LUCC研究的一种流行趋势,因此,遥感影像LUCC信息的快速、高精度提取成为LUCC研究中必不可少的重要内容和关键环节[7,8].遥感影像信息提取有人工目视解译和计算机自动分类两大方式,人工目视解译精度高,但费时、费力,速度慢,周期长,计算机自动分类速度快,但由于遥感影像存在的“同物异谱”和“同谱异物”现象,总的来说,分类精度不是很高,往往满足不了使用要求,成为阻碍遥感技术大规模实用化的瓶颈之一.近年来,有不少学者提出了许多新方法:基于最优波段组合提取[9、10]、基于多维特征信息提取[11,12]、以专家知识和经验为基础的光谱信息和其他辅助信息复合法[13,14]、基于知识的分层分类方法[13]、面向对象的分类方法[16]等,这些方法在数据选择上、算法上或是处理过程做了改进,分类精度均有一定提高,然而,任何一种自动提取方法都有针对性和适用范围.随着遥感平台的多样化和图像分辨率的提高,遥感数据类型琳琅满目,如何对所需的遥感数据选择合适的提取方法成为业内人士一直热衷的研究课题.Landsat系列卫星是最早的陆地资源卫星,是20世纪70年代、80年代甚至90年代最主要的航天遥感数据资源,21世纪以来遥感数据多源化,然而Landsat卫星影像因其价格低廉、存量数据时间跨度长、易于获取等优势仍然被广泛使用,尤其是中等尺度的地域研究[17、18].2013年2月Landsat8号卫星发射成功,为Landsat系列数据注入了新鲜血液,因此,Landsat卫星影像仍将在以后较长的一段时间内成为主流遥感数据之一.本文以太原市区Landsat8号卫星OLI影像为例,采用传统的最大似然法和决策树分层分类法对土地利用/覆盖信息自动提取研究,为挖掘遥感信息的理论研究以及Landsat卫星影像在土地利用/覆被方面的应用,提供一定的参考.1 研究方法1.1 最大似然法最大似然分类法,是遥感图像监督分类的经典算法,在土地利用/覆被信息提取中应用广泛.其基本思想是:因为同类地物光谱特征具有相同或相似性,异类地物光谱特征具有差异性,所以每类地物在多光谱空间会形成一个特定的点群,这些点群的位置、形状、密集或分散程度各有其分布特征;最大似然法就是根据各类的一些已知数据,构造出各类点群的分布模型,计算各类别的概率密度函数或概率分布函数;在此基础上,计算每一个像素属于各个类别的概率,取最大概率对应的类别为其归属类型.最大似然法的前提条件是假设遥感图像的每个波段地物光谱特征服从正态分布,因此,对符合正态分布的样本聚类组而言,是监督分类中较为准确的分类器,但对于“混合像元”、“同谱异类”等光谱特征相似的类别,达不到理想的分类效果.1.2 决策树分类法决策树分类法,是一种较为高效的分类器,其流程类似于一个树形结构,以一个根节点为基础,寻找信息量大的属性字段形成一条规则,派生出两类结果,以此建立决策树的一级内部节点,再以每个节点为基础,根据属性的不同取值形成规则,建立下一级节点,该过程向下继续拓展,直至图像分出类别(叶节点),这种以自顶向下递归的分层分类方式构造判定决策树的方法称之为“贪心算法”,它将复杂的决策形成过程分散成易于理解和表达的规则或判断.决策树分类最大的优点是,各个节点处划分的类别较少,划分的标准(属性)基本明确,可以更加有针对性地选择少数特征属性建立判别函数进行类别划分,且特征属性不仅可以选择单波段光谱特征值,还可以选择波段组合的光谱特征值,每一分层每个节点均可以根据不同的分类目的确定和调整特征属性和判别函数.其缺点是分类决策规则的建立对样本的依赖度大,且主观性较强.2 实验分析2.1 数据源及预处理太原市区2013年6月27日Landsat8号卫星的OLI影像为本次研究的主要数据,此外还有太原市2010年的土地利用专题图、太原市行政区划图.将遥感影像、土地利用专题图和行政区划图统一到相同的投影坐标(UTM/WGS84),然后以太原市行政区划图为基础,将研究区域裁剪出.参考土地利用专题图,针对实验区影像特点,确定自动提取的土地利用/土地覆被类别为:耕地、林地、草地(以荒草地为主)、建设用地、水域及裸地.2.2 数据分析2.2.1 OLI影像数据分析Landsat8的OLI陆地成像仪有9个波段,包括了TM(ETM+)传感器的所有波段,并针对大气影响,对波段工作范围进行了重新调整,详见表1.表1 OLI陆地成像仪和ETM+增强型专题制图仪波段对照表OLI陆地成像仪ETM+增强型专题制图仪序号波段/μm 空间分辨率/m 序号波段/μm 空间分辨率/m 1 0.433-0.453 30 2 0.450-0.515 30 1 0.450-0.51530 3 0.525-0.600 30 2 0.525-0.605 30 4 0.630-0.680 30 30.630-0.690 30 5 0.845-0.885 30 4 0.775-0.900 30 6 1.560-1.660 30 5 1.550-1.750 30 72.100-2.300 30 7 2.090-2.350 30 8 0.500-0.680 15 8 0.520-0.900 15 9 1.360-1.390 30丰富的波段有多种RGB组合方案,参考国外公布的OLI波段合成的简单说明和众多专家学者在长期工作中总结的Landsat TM(ETM+)不同波段组合对地物增强的效果,本次研究首先将Band3,Band4,Band5合成标准假彩色图像,然后将此图像与全色波段Band8进行Brovey变换融合,该融合图像地物信息丰富、色泽鲜明、层次好,对植被、水体等土地覆被有较好的表现,见图1.本次提取的各土地利用类型影像特征详见表2.图1 太原市区Landsat8Band345与Band8融合影像表2 各土地利用类型影像特征注:由于种植作物不同,耕地表现出三种明显不同的色调,为了实现更好的自动识别,将其细分为三个光谱类提取,然后再进行合并.土地利用类型颜色形状分布耕地1红色规则的块状南部地势较低的平川一带耕地2 橘粉色规则的条块状居民点周围耕地3 青色规则的块状部分地势较低的平川一带林地鲜红色(色纯)不规则的片状东西两侧海拔较高的山地区草地暗红色(色杂)不规则条带状城区两侧的丘陵、沟谷、阴坡等建设用地青色规则的块状地势较低的平川一带水体青蓝色条带状或片状汾河、晋阳湖地区裸地亮白色不规则部分地区分布2.2.2 地物光谱特征分析遥感技术探测地物的根本是同类地物具有相同或相似的光谱特征,异类地物的光谱特征具有一定的差异性,因此,首先对实验区内预提取的典型地物类型光谱数据进行采样,并加以统计,分析其光谱特征.如图2所示,不同地物光谱特征不同:图2 典型地物光谱特征图1)耕地1、耕地2、林地、草地的光谱特征具有一定的相似性,都是近红外波段光谱值高于可见光波段,林地的差异最大,其次是耕地1;而水体、建设用地和裸地均是可见光波段光谱值高于近红外波段.2)水体的反射率随波长变长而逐渐降低,在近红外波段上水体几乎呈现黑色,可以通过B1<35与其他非水类分开;3)裸地在可见光波段明显高于其他类别用地的光谱值,相差较大较易区分;4)耕地2和草地的波谱走势较为接近,但耕地2各波段的波谱值较草地高;5)耕地3的波谱走势较为平滑,各波段间的光谱差异较小.2.3 分类方法的实现2.3.1 最大似然法自动提取首先根据先验知识,确定各土地利用类型的解译标志(表2),选择训练样本,建立分类模板,并对分类模板进行评价;分类模板达标后(各土地利用类型分类精度达90%),采用最大似然法对影像进行自动分类;对分类图进行分类后处理,将一些小图斑剔除,并通过重编码合并亚类,得到较为理想的分类结果,如图3. 2.3.2 决策树法自动提取用决策树分类法的关键在于判别规则的建立.由于“同物异谱,异物同谱”现象的存在,单纯地利用图像亮度值提取地物,尤其两类反射特性相似的地物,势必会造成分类的混淆和错误,很难达到较好的分类效果.经地物光谱特征的统计分析,可利用植被归一化指数(NDVI),结合各波段光谱值,建立各类地物可信度最大的提取规则.反复实验后,建立决策树提取规则,见图4.经分类后处理,最终的决策树分类图如图5.图3 最大似然分类法分类图图4 决策树自动提取的判别规则图5 决策树法分类图2.3.3 精度评价与结果分析在实验区随机抽取300个点,通过误差矩阵分别对最大似然法和决策树法的分类结果进行精度检验,详见表3和表4.由表3可见,最大似然法的分类精度总体较低,为69.33%,除林地、建设用地和水域的用户精度较高外,其他地类的分类精度均不理想,Kappa系数也仅0.605 5.尤其是耕地,其光谱特征较为复杂,长有植被(如玉米地)的耕地在光谱上和林地、草地较为相似,裸土又与建设用地光谱特征接近,因此,耕地不仅与草地的混分现象严重,且有部分林地、建设用地被错划分为耕地,导致耕地的用户精度仅58.88%;此外,林地易被错划为耕地和草地,其制图精度仅50.91%;建设用地易被错划为耕地和裸地,其制图精度仅61.33%;大量的建设用地错分为裸地,导致裸地的用户精度仅22.22%.由表4可见,决策树法的分类精度较最大似然法显著提高,总体精度达到91.33%,除裸地的用户精度较小,为66.67%外,其他地类的用户精度和制图精度均在85%以上,Kappa系数也提高至0.892 3,地类间的混分、错分现象得到一定控制.表3 最大似然法精度评价误差矩阵地类名称实际地类用户精度耕地林地草地建设用地水域裸地全部63 13 11 17 3 0 107 58.88%林地 0 280 0 0 1 29 96.55%草地 16 14 50 2 0 0 82 60.98%建设用地 1 0 0 53 0 0 54 98.15%水域 0 0 0 0 10 0 10 100.00%裸地 0 0 0 14 0 4 18 22.22%全部 80 55 61 86 13 5 300制图精度耕地分类地类=0.6055 78.75% 50.91% 81.97% 61.63% 76.92% 80.00%总体精度=69.33% Kappa系数表4 决策树法精度评价误差矩阵地类名称实际地类用户精度耕地林地草地建设用地水域裸地全部58 2 3 2 0 0 65 89.23%林地 5 46 2 0 00 53 86.79%草地 3 3 51 0 0 0 57 89.47%建设用地 1 0 0 711 0 73 97.26%水域 0 0 0 0 40 0 40 100.00%裸地 0 1 0 3 0 8 12 66.67%全部 67 52 56 76 41 8 300制图精度耕地分类地类86.57% 88.46% 91.07% 93.42% 97.56%100.00%总体精度=91.33 Kappa系数=0.892 33 结论1)决策树分类法将复杂的信息分类过程分解为若干步骤,在每个步骤可以利用不同的数据源、不同的特征集、不同的算法,且每一步骤仅解决一个问题,更有针对性,计算机处理速度快、时间短,且分类精度高,较传统的最大似然法更有利于对遥感图像信息的提取.2)决策树分类法的关键是判别规则的建立,其创建过程存在较大的人为干预因素,需要一定的经验及反复调试,否则难以达到良好的分类效果.3)本次决策树分类规则的建立仍然主要依赖的是地物的光谱信息,下一步研究将考虑与基于知识的专家系统相结合,充分利用纹理、形状等地物空间特征、地形特征、分布特征等信息,进一步改善分类效果,提高计算机自动分类的实用性.参考文献:[1]李秀彬.全球环境变化研究的核心领域——土地利用/土地覆盖变化研究的国际研究动向[J].地理学报,1996,51(6):553-558[2]冷疏影,宋长青,赵楚年,等.关于地理学科“十五”重点项目的思考[J].地理学报,2000,55(6):751-754[3]刘纪元,刘明亮,庄大方,等.中国近期土地利用变化的空间格局分析[J].中国科学(D辑),2002,32(12):1 031-1 040[4]杜云艳,王丽敬,季民,等.土地利用变化预测的案例推理方法[J].地理学报,2009,64(12)1 421-1 429[5]戴声佩,张勃.基于CLUE-S模型的黑河中游土地利用情景模拟研究——以张掖市甘州区为例[J].自然资源学报,2013,28(2):336-348[6]白元,徐海量,凌红波,等.塔里木河干流区土地利用与生态系统服务价值的变化[J].中国沙漠,2013,33(6):1 912-1 920[7]刘慧平,朱启疆.应用高分辨率遥感数据进行土地利用与覆盖变化监测的方法及研究进展[J].资源科学,1999,21(3):23-27[8]廖克.高分辨率卫星遥感影像在土地利用变化动态监测中的应用[J].测绘科学,2006,31(6):11-15[9]许菡,燕琴,徐泮林,等.多源遥感影像融合最佳波段选择及质量评价研究[J].测绘科学,2007,32(3):72-76[10]张韬,吕洪娟,孙美霞,等.遥感多光谱数据在内蒙古西部湿地监测中最佳波段选取的应用研究[J].干旱区资源与环境,2007,21(4):102-106[11]杨桄,刘湘南,张柏,等.基于多特征空间的遥感信息自动提取方法[J].吉林大学学报(地球科学版),2005,35(2):257-260[12]陈述,刘勇.基于多特征的遥感影像土地利用/土地覆盖分类-以腾格里沙漠东南边缘地区为例[J].遥感技术与应用,2006,21(2):154-158[13]李德仁,王树良,李德毅,等.论空间数据挖掘和知识发现的理论与方法[J].武汉大学学报(信息科学版),2002,27(3):221-233[14]杨存建,周成虎.基于知识的遥感图像分类方法探讨[J].地理学与国土研究,2001,17(1):72-77[15]王志慧,李世明,刘良云,等.基于 MODIS NDVI时间序列的土地覆盖分层分类方法研究[J].遥感技术与应用,2013,28(5):910-919[16]王贺,陈劲松,余晓敏,等.HJ数据的LBV变换及其在面向对象分类中的应用[J].遥感技术与应用,2013,28(6):1 020-1 026[17]许积层,唐斌,卢涛.基于多时相LandsatTM影像的汶川地震灾区河岸带植被覆盖动态监测——以岷江河谷映秀汶川段为例[J].生态学报,33(16):4 966-4 974[18]金石柱,刘志峰.基于 TM 影像的延吉市土地利用动态变化研究[J].地理科学,2011,31(10):1 249-1 253。
基于GF_6卫星的棉花种植面积提取研究———以山东省夏津县为例
基于G F 6卫星的棉花种植面积提取研究以山东省夏津县为例收稿日期:20221110;修订日期:20221228;编辑:王敏基金项目:山东省农业农村厅2021年度夏津县棉花绿色高质高效创建项目,鲁农计财字 2021 26号作者简介:马春莹(1971 ),女,山东夏津人,高级工程师,主要从事自然资源方面的工作;E m a i l :2981310973@q q.c o m马春莹(夏津县自然资源局,山东德州 253200)摘要:国产高分卫星6号(简称G F 6)具有高分辨率㊁宽覆盖㊁高质量和高效成像等特点,可为农业资源遥感监测提供可靠的数据支撑㊂本研究以G F 6卫星影像为主要数据源,综合利用遥感技术理论和方法开展对夏津县棉花种植面积的提取研究,利用同时相的哨兵2号(简称S e n t i n e l 2)影像解译结果进行对比分析㊂研究结果表明:基于G F 6卫星的夏津县棉花种植面积提取方案高效㊁准确,提取精度明显优于S e n t i n e l 2卫星,进一步证明了新增了红边波段的G F 6卫星能够显著增强作物的识别能力,其在大规模作物种植信息提取方面具有广阔的应用潜力㊂关键词:G F 6卫星;影像解译;棉花种植;山东省夏津县中图分类号:S 127 文献标识码:A d o i :10.12128/j.i s s n .16726979.2023.08.007引文格式:马春莹.基于G F 6卫星的棉花种植面积提取研究 以山东省夏津县为例[J ].山东国土资源,2023,39(8):4449.MAC h u n y i n g .S t u d y o nE x t r a c t i o no fC o t t o nP l a n t i n g A r e a i nX i a j i nC o u n t y Ba s e do nG F 6S a t e l -l i t e S e t t i n g X i a j i nC o u n t y i nS h a n d o n g P r o v i n c e a s a nE x a m p l e [J ].S h a n d o n g L a n da n dR e s o u r c e s ,2023,39(8):4449.0 引言夏津是我国棉花种值大县,棉花种植面积和产量均稳居山东省前三位㊂近年来,随着乡村振兴战略的深入推进,夏津县高度重视棉花产业的发展,政府对棉花种植面积和空间分布的重视程度不断增强㊂如何准确㊁快速地获取大区域尺度下的棉花种植面积是掌握农作物基础信息的必要途径,同时对于落实棉花种植直补和各项惠农补贴㊁及时了解市场行情发挥着重要的导向作用[1]㊂早前,棉花种植面积主要通过人工实地调查的方式来获取,这种方法具有劳动强度大㊁速度慢㊁成本高等不足,且统计信息受人为因素影响大,在大尺度空间分布调查时很难得到精准的种植信息[2]㊂随着遥感技术的快速发展,卫星影像在现代农业管理中得到了广泛运用,早期卫星的空间分辨率较低,混合像元的存在限制了其在农作物面积提取方面的应用[3]㊂国产高分卫星6号(以下简称G F6)是国内第一颗搭载了能有效辨别作物类型的高空间分辨率遥感卫星,其在卫星传感器中首次配置了能有效反映农作物特有光谱特性的 红边 波段,该波段是反应植物生长状况的敏感性波段,能够显著提升作物精准识别的能力,为高精度㊁定量化的农业生产过程和农业资源环境要素监测提供了可靠的数据支撑㊂本文选取山东省夏津县为研究区,以G F6卫星影像为主要数据源,哨兵2号(以下简称S e n -t i n e l 2)卫星影像作为参照,采用面向对象的决策树型分类方法,并选用易康遥感影像分析软件(以下简称e C o g n i t o n )进行分类,实现了该县棉花种植面积的精准提取㊂1 数据源与方法1.1 研究区概况夏津县地处鲁西北平原㊁鲁冀两省交界处,北依㊃44㊃第39卷第8期 山东国土资源 2023年8月德州,南靠聊城,西临京杭大运河㊂夏津县属暖温带半湿润大陆性季风气候,冷热㊁干湿明显,四季变化明显,晚秋经常出现干旱,干旱对于喜温好光的棉花影响比其他作物小,这是夏津县种植棉花历史悠久的气候原因㊂近年来,夏津县强化要素集聚,科学划定棉花保护区,统筹高标准农田㊁小农水㊁土地整理等项目,重点提升棉田基建,助力绿色高质高效棉花生产㊂1.2数据源本研究选取G F6卫星影像作为遥感数据源, G F6卫星配置2m全色/8m多光谱高分辨率相机㊁16m多光谱中分辨率宽幅相机,2m全色/8m 多光谱相机观测幅宽90k m,16m多光谱相机观测幅宽800k m(表1)㊂为了检验G F6卫星棉花种植面积的提取精度,同时选取同时相的S e n t i n e l2影像数据进行提取,对比两者的解译精度㊂采用的其他数据如耕地分布图㊁向量行政区域规划图㊁农作物种植面积调查统计年鉴等资料均来自官方统计数据㊂利用E N V I5.3软件对卫星影像数据进行预处理,主要包括正射校正㊁几何配准㊁影像融合㊁图像掩膜㊁辐射校正等步骤[45]㊂表1 G F6卫星参数名称参数名称参数空间分辨率全色:优于2m波段8多光谱:优于8m量化值12b i t光谱段范围P:0.45~0.90μm覆盖宽度>90k m蓝:0.45~0.52μm信噪比全色:低端ȡ28d B,高端ȡ47d B 绿:0.52~0.60μm多光谱:低端ȡ20d B,高端ȡ46d B 红:0.63~0.69μm辐射定标精度绝对定标精度优于7%B4:0.76~0.90μm相对定标精度优于3%1.3研究方法1.3.1提取方案合理的作物识别方法可以提高作物识别的精度,有利于获取到准确的棉花空间分布信息与面积[6]㊂参照棉花的光谱特征和遥感影像颜色特征,采用构建决策树模型方式进行分析提取,得到基于监督分类方法下棉花的像元结果,按照棉花掩膜规则生成棉花掩膜后,将其应用在夏津县卫星影像上,由于其他作物基本被掩膜遮蔽,棉花光谱和掩膜区域内其他地物的光谱可分性较好,再使用e C o g n i-t o n软件进行分类,排除符合掩膜规则的农田以外地物,达到精确提取棉花种植面积的目的[7],具体流程见图1㊂1.3.2精度评价的方法将估测面积和统计数据进行对比,分析提取精度,再采用K a p p a系数对提取方法进行精度评价, K a p p a系数的计算基于混淆矩阵,K值的范围通常为1~1之间,一般大于0[8],K a p p a系数计算公式见式(1):K=P o P e1P e(1)其中:P o 所有对角线元素之和除以整个矩阵元素之和得到的商值;P e 每个真实样本乘以预测样本的和再除以样本个数的平方的值㊂图1提取流程图2棉花种植面积提取2.1棉花光谱特征分析夏津县的棉花种植规律为4月份开始播种,此时的植被覆盖率较低,5~6月份,大多数的棉花还处于幼苗期,卫星影像呈现为淡绿色,此时地面植物的反射光谱特征基本相似,难以进行分类提取㊂8月初,棉花生长进入第一个花铃期,此阶段的棉花繁殖和发育最强烈,2~3周后棉花开始进入初开和盛花期,此时的植株长势达到最高峰,卫星图像呈现出鲜绿色㊂通过对棉花种植结构特征㊁遥感影像颜色特征㊁光谱特征的分析,可知棉花的最佳遥感识别期㊃54㊃为8月中下旬,此时地物间植被指数差异较大,棉花较容易的识别出来(图2)㊂图2夏津县8月份几种地物的反射波谱曲线图2.2植被指数分析参照夏津县棉花调查整理数据,利用其中有准确经纬度㊁种植作物信息的地面调查点,建立研究区作物样本图斑,分别建立棉花㊁玉米㊁水体㊁林地的训练样本和验证样本,统计遥感数据训练样本可分离系数的变化情况㊂本研究选取卫星影像中R㊁G㊁B 和N I R共4个10m分辨率的波段图像进行融合,利用E N V15.6和A r c G I S10.7对融合后影像重新构建金字塔,然后提取相对应的每个采样点的光谱波段反射率值,结合卫星遥感指数已有算法,并利用E N V I5.3平台的B a n d M a t h工具计算出不同土地利用类型的植被指数[9]㊂2.3提取步骤本研究利用e C o g n i t o n软件进行分类提取, e C o g n i t o n是一款高分辨率遥感影像分析软件,主要通过面向对象的影像分割技术,来实现影像的分析与数据获取[10],提取步骤如下:(1)棉花粗提㊂分类的基本过程中,先选定目标地物样本对象,由软件系统自动计算该类地物的属性值,然后建立特征空间结构[11]㊂以已确定样本的特点空间结构为核心,通过统计方法分析其余未分类型的摄影对象和该区位特性空隙之间的差距,那么影像对象离哪个区位的特性空隙最近,即会被分类在该类别中㊂8月棉花的平均反射率均高于树类和其他作物,而水域和灌木因为其独特的地理特点导致波谱特征几乎不会有太大明显变化,其他地类的波谱曲线的形态都有较大变动[12],由此,参照不同作物的像元可以得到棉花粗提结果㊂(2)棉花掩膜㊂按照掩膜规则生成棉花掩膜后,将其应用在卫星影像上,由于其他作物基本被掩膜遮蔽,棉花光谱和掩膜区域内其他地物的光谱可分性较好㊂通过分割试验得到研究区域内的影像分割参数,调整各参数权值,包括分割尺寸㊁图形紧致度㊁平滑度和色彩参数权重等,得出在多种分割图层下解析不同地物最适宜的切割尺寸[1314]㊂根据分割结果来调整样本点的疏密,使得遥感影像精度和分割尺度㊁样本集相匹配,最终使用的分割尺度参数为100㊁形状参数为0.3㊁精致度参数为0.7㊂使用支持向量机分类方法进行监督分类,排除符合掩膜规则的农田以外地物,达到精确识别棉花种植面积目的㊂(3)棉花提取㊂已经分离出的农作物图层中含有农田㊁苗木和少量的不透水地表(池塘等),首先在分割尺寸为100的影像对象层中进行粗提纯,再使用光谱特性 R a t i o r e d 和几何特性 L e n g t h/W i d t h 进行初步提纯;随后再将初步提纯后的作物类别传送到分割尺寸为100的影像对象层中再次进行提纯㊂提取过程如图3所示㊂3结果与分析综合利用遥感数据源,采用面向对象的决策树型分类方法,并基于e C o g n i t o n的棉花种植信息分类提取方案,得出夏津县棉花识别的最佳解译结果(图4㊁图5),结合实地验证点㊁作物分类样本对解译精度及棉花提取精度进行验证[15]㊂3.1遥感提取面积和官方统计数据对比根据分类结果,利用E N V I中的S t a t i s t i c(统计)工具,计算得出棉花所占的像元总数,然后计算其种植面积(种植面积=像元数ˑ像元面积)[16],最后得到基于G F6卫星和S e n t i n e l2卫星提取的夏津县2021年棉花种植面积分别为11369.96h m2和11109.96h m2㊂将估测结果与官方统计数据进行对比(统计结果见表2)㊂表2提取面积与官方统计面积对比单位:h m2面积G F6卫星S e n t i n e l2卫星官方统计面积11856.6611856.66遥感提取面积11369.9611109.96差值486.7746.7从表2数据看出,基于G F6卫星遥感提取的面积更加接近官方统计的面积㊂3.2解译精度检验分别计算基于G F6卫星和S e n t i n e l2卫星㊃64㊃图3 棉花提取过程图4 基于G F 6卫星提取的夏津县棉花分布图的棉花种植信息提取的总体分类精度㊁K a p p a 系数㊁生产精度和用户精度,统计数据见表3㊂表3 作物验证样本检验解译精度汇总表分类方法G F 6卫星S e n t i n e l 2卫星总体分类精度93.88%91.84%K a p p a 系数0.92230.8903生产精度91.31%89.17%用户精度90.45%88.97%由表3可知,G F 6卫星在总体分类精度㊁生产精度㊁用户精度等方面的数值均高出S e n t i n e l 2卫星约2个百分点,证明了其对棉花形状㊁纹理㊁大小等特征均有更高的辨别度,红边波段的确能提高作物识别的能力[16],提高作物的解译精度㊂3.3 实地对比分析为了评估分类的准确性,在夏津县棉花分布图中选取49个验证点与实地进行对比分析,由于验证点是随机选取,且未均匀分布于研究区域内,所以本次统计仅计算总体分类精度[17]㊂经实地调查统计,利用G F 6卫星提取的49个验证点中有46个分类正确,3个分类错误,总体精度达到93.88%;利用S e n t i n e l 2卫星提取的49个验证点中有45个分类正确,4个分类错误,总体精度达到91.84%㊂实地调查分类错误的原因,其中2个验证点周围种植有大豆和芦苇,提取结果将其误判为棉花;2个验证点套种有其他作物,提取结果产生漏分㊂G F 6卫星分类结果图斑具有更好的完整性,误判和漏分的情㊃74㊃图5 基于S e n t i n e l 2卫星提取的夏津县棉花分布图况要优于S e n t i n e l 2卫星㊂同时,选取某处验证样方对棉花种植面积提取的精度进行分析,检测方法为利用G P S R T K 实地测量验证样方内的棉花种植面积,与G F 6卫星和S e n t i n e l 2卫星提取的验证样方内的棉花种植面积进行对比,统计结果见表4㊂从表4统计数据可以看出,G F 6卫星和S e n t i n e l 2卫星提取的棉花种植面积相对误差均小于10%,说明2种卫星提取的面积精度都比较高,G F 6卫星的全色分辨率达到2m ,S e n t i n e l 2卫星的分辨率为10m ,G F 6卫星对作物种类及边界匹配更加准确,其对验证样方中棉花地块的形状㊁纹理㊁大小等特征上的表现更加突出㊂表4 棉花种植面积提取相对误差统计表数据源提取结果/h m 2实测结果/h m2相对误差/%G F 6卫星38.4636.585.1S e n t i n e l 2卫星40.1236.589.74 结语本研究以G F 6卫星影像为主要数据源,采用面向对象的决策树型分类方法,并基于e C o g n i t o n 遥感影像分析软件成功提取出夏津县棉花种植面积,该方法在处理高维度㊁大体积遥感数据中展现出天然的优势,其对大区域尺度的历史遥感影像处理分析能够更高效㊁准确的获取区域种植空间分布信息,通过研究总结如下:(1)经检验,基于G F 6卫星的棉花面积提取结果在精度方面明显优于S e n t i n e l 2卫星,证明了G F 6卫星新增的红边波段能够显著增强作物的识别能力,红边波段特征与作物生长状况㊁植被特征的相关性更强,其850k m 的宽幅数据可较好地用于中小区域尺度的地物提取,使得复杂地块作物面积监测结果更加客观合理,G F 6卫星能为遥感解译提供更加丰富的信息,其在作物面积提取方面具有广泛的应用潜力,极大地推动了卫星遥感技术的国产化应用㊂(2)随着对地观测技术的不断发展,高空间㊁时间以及光谱分辨率的卫星持续发射,其载荷类型不断丰富,空间信息网络通信能力不断提升,在轨数据处理能力不断加强,为农业资源调查等应用提供了更加丰富的数据源㊂考虑到单一遥感系统观测往往并不全面,后续通过多传感器进行数据融合研究能更有效发挥多平台互补观测的优势,即将包含同一目标或场景,在空间㊁时间㊁光谱上冗余或互补的多源遥感数据按照一定规则(或算法)进行运算处理,㊃84㊃获得比任何单一数据更精确㊁完整㊁有效的信息,实现更加精准㊁全面的作物分类提取㊂(3)为提高经济效益,当前的棉花田存在很多套种方式,呈现出 花花田 的现象,即在一块耕地上按照一定的行㊁株距和占地的宽窄比例种植几种作物,对棉花种植面积识别与提取造成较大的影响,在后续研究中,应当加大对多种作物光谱反射特征的研究,寻找作物之间光谱反射特征的差异,以进一步提高作物识别与提取的能力,为区域发展 精准农业 智慧农业 建设提供重要的技术支撑㊂参考文献:[1]潘力,夏浩铭,王瑞萌,等.基于G o o g l eE a r t hE n g i n e的淮河流域越冬作物种植面积制图[J].农业工程学报,2021,37(18): 211218.[2]白雪武,武红旗,吕昱,等.基于L a n d s a t8和高分一号影像的沙湾县作物种类识别研究[J].山东农业科学,2022(2):156162.[3]张悦琦,李荣平,穆西晗,等.基于多时相G F6遥感影像的水稻种植面积提取[J].农业工程学报,2021(17):189196. [4]李亚妮,曹建君,杨树文,等.基于决策树的大尺度复杂地区夏收作物遥感提取与分析[J].江苏农业学报,2022(5):12571264.[5]张华平,王增辉,谢颂诗,等.基于国产高分遥感数据的矿山环境监测系统研究[J].山东国土资源,2021,37(12):100104.[6]林娜,陈宏,李志鹏,等.基于G F1号影像的南方棉花种植信息提取[J].地理空间信息,2021(3):6063.[7]赵文驰,宋伟东,陈敏.国产高分辨率遥感卫星融合方法比较[J].测绘与空间地理信息,2019(11):154158.[8]董文全,蒙继华.遥感数据时空融合研究进展及展望[J].国土资源遥感,2018(2):111.[9]许青云,杨贵军,龙慧灵,等.基于MO D I SN D V I多年时序数据的农作物种植识别[J].农业工程学报,2014(11):134144.[10]张金盈,崔靓,徐凤玲,等.海量国产高分辨率卫星影像优化处理研究[J].山东国土资源,2020,36(9):6569. [11]李方杰,任建强,吴尚蓉,等.N D V I时序相似性对冬小麦种植面积总量控制的制图精度影响[J].农业工程学报,2021(9): 127139.[12]玉苏甫㊃买买提,吐尔逊㊃艾山,买合皮热提㊃吾拉木.新疆渭库绿洲棉花种植面积遥感监测研究[J].农业现代化研究, 2014(2):240243.[13]王霄煜,雷钧.基于高分一号卫星数据的新疆棉花种植面积信息提取研究[J].新疆农业科技,2021(1):2326. [14]刘焕军,闫岩,张新乐,等.面向农业区划的作物种植结构遥感提取[J].中国农业资源与区划,2017(8):4354. [15]李国庭,王德强,赵德良,等.基于多源异构数据的粮食作物种植面积提取[J].山东国土资源,2022,38(8):5155. [16]王克晓,周蕊,王茜,等.基于G F1的山地主要农作物种植信息提取研究[J].测绘与空间地理信息,2020(6):3336. [17]何真,胡洁,蔡志文,等.协同多时相国产G F1和G F6卫星影像的艾草遥感识别[J].农业工程学报,2022,38(1):186196.S t u d y o nE x t r a c t i o no fC o t t o nP l a n t i n g A r e a i nX i a j i nC o u n t y B a s e d o nG F6S a t e l l i t eS e t t i n g X i a j i nC o u n t y i nS h a n d o n g P r o v i n c e a s a nE x a m p l eMA C h u n y i n g(X i a j i nB u r e a uo fN a t u r a lR e s o u r c e s,S h a n d o n g D e z h o u253200,C h i n a)A b s t r a c t:T h e d o m e s t i c h i g h r e s o l u t i o n s a t e l l i t e6(G F6f o r s h o r t)h a s t h e c h a r a c t e r i s t i c s o f h i g h r e s o l u-t i o n,w i d ec o v e r a g e,h i g h q u a l i t y a n de f f i c i e n t i m a g i n g.I tc a n p r o v i d er e l i a b l ed a t as u p p o r t f o rr e m o t e s e n s i n g m o n i t o r i n g o f a g r i c u l t u r a l r e s o u r c e s.I n t h i s s t u d y,t a k i n g G F6s a t e l l i t e i m a g e a s t h em a i nd a t a s o u r c e,b y u s i n g t h e t h e o r y a n dm e t h o do f r e m o t e s e n s i n g t e c h n o l o g y c o m p r e h e n s i v e l y,t h e c o t t o n p l a n t-i n g a r e a s h a v eb e e ne x t r a c t e d i nX i a j i nc o u n t y.A t t h e s a m e t i m e,t h e i n t e r p r e t a t i o n r e s u l t s o f S e n t i n e l2 (S e n t i n e l2f o r s h o r t)i m a g e a r e u s e d f o r c o m p a r a t i v e a n a l y s i s.I t i s s h o w e d t h a t t h e e x t r a c t i o n s c h e m e o f c o t t o n p l a n t i n g a r e a i nX i a j i n c o u n t y b a s e do nG F6s a t e l l i t e i s e f f i c i e n t a n da c c u r a t e,a n d t h e e x t r a c t i o n a c c u r a c y i s s i g n i f i c a n t l y b e t t e r t h a n t h a t o f S e n t i n e l2s a t e l l i t e.I t i s p r o v e d t h a t t h en e w l y a d d e dG F6 s a t e l l i t ew i t h r e d e d g eb a n d c a n s i g n i f i c a n t l y e n h a n c e t h e r e c o g n i t i o n a b i l i t y o f c r o p s.I t h a s b r o a d a p p l i c a-t i o n p o t e n t i a l i n l a r g e s c a l e c r o pp l a n t i n g i n f o r m a t i o ne x t r a c t i o n.K e y w o r d s:G F-6s a t e l l i t e;i m a g e i n t e r p r e t a t i o n;c o t t o n p l a n t i n g;X i a j i n c o u n t y i nS h a n d o n gp r o v i n c e㊃94㊃。
envi基于规则的面向对象信息提取原理
envi基于规则的面向对象信息提取原理面向对象信息提取是指从文本中自动抽取和理解结构化的信息,以便支持各种应用程序,如搜索引擎、问答系统和信息检索等。
基于规则的面向对象信息提取原理是一种常见的信息提取方法,它通过事先定义的规则来识别和提取文本中的信息。
本文将首先介绍面向对象信息提取的基本概念,然后详细分析基于规则的面向对象信息提取原理,最后探讨该方法的优缺点和应用场景。
一、面向对象信息提取的基本概念面向对象信息提取是一种自然语言处理技术,它通过分析文本中的句子结构和语义关系,从中提取出特定的实体和关系,如人名、地点、组织、事件等。
以下是面向对象信息提取的基本概念:1.信息提取的目标:信息提取的目标是从非结构化文本中获取结构化的信息。
这些信息可以用于构建知识图谱、语义搜索等应用。
2.实体和关系:在信息提取中,实体是指文本中具体的事物,如人名、地点、组织等;关系是指实体之间的联系,如工作关系、上下级关系等。
3.文本分析技术:信息提取通常需要借助自然语言处理和机器学习技术,如词法分析、句法分析、语义分析等,来识别文本中的实体和关系。
4.应用场景:面向对象信息提取可以应用在诸如搜索引擎、智能问答系统、信息检索等各种应用中,为用户提供更加准确和个性化的信息。
二、基于规则的面向对象信息提取原理基于规则的面向对象信息提取是一种基于事先定义的规则来识别和提取文本中的信息的方法。
以下是该方法的基本原理:1.规则定义:首先需要定义一系列规则来识别文本中的实体和关系。
这些规则可以是基于词法、句法、语义等多种信息的匹配和匹配规则。
2.文本解析:接下来需要对文本进行解析,通过自然语言处理技术和机器学习算法来识别文本中的实体和关系,以及它们之间的语义关系。
3.规则匹配:在文本解析的基础上,利用事先定义的规则来匹配文本中的实体和关系,从而提取出需要的信息。
4.信息提取:最后,通过规则匹配得到的结果,提取出文本中的结构化信息,如人名、地点、事件等。
决策树算法的研究与应用
决策树算法的研究与应用一、本文概述随着大数据时代的到来,如何从海量的数据中提取出有价值的信息并做出准确的决策,成为了当前研究的重要课题。
决策树算法作为一种重要的数据挖掘和机器学习技术,具有直观易懂、分类效果好、适用范围广等优点,被广泛应用于金融、医疗、教育、工业等多个领域。
本文旨在对决策树算法进行深入研究,探讨其基本原理、分类方法、优化策略以及在实际应用中的案例分析。
通过本文的论述,希望能够为读者提供一个全面、系统的决策树算法知识框架,为推动决策树算法在实际应用中的发展提供参考和借鉴。
二、决策树算法的基本原理决策树算法是一种基于树形结构的监督学习算法,主要用于分类和回归任务。
其基本原理是通过递归地将数据集划分为若干个子集,以生成一个树状结构,每个内部节点表示一个属性上的判断条件,每个分支代表一个可能的属性值,每个叶节点代表一个类别(对于分类任务)或一个具体数值(对于回归任务)。
在决策树生成过程中,通常会选择一个最优划分属性作为当前节点的划分标准,以便根据该属性将数据集划分为尽可能纯净的子集。
划分属性的选择标准有多种,如信息增益、增益率和基尼指数等。
其中,信息增益是基于熵的概念来度量数据集的不确定性,增益率则是对信息增益的一种改进,旨在解决信息增益偏向于选择取值较多的属性的问题;而基尼指数则是基于基尼不纯度来度量数据集的不确定性。
决策树算法具有直观易懂、易于实现和可解释性强的优点,因此在许多领域得到了广泛应用。
然而,它也存在一些局限性,如容易过拟合、对噪声数据和缺失数据敏感等问题。
为了解决这些问题,研究者们提出了多种改进策略,如剪枝、集成学习和随机森林等。
剪枝是一种通过去除决策树中的部分节点或子树来防止过拟合的策略,包括预剪枝和后剪枝两种方式。
预剪枝是在决策树生成过程中提前停止树的生长,而后剪枝则是在决策树生成完成后对其进行简化。
剪枝策略可以有效地减少决策树的复杂度,从而提高其泛化能力。
集成学习则是一种通过结合多个单一模型的预测结果来构建一个更加强大的模型的方法。
基于决策树的情感分类
基于决策树的情感分类1.引言1.1 概述概述情感分类是自然语言处理领域的一个重要任务,其目的是根据文本的情感态度对其进行分类。
随着社交媒体的普及和大数据时代的到来,情感分类的需求愈发迫切。
传统的分类算法在处理情感分类任务时存在一些问题,如特征选择和维度灾难等。
因此,本文章将探讨基于决策树的情感分类方法,旨在利用决策树算法的优势来解决这些问题。
本文将首先介绍决策树算法的基本原理和方法,包括决策树的构建过程、节点划分准则以及决策树的剪枝方法。
其次,将探讨情感分类的应用背景,包括社交媒体中的情感分析、产品评论的情感分类等。
通过分析情感分类的应用背景,我们可以更好地理解情感分类任务的特点和挑战。
接下来,本文将详细介绍决策树在情感分类中的优势。
相比于传统的分类算法,决策树算法在特征选择和模型可解释性方面具有一定的优势。
同时,决策树算法能够处理非线性关系和多类别情感分类等问题,具有较好的扩展性和适应性。
此外,本文还将展示通过实验比较决策树算法与其他常用的分类算法在情感分类任务上的表现,以验证决策树在情感分类中的有效性。
最后,本文将进行结论总结。
我们将总结决策树算法在情感分类中的优势,并讨论其在实际应用中的潜在局限性和改进方向。
通过本文的研究,我们期望能够更好地理解基于决策树的情感分类方法,并为情感分类任务的实际应用提供有益的指导和启示。
1.2文章结构文章结构是指文章整体的组织方式和排列顺序,旨在使读者能够清晰地理解文章的逻辑结构和内容安排。
本文的文章结构如下所示:1. 引言1.1 概述1.2 文章结构1.3 目的2. 正文2.1 决策树算法介绍2.2 情感分类的应用背景3. 结论3.1 决策树在情感分类中的优势3.2 结论总结在本文中,文章结构的设计有助于读者系统地了解整篇文章的内容和论证过程。
以下是对各个部分的详细说明:1. 引言在引言部分,首先概述文章要探讨的主题:基于决策树的情感分类。
其次,介绍文章整体的组织和安排,即文章结构。
高分辨率影像香榧树分布信息提取
高分辨率影像香榧树分布信息提取韩凝;张秀英;王小明;陈利苏;王珂【期刊名称】《浙江大学学报(工学版)》【年(卷),期】2010(044)003【摘要】为了准确确定香榧树的空间分布、定量分析香榧树的适宜生长环境,基于IKONOS卫星影像.通过地统计半方差分析评价植被类型的可分性,并获取灰度共生矩阵纹理计算的最佳窗口;综合光谱信息、植被指数和纹理信息,应用C5.0决策树算法获取研究区地物分类的最优特征及规则,对香榧树的分布进行信息提取,其生产者精度为77.33%,用户精度为76.32%,该结果表明,基于决策树的香榧树分布遥感信息提取方法具有应用价值.【总页数】6页(P420-425)【作者】韩凝;张秀英;王小明;陈利苏;王珂【作者单位】浙江大学,农业遥感与信息技术应用研究所,浙江,杭州,310029;浙江大学,农业遥感与信息技术应用研究所,浙江,杭州,310029;浙江大学,农业遥感与信息技术应用研究所,浙江,杭州,310029;浙江大学,农业遥感与信息技术应用研究所,浙江,杭州,310029;浙江大学,农业遥感与信息技术应用研究所,浙江,杭州,310029【正文语种】中文【中图分类】TP751.1【相关文献】1.基于面向对象的IKONOS影像香榧树分布信息提取研究 [J], 韩凝;张秀英;王小明;王珂2.利用LIDAR数据及高分辨率影像的建筑物信息提取 [J], 孙金彦;王春林;钱海明3.基于面向对象的高分辨率影像甘蔗种植区信息提取方法研究 [J], 廖珊珊; 张建宇4.基于多尺度分割技术的高分辨率影像信息提取方法分析 [J], 李靖霞;文金花5.基于多尺度分割技术的高分辨率影像信息提取方法分析 [J], 李靖霞;文金花因版权原因,仅展示原文概要,查看原文内容请购买。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
基于决策树的面向对象变化信息自动提取研究张雨霁①②,李海涛②,顾海燕②(①辽宁工程技术大学测绘与地理科学学院,阜新,123000;②中国测绘科学研究院,北京,100039)摘要:为了从不同时相的遥感影像数据中自动地提取变化信息且保证其效率,本文结合面向对象分析技术,提出了一种基于决策树变化信息自动提取的新方法。
该方法利用影像的特征指数及形状特征、光谱特征、纹理特征等作为特征集,将其作为知识库应用到决策树控制模型中,进而利用该模型实现自动分类。
对所得到的分类后影像对象,组织分析其综合属性并作为决策规则再次分类,通过“双重分类”的方式实现面向对象的遥感影像变化信息自动提取。
该方法为遥感影像变化信息自动提取提供了新的思路。
关键词:变化检测;面向对象;决策树;特征指数Research on Object-Based Analysis of Automatic Change Information Extraction Based on Decision TreeZHANG Yuji①②,LI Haitao②, GU Haiyan②(①Liaoning Technical University, Fuxin, 123000; ②Chinese Academy of Surveying andMapping, Beijing, 100830)Abstract: In order to extract change information automatically from the different time remote sensing images and ensure the efficiency, a new automatic extraction method which is combined with the Object-Based Image Analysis technology based on the Decision Tree is presented in this paper. This method uses the features index and shape, spectral, texture of the image as a feature set to establish the decision tree model for automatic classification. Organize and analyse the synthesized attribute of image objects classified above, then use it as the decision rule to make classification the second time. We can bring about the automatic exaction of image change information by ‘double classification’ which is based on the Object-Based Image Analysis. This method offers a new thought for automatic extraction of remote sensing images change information.Keywords: change detection; object-based; decision tree; feature index收稿日期:修订日期:基金项目:National T echnology Support Program [国家科技支撑项目]。
(Program: 2008BAC34B07__04). 作者简介:张雨霁(1985~),女,在读硕士,主要研究方向为遥感图像处理。
E-mail:YUJI-911@1、引言变化检测技术问世以来,以应用为导向,技术方法与手段日臻完善,应用深度和广度也在不断拓展。
空间遥感获取技术的迅猛发展,使遥感数据的获取趋向三多(多传感器、多平台、多角度)和三高(高空间分辨率、高光谱分辨率、高时相分辨率)[1],遥感数据的不断更新及实用化极大促进了变化检测理论和方法的变革。
但与遥感获取技术取得的巨大进步相比,与其相配套的数据处理、分析和应用方法相对落后,大部分还只是停留在基于像元级别的影像分析处理,突出问题展现在卫星获取的遥感数据未能得到充分利用,对遥感信息认识不足和对遥感专题信息提取水平的滞后,自动化、智能化程度不高,效率及精度低下,这就造成了遥感信息资源的巨大浪费及应用价值的降低,使得变化检测的实效性难以满足。
针对这些不足,本文结合GIS空间数据挖掘和遥感技术,以如何得到变化属性类型,分析提取出地物变化信息为目标,突破传统意义上像元级的检测方法,提出了对同一地区不同时相的遥感影像,利用特征指数及分割后的对象特征,通过建立决策树模型,实现面向对象的变化检测新方法,实验证明了该方法的有效性与鲁棒性。
2、面向对象的变化信息自动提取2.1 多尺度分割对影像进行合理的分割得到影像对象,是面向对象变化信息提取的前提。
本文采用多尺度分割技术,通过不同尺度的选择可将影像方便灵活地分割成由同质不规则多边形组成的不同分辨率影像对象层。
形成的由多边形矢量边界包围的影像对象区域,达到了矢量与栅格的融合处理,为进一步的影像分析处理提供了大量可用信息。
分割多采用区域增长算法[2],每一层都由它直接的子对象构成,在下一个高层上,子对象合并为较大对象,不断分离合并的过程中自动建立起了一个与地表实体相似的层次等级结构,层次中的每个影像对象都明确其自身与上级、下级及同级对象之间的拓扑关系,实现了原始象元信息在不同空间尺度间的传递。
2.2 特征提取指数1、归一化植被指数(NDVI)Rouse J W[3]等人提出的NDVI作为目前最常用的植被指数之一主要用于植被信息提取、植被监测和植被物候等研究。
其计算公式为rednirrednirNDVI+−= (1)nir代表近红外波段,red代表红波段。
2、归一化水体差异指数(NDWI)Mcfeeters[4]提出的NDWI,是一种根据波段间比值进行分类的方法。
它主要用于提取水体信息,同时削弱土壤、陆生植物在图像中的亮度值,勾画水域边界等。
其计算公式为nirgreennirgreenNDWI+−= (2)green代表绿波段,nir代表近红波段。
3、归一化建筑物差异指数(NDBI)ZHA Y[5]提出的NDBI主要用于提取由各种不透水建筑材料所覆盖的表面, 如由瓦片、沥青、水泥混凝土等材料构成的建筑物、路面和停车场等。
其计算公式为irnmirnirmirNDBI+−= (3)mir代表中红外波段,nir代表近红波段。
本文选取TM影像中的第五波段(短波红外波段)替代mir。
2.3 面向对象的决策树分类面向对象决策树分类方法是一种建立在先验知识的基础上的分层次处理结构。
该方法利用总结的特征提取指数及分割后所得对象的形状、语义等特征作为建立决策树所描述的多项判断准则,对影像中各对象进行逐层识别和归类,逐步将待提取目标从地物中分离出来,避免此目标对其他目标提取时造成的干扰和影响,通过若干次中间判别最终将所有数据图层复合以实现图像的自动分类。
即通过一组独立变量,将一个复杂数据集逐步分解为更纯、更同质的子集的过程。
其基本思想是通过一些判断条件对原始数据集逐步进行二分和细化,其中,每一个分叉点代表一个决策判断条件,每个分叉点下有两个叶结点,分别代表满足和不满足条件的类别[6,7,8]。
2.4变化信息自动提取过程本试验利用对影像多尺度分割后影像对象的形状指数、特征提取指数等特征,建立面向对象决策树模型分别对不同时相的TM 影像进行面向对象分类,对分类后的结果,利用影像层次间相应类别及对应位置对象间的语义关系进行再分类,双重分类后最终实现变化信息的自动提取。
具体过程如下:第一步:对输入影像进行多尺度分割获取影像对象(试验中尺度选择10,形状异质性权重系数选择0.1,光谱异质性权重系数选择0.9,紧致度指数权重系数选择0.5,光滑度指数权重系数选择0.5)。
第二步:利用对象的特征提取指数及形状指数建立面向对象决策树分类层次模型(本试验主要分析提取水体、裸地、稀疏植被及茂密植被四个类别变化信息)。
图1 面向对象决策树分类模型第三步:利用面向对象决策树分类模型分别对前后时相的影像进行面向对象的分类处理,分别得到分类后前后时相单波段影像层。
试验分类后结果如图5(b)(d)所示。
第四步:将前后时相单波段分类后影像分别按类别赋予层次属性值(前一时相赋予2,后一时相赋予1),使各对象都明确各自属于哪层哪类。
第五步:用前一时相的影像对象层分割后的各均质区域去限定相应位置后一时相影像对象层分割后的各均质区域,使其形状与前一时相保持一致,但区域内的属性值各自保留,举例如图2。
图2 影像对象匹配化统计分析相同形状区域内的变化情况(与前一时相的均值区域相比后一时相异质情况),所选类别影像对象存在赋值为1,不存在赋值为0。
具体例子如表1:表1 地物类别变化信息分析表就样,每个影像对象就具备了层次、类别、位置及存在与否这四种属性,通过四重属性的索引,就可以进行不同层次不同类别间对应位置影像对象的比对分析了。
第六步:创建用于显示变化信息的显示层,并赋予层次属性值0。
将该层与面向对象决策树分类后的层次属性值分别为1、2的后、前时相影像对象层进行叠加处理。
第七步:对于变化信息提取各个类别(水体、裸地、稀疏植被及茂密植被)采用表1方式,即可表示出地物的变化情况。
这样,将不同的变化情况利用不同颜色属性值在0层中予以显示表达,通过分类后再次分类的方式,实现变化信息的自动提取。
图3描述了面向对象变化信息提取的初略过程。
图4为变化信息提取结果。
图3 面向对象变化信息提取流程图4变化信息提取结果(a)1991年6月原始TM影像(b)1991年6月面向对象分类后影像(c)2000年7月原始TM影像(d)2000年7月面向对象分类后影像图5 面向对象决策树分类最终结果3、精度评价本文选用经过前期几何校正、直方图匹配等预处理后的1991年6月及2000年7月前后时相TM 影像作为实验数据源,将TM1、TM2、TM3、TM4、TM5、TM7 六个波段(由于TM6波段信息量较少)进行波段组合作为分析数据,采用543波段进行假彩色合成,合成影像上茂密植被表现为深绿色,稀疏植被表现为绿色,裸地表现为淡紫色,水体表现为深蓝色,方便目视判读。
研究区域内,相对与1991年影像,2000年影像中各类型地物均发生不同程度变化,各部分地物的变化情况明显。