基于多源数据的CART决策树冰川提取

日期:2019.12.16 阅读数:27

【类型】期刊

【作者】蒙张,胡勇(武汉大学资源与环境科学学院;武汉大学地理信息系统教育部重点实验室)

【作者单位】武汉大学资源与环境科学学院;武汉大学地理信息系统教育部重点实验室

【刊名】地理空间信息

【关键词】 冰川;CART;决策树;多源数据;手动勾绘;最大似然法

【资助项】中央高校基本科研业务费重大重点培育专项资金资助项目(2042015kf1044)

【ISSN号】1672-4623

【页码】P61-63,11

【年份】2019

【期号】第2期

【期刊卷】7

【摘要】介绍了一种快速简便的基于多源数据的CART决策树提取方法。以各拉丹冬冰川为例,利用TM影像提取冰川,通过与手动勾绘、最大似然法的对比,CART决策树方法具有一定的优势。从提取结果上看,CART决策树、手动勾绘、最大似然法提取的面积分别为856 km~2、858 km~2、866 km~2。以手动勾绘为标准,最大似然法提取和其他两种方法有着较大差距,CART决策树方法和手动勾绘法相差较少。总的来说,CART决策树在保证精度的同时,比最大似然法精确,比手动勾绘法简单快捷。

【全文文献传递

基于多源数据的CART决策树冰川提取

基于多源数据的CART决策树冰川提取

蒙 张1,胡 勇1,2*

(1.武汉大学 资源与环境科学学院,湖北武汉430079;2.武汉大学 地理信息系统教育部重点实验,湖北 武汉430079)

摘 要:介绍了一种快速简便的基于多源数据的CART决策树提取方法。以各拉丹冬冰川为例,利用TM影像提取冰川,通过与手动勾绘、最大似然法的对比,CART决策树方法具有一定的优势。从提取结果上看,CART决策树、手动勾绘、最大似然法提取的面积分别为856 km2、858 km2、866 km2。以手动勾绘为标准,最大似然法提取和其他两种方法有着较大差距,CART决策树方法和手动勾绘法相差较少。总的来说,CART决策树在保证精度的同时,比最大似然法精确,比手动勾绘法简单快捷。

关键词:冰川;CART;决策树;多源数据;手动勾绘;最大似然法

现阶段提取冰川最常用的方法是人工勾绘提取,具有较高的精度[1]。但人工勾绘方法适用于比较小范围的冰川和地形相对简单的冰川,不能适应大范围且地形复杂的冰川调查[2]。手绘方法提取冰川会受到主观因素的制约,不同的勾绘者之间提取的冰川会有差异,而且提取结果得不到有效验证。除了手绘方法提取之外,还可以使用监督分类、非监督分类、冰雪指数法提取冰川,但这些方式都有很强的主观性且无法准确分类[3,4]。为了避免主观因素对冰川提取的制约,研究者开发了人工神经网络分类方法、决策树分类方法和多源数据专家系统等。其中决策树分类方法具有较高的精度,但应用于冰川提取并不多见[5]。决策树分类方法具有条理清晰、可重复操作性、效率高、灵活直观等特点,在遥感图像分类中具有很好的效果。决策树算法方面目前较流行的有C5.0算法和分类回归树CART(classification and regression trees)算法,CART决策树算法分类精度明显优于C5.0算法,且具有结构清晰等优势[6]

本文将利用Landsat5卫星的TM影像数据和DEM数据,以各拉丹冬冰川提取为例,将提取结果和手动勾绘法进行比较,证明提取结果的可行性。经对比验证发现,CART决策树方法提取的结果优于手动勾绘提取的结果,且具有客观可验证性。

1 数据处理

TM影像已经进行过系统的辐射校正,并根据地面控制点进行几何校正,和利用DEM高程数据进行正射校正。因此,只对TM影像进行辐射定标,再进行Flash大气校正。TM影像的投影为横轴墨卡托投影,坐标为WGS-1984-UTM-Zone-46N。DEM数字高程模型使用的是Geographic投影,所有数据的坐标和投影统一为UTM(通用横轴墨卡托)椭球体投影WGS84。所以需要把DEM投影转化横轴墨卡托投影,WGS-1984-UTM-Zone-46N,最后对所有影像进行统一裁剪。

2 方 法

2.1 特征计算

坡度坡向计算:本文使用DEM数字高程模型,利用ENVI4.8的地形分析功能从DEM中计算坡度和坡向2个地形特征。

纹理计算:使用TM影像,利用ENVI4.8计算Data range(数值范围)、Mean(均值)、Variance(方差)、Entropy(熵)、Skewness(偏斜)[8-10]

归一化植被指指数(NDVI):公式为(B4-B3)/(B4+B3)。式中,B4为TM影像的第四波段近红外波段,B3为TM影像的第三波段红波波段。

归一化水体指数(NDWI):公式为(B2-B4)/(B2+B4)。式中,B4为TM影像的第四波段近红外波段,B2为TM影像的第二波段绿波波段。

湿度指数(NDMI):公式为(B4-B5)/(B4+B5)。式中,B5为TM影像的短波红外。

2.2 CART决策树分类原理

CART决策树分类原理是根据学习区域变量和目标变量进行循环分析,以二叉树的结构形式对目标变量进行判断的一个分类方法。因此,CART决策树分类需要有学习的样本,类似监督分类需要选择样本进行判断。CART决策树分类方法具有准确性高、操作灵活简单,能通过复杂的数据归纳出一棵清晰容易理解的二叉树,对多源数据有深度挖掘的能力[11]。CART算法是从众多的预测属性(模型的输入属性)中选择一个属性或多个属性的组合,作为树节点的分裂变量,把测试变量分到各个分枝中。重复该过程建立一棵充分大的分类树,然后用剪枝算法对该树进行剪枝,得到一系列嵌套的分类树,最后用测试数据对该系列分类树进行测试,从中选择最优的分类树[12-14]

2.3 CART决策树建立

根据所获取的数据和提取的特征建立特征数据集 [15]。数据集包括:TM影像1-7波段(不包含第6波段)、DEM数字高程模型、纹理特征、坡度坡向、NDVI归一化植被指数、NDWI归一化水体指数、NDMI湿度指数。使用TM影像中的7、5、4波段进行假彩色合成。建立感兴趣区域,分别为水体、裸地、草地、冰川4类,并单独建立精度评价样本。由于各拉丹冬地区的地物类别比较单一,本研究只选了4类,地类多的地区需要尽可能地多分地类,提高各种地类之间的可区分性。根据所建立的分类样本,利用ENVI决策树CART自动阈值补丁建立决策树。

2.4 CART决策树分类结果

如图1,B15为NDWI规划水体指数,B4为TM影像红波波段,B9为纹理特征中的Mean均值。一共分出4个地类,从左到右分别为冰川、水体、草地、裸地。冰川的分类规则为:NDWI值大于0.5,红波波段DN值大于2 264。水体的分类规则为:NDWI值大于0.5,红波波段DN值小于2 264。草地的分类规则为:NDWI值小于0.5,Mean值大于2 643。 裸地分类规则为:NDWI值小于0.5,Mean值小于2 643。根据冰川的光谱特性,冰川的光谱反射率高,含水量大,因此水体指数的值偏大,波段的反射率也大。“水体”根据其特性含水量大,但在波段上的反射率低,规则符合水体的特性。“草地”的含水比起冰川和水体要低,因此草地水体指数较低,Mean值在有植被的地区DN值高,规则符合草地的特征。“裸地”的水含量低,水体指数值小,裸地没有植被生长,Mean DN值低,符合裸地的特征属性。监督分类采用相同的样本,使用最大似然法分类。检验的样本共有1 014个,把样本通过ENVI可视化方法,将4种地物类别在N维空间中显示提取纯净像元。经过像元提纯以后得到水体样本401个、草地306个、裸地174个、冰川133个。从表1、2中可以明显看出,CART决策树方法精度明显优于最大似然法分类。冰川的生产精度比最大似然法高16.55%,用户精度高3.73%。总体分类结果,CART决策树的KAPP系数为0.81,而最大似然法为0.69,比最大似然法高0.12。精度上,CART决策树具有明显优势,证明CART决策树方法比最大似然法提取冰川更可靠。

图1 决策树

3 结果与分析

3.1 精度检验

为了验证CART决策树方法和其他方法之间的精度,本文将最大似然法和CART决策树作对比分析。

表1 基于CART决策树分类精度

类型 水体 草地 裸地 冰川 总和 使用精度/%水体 310 0 27 0 337 91.99草地 75 1 147 13 236 62.29裸地 0 296 0 0 296 100冰川 16 9 0 120 145 82.76总和 401 306 174 133 1 014生产精度/% 77.31 96.73 84.48 90.23

表2 最大似然法分类精度

类型 水体 草地 裸地 冰川 总和 用户精度/%水体 312 0 42 0 354 88.14草地 18 296 43 35 392 75.51裸地 55 0 89 0 144 61.81冰川 16 10 0 98 124 79.03总和 401 306 174 133 1 014生产精度/% 77.81 96.73 51.15 73.68

3.2 提取面积精度

将CART决策树分类结果与最大似然法分类结果转化为矢量,利用ArcGIS统计分类后冰川面积。将手动提取方法、最大似然法、CART决策树法作对比。经过统计得出,最大似然法、CART决策树法、手动勾绘法提取的冰川面积分别为866 km2、856 km2、858 km2,从面积上看CART决策树方法和手动勾绘方式所提取的结果几乎接近,最大似然法与CART决策树方法相差10 km2,与手动勾绘方式相差8 km2。图2为最大似然法、CART决策树法、手动勾绘法所勾绘的冰川边界,红色线条为轮廓线。

图2 3种提取法轮廓

3.3 分析

经过3种分类方法的对比可以得出,CART决策树在识别冰川上具有明显的优势。3种提取方法中,最大似然法提取精度不高;虽然手动提取方法提取冰川具有精度优势,但是比较繁琐,费时费力;CART决策树方法使用多源数据,分类精确,操作简单。对较大范围且地形复杂地域的冰川调查,利用CART决策树方法提取冰川是一种不错的选择。CART决策树也有错分的情况,当影像上有云层时会把云层分为冰川,这需要利用ArcGIS对错分区域进行手动修改,修改后分类精度会有明显改善。

4 结 语

经过对各种方法进行对比总结后发现,CART决策树方法对于提取冰川面积具有一定的优势。从分类精度上看,CART决策树利用多种特征集和多种数据源能够区分微小区域上的差别,精度明显高于监督分类下的最大似然法分类。从提取面积的准确性来看,本文将手动勾绘方式和CART决策树两种分类方法在分类面积上比较,二者的面积差距相对误差为0.23%,CART决策树和手动勾绘相差不大。需要注意的是,在影像的使用上,需选取云量较小、冰川上空没有云层覆盖的影像和选择夏季时间的影像。这样,在分类的时候就能提高精度,不需要进行二次纠正。分类时云层积雪等都会被误判为冰川,因此选择受云层影响小的影像比较关键。在特征集的选择上,尽量选择与分类相关性比较大的数据源、指数、特征,目的是在分类的时候,有更好的区分性。本研究也有一些不足,在影像选择方面,影像有少许的云,造成一定的误判。由于裸地和草地在影像上的区分度不强,降低了总体分类精度。分类过程中帮助最大的是纹理特征中的Mean,其他指数信息帮助不是很大,在对特征集的选择上还需要进一步探索。

参考文献

[1]白金中,李忠勤,张明军,等. 1959~2008年新疆阿尔泰山友谊峰地区冰川变化特征[J].干旱区地理,2012, 35(1): 116-124

[2]蒙彦聪,李忠勤,徐春海,等. 中国西部冰川小冰期以来的变化:以天山乌鲁木齐河流域为例[J]. 干旱区地理, 2016(3):486-494

[3]齐乐,岳彩荣. 基于CART决策树方法的遥感影像分类[J].林业调查规划, 2011(2): 62-66

[4]刘敬,李俊,蔡宏. TM图像在城市绿地调查中的应用[J].云南地理环境研究,2006(3): 25-28

[5]张会,闫金凤.基于MODIS影像多特征的CART决策树分类[J].地理空间信息, 2013(2): 111-113

[6]刘勇洪,牛铮,王长耀.基于MODIS数据的决策树分类方法研究与应用[J].遥感学报,2005(4): 405-412

[7]郭万钦,刘时银,许君利,等.木孜塔格西北坡鱼鳞川冰川跃动遥感监测[J].冰川冻土,2012(4): 765-774

[8]Feng L, Li H. Spatial Pattern Analysis of Urban Sprawl: Case Study of Jiangning, Nanjing, China[J]. Journal of Urban Planning& Development ,2012, 138(3): 263-269

[9]沈焕锋,李平湘,张良培. 一种顾及影像纹理特性的自适应分辨率增强算法[J].遥感学报, 2005(3): 253-259

[10]王丽涛,王世新,周艺,等. 基于纹理特征的高分辨率遥感影像灾害监测应用[J].灾害学,2014(3): 97-101

[11]董连英,邢立新,潘军,等. 高光谱图像植被类型的CART决策树分类[J].吉林大学学报(信息科学版), 2013(1): 83-89

[12]Petersen M B, Tolver A, Husted L, et al. Repeated Measurements of Blood Lactate Concentration as a Prognostic Marker in Horses with Acute Colitis Evaluated with Classification and Regression Trees (CART) and Random Forest analysis[J]. The Veterinary Journal,2016(213): 18-23

[13]陈云,戴锦芳,李俊杰. 基于影像多种特征的CART决策树分类方法及其应用[J].地理与地理信息科学,2008(2): 33-36

[14]谭莹. 翁源县基于纹理信息及CART决策树技术的遥感影像分类研究[D].南京林业大学, 2008

[15]李金莲,刘晓玫,李恒鹏. SPOT5影像纹理特征提取与土地利用信息识别方法[J].遥感学报,2006(6): 926-931

中图分类号:P237

文献标志码:B

文章编号:1672-4623(2018)02-0061-03

doi:10.3969/j.issn.1672-4623.2018.02.021

收稿日期:2017-03-30。

项目来源:中央高校基本科研业务费重大重点培育专项资金资助项目(2042015kf1044)。(*为通讯作者)

第一作者简介:蒙张,硕士,研究方向为生态环境遥感与地理信息系统。

相关搜索