2. 电子科技大学资源与环境学院, 四川 成都 611731
2. University of Electronic Science and Technology of China, Chengdu 611731, Sichuan, China
遥感地质解译是区域地质矿产调查工作的重要组成部分,解译结果和路线调查结果具有较大的融合空间,从影像上获取的地质信息经过野外实地调查和验证可以转换为基础地质数据(韩玲等,2017)。遥感岩性识别方法主要包括基于光谱特征的岩性分类方法、基于空间特征的岩性分类方法和多元信息复合分类方法(王明常等,2018;王建刚等,2020;熊越晗等,2021;于长春等,2022)。通过信息增强、匹配滤波、空间特征提取,结合多源地球物理、地球化学、矿产数据在智能化地质填图和矿产调查中可以发挥较好的作用(陈建平等,2019;戴均豪等,2021;Lakhlifa et al.,2022; 陈虹等,2022)。利用多种主成分分析方法便于开展火山盆地蚀变分带解译研究(吴志春等,2020)。利用主成分分析和最小噪声分离方法增强数据,有助于对高光谱数据岩性构造进行研究(李娜等,2019)。利用主成分分析和波段组合的方式强化地质信息,开展岩性划分研究效果明显(何文熹等,2019)。人工智能时代机器学习方法不断创新发展,为遥感数据进行有效的挖掘利用提供了很好的平台。机器学习方法中,用随机森林模型对火成岩进行提取与分类,精度可达到85.94%(马梓程等,2019)。遥感数据在地质应用中利用传统分类方法较多,专门针对植被覆盖较少地区利用人工智能方法划分岩性的较少。欧空局利用哨兵数据进行了基于随机森林方法的岩性划分,但处理结果较粗糙,和实际地质图之间还存在较大差距。
本次选择具有典型地层出露的柯坪地区开展研究,该地区及相邻区域遥感地质工作研究较少,遥感工作几乎全部集中在柯坪推覆构造系的构造变形研究。对柯坪地区TM数据、航天飞机SIR2A数据及高光谱数据的综合处理,提取了弱构造信息,揭示了柯坪地区左行走滑断层特征(范湘涛等,2000)。亦有学者在该地区东部做了多光谱遥感数据识别与提取干旱地区岩性信息识别研究(时丕龙等,2010)。
本文利用1:5万区域地质填图数据及Landsat 8的9个波段多光谱数据,结合机器学习方法进行遥感地质解译,为强化解译效果,进行了数据融合,开展了以波段比和主成分分析为主的数据增强,分别在空间分辨尺度和纵向特征数据层尺度上进行了有效的强化,对研究区典型地层波段数据进行提取后,运用多种基于机器学习算法的方式进行地层分类,实验取得较好的效果。通过对遥感数据进行双边滤波处理,既能有效保持岩性数据边界特征,同时对于同一地层内部的干扰也有较好的滤波效果,最终得到更直观、与地质图关联度较高的地层分类结果。本次研究通过多种数据处理手段较大程度地接近地质填图结果,有别于以往遥感地质信息解译靠目视判别和人工修饰的处理方法。
1 地质背景研究区位于新疆维吾尔自治区阿克苏地区柯坪县,南部部分属于巴楚县,属天山支脉柯尔塔格山南麓(图 1)。区内地形起伏较大,主要由中高山组成,山区海拔一般为2500~2900 m,戈壁最低海拔为1012 m。主要出露柯坪塔格山与衣木干他乌山,整个山系北缓南陡,南坡干燥剥蚀作用较北坡强烈。研究区向北依次为戈壁河滩、低山丘陵、高山地貌。
![]() |
图 1 研究区位置(A)及区域地质简图(B) Fig.1 Location map(A) and regional geological schematic diagram(B) of the study area |
研究区大地构造位于塔里木-华北板块塔里木微板块柯坪前陆盆地,地层分区主要为塔里木地层区的塔北地层分区,地层小区为柯坪地层小区。早古生代为被动大陆边缘,沉积了寒武系—奥陶系厚层白云岩、白云质灰岩、灰岩,志留系—泥盆系陆源碎屑岩;晚古生代为前陆盆地,沉积了石炭系—二叠系薄层泥晶灰岩、生物碎屑灰岩,中晚二叠世后上升为陆,进入造山阶段。古生代出露下奥陶统丘里塔格组(O1ql),中奥陶统萨尔干组(O2se)、坎岭组(O2k)、其浪组(O2q)、印干组(O3k);下志留统柯坪塔格组(S1k)、中—上志留统塔塔埃尔塔格组(S2-4t);下—中泥盆统衣木干他乌组(D1-2y)、上泥盆统克孜尔塔格组(D3k);上石炭统康克林组(C2P1kk);下二叠统巴立克里克组(P1b)、中二叠统卡伦达尔组(P2k)。新生代地层出露面积较大,除下更新统西域组固结成岩外,其他均为松散堆积物(代友旭等,2017;阎琨等,2019)。
由于南天山边界断裂的影响,研究区形成一系列逆冲推覆构造,断距超过6000 m,为向北倾的推覆岩席,之后由于印干走滑断裂和皮羌走滑断裂的影响,形成了调查区的构造格架。研究区岩浆岩不甚发育,仅发育少量基性脉岩和岩墙。地层出露条件较好,为开展遥感数据机器学习提供了很好的适用场地,具有同样地层出露条件的区域在南天山地区分布较广泛,尤其是众多叠瓦状逆冲推覆体构造在该区域比较集中。
2 数据与研究方法 2.1 数据本次研究利用Landsat 8 OLI数据和地质填图数据进行分析处理。Landsat 8数据来源于中国科学院计算机网络信息中心地理空间数据云平台(http://www.gscloud.cn)。Landsat 8遥感卫星携带有2个主要载荷:OLI和TIRS,OLI为陆地成像仪,TIRS为热红外传感器。OLI陆地成像仪包括9个空间分辨率为30 m的多光谱波段数据和1个15 m的全色波段数据。地质数据为中国地质调查局烟台海岸带地质调查中心(原武警黄金第七支队)野外实测1:5万区域地质调查成果数据。
2.2 研究方法 2.2.1 数据增强本次研究选取Landsat 8 OLI的1~7波段、10~11波段数据和波段8的15 m全色波段数据,将数据融合为9个波段15 m分辨率数据。为增强机器学习过程中参与变量的数目,在以上9波段数据的基础上分别采用比值法增强方式、主成分变换法增强方式进行数据叠加。
遥感数据处理中为凸显某一地物,采用不同波段进行相除操作,增大地物反射差,凸显地物特征。本实验中用波段1~9分别进行相互比值运算,获取45层计算数据。主成分分析通过K-L变换,对数据进行正交线性变换,变换后保证原有数据的信息留存,同时凸显不相关联的数据,在一定程度上减少数据的冗余。本次对波段1~9进行主成分分析,获取9层数据后叠加于原始的9波段数据上,共计18层。
遥感影像中,许多地质体带有较复杂的纹理信息,为分割带来不便。为较好地减弱地质体内部的纹理信息,同时不影响地质体之间的边界,笔者采用双边滤波的形式对遥感数据进行进一步处理,以期机器学习方法在地质界线识别过程中有所改善。双边滤波由Tomasi等提出,其是一种非线性滤波,该滤波方法在较好地保留边缘信息的同时,对相近区域进行降噪平滑,在数据处理过程中,同时考虑空间位置距离关系和数据灰度值强度之间的距离关系(Tomasi et al., 2002; 李俊峰,2013)。双边滤波的定义如下:
$ B F(I) p=\frac{1}{W_p} \sum\limits_{q \in S} G_{\sigma_s}(\|p-q\|) G_{\sigma_r}\left(\left|I_p-I_q\right|\right) I_q $ | (1) |
式中,I表示输入的某个单一波段数据值,S代表空间域,Ip代表该波段影像在p位置的灰度值(即遥感影像的DN值),Gσs代表空间高斯权重,Gσr代表灰度值高斯权重,‖p-q‖代表位置p和位置q之间的欧式距离,|Ip-Iq|代表灰度差值(即遥感影像DN值之差)。Wp为归一化函数,确保权重和为1。
本文利用Opencv开源库,建立遥感影像双边滤波模型,对各波段影像分别采取双边滤波处理,设定灰度空间标准方差为30,坐标空间的标准方差为75。
2.2.2 机器学习方法机器学习分为有监督的学习方法和无监督的学习方法,无监督的学习方法以聚类方法为主,有监督的学习方法包括神经网络、决策树、支持向量机等。无监督的学习方法对于开展阈值分割等处理较好,但对于特定性、需要多特征判断的分类,该方法在结果控制上具有局限性。有监督的学习方法中,神经网络及其衍生的其他方法学习能力强,但学习过程比较长,涉及需要控制的参数较多,调节较繁琐。向量机方法对于大规模训练样本和多分类问题还存在不足。
在许多机器学习实际应用项目中,集成学习方法更受欢迎,该方法通过结合多个学习器获得比任意单个学习器都要好的性能。主要包括自适应增强分类器、引导聚集分类、随机森林、提升树系列算法。所以,本文选择集成学习算法,在各个规模的数据集上具有较好的效果且模型具有很强的泛化性。
为充分比较和使用机器学习的效果,本文采用Sklearn开源库(scikit-learn: https://scikit-learn.org/stable/)中5种典型的分类方法进行实验训练,主要包括:自适应增强法(Ada Boost)、袋装法(Bagging)、极限随机树(Extra Trees)、直方梯度增强随机树(Hist Gradient Boosting)及随机森林(Random Forest)。每种学习方法均选用系统默认参数。
自适应增强分类器(Ada Boost)是通过弱分类器不断迭代而产生最终的强分类器的算法(Freund,1997)。袋装法分类(Bagging)是在原始训练集的随机子集上构建黑盒估计器的多个实例,然后把这些估计器的预测结果结合起来形成最终的预测结果(Breiman,1996)。极限随机树(Extra Trees)方法是在原始数据集的基础上分出不同子样本,并匹配大量随机决策树,结合平均法提高其预测精度,控制过拟合现象(Geurts et al.,2006)。梯度提升决策树(Gradient Boosting)方法是按照一定次序搭建多个分类模型,此类模型之间存在一定的依赖关系,后续模型需要以现有模型的处理作为输入(Friedman,2001)。基于直方图的梯度增强随机树(Hist Gradient Boosting)对于部分数据有缺失的样本具有较好的支持。随机森林(Random Forest)方法是在数据集的不同子样本上匹配许多决策树分类器,并使用平均法来提高预测精度和控制过拟合,是一种特殊的袋装法,它的基础模型就是单棵决策树(Breiman,2001;李欣海等,2013)。
3 地质信息提取与地层分割 3.1 训练及验证区域选取依据区域地质数据,结合研究区遥感影像波段组合和色彩拉伸,显示表现出的不同色调,通过目视解译在该区域选取19类具有典型光谱信息的地质体训练样本,样本点即是遥感影像的像元点,研究区纵向像元数量为882个,横向像元数量为411个,共计362508个像元点。主要包括新生代地层3类,古生代地层16类。其中,因中奥陶统其浪组、坎岭组、萨尔干组较薄,进行合并处理。志留系塔塔埃尔塔格组具有紫红色粉砂岩和灰绿色细砂岩遥感波段信息差异比较大的地层,将其分为两类。下奥陶统丘里塔格组灰岩因层厚较大,北部区域和南部地形较陡断面处分为两类。训练样本累计18606个,占研究区像元点的4.31%,验证样本累计15640个,占全区像元点的5.13%(表 1)。
![]() |
表 1 训练及验证样本分布 Table 1 Distribution of training and verification samples |
分别采用自适应增强法、袋装法、极限随机树、直方梯度增强随机树、随机森林5种机器学习方法对Landsat 8 OLI原始9波段数据进行处理,获得结果如图 2所示。自适应增强法分类结果不够理想,获取的地层信息有限,最终分类结果仅3类,以柯坪塔格组砂岩为主,部分巴立克里克组灰岩及丘里塔格组灰岩被误分为柯坪塔格组砂岩,其他地层均为误分。极限随机树、直方梯度增强分类树、随机森林3种方法分类精度较高(表 2),能够有效地对19类地层进行学习判定,但和人工地质填图结果相比还存在较大差距。主要表现在:受纹理信息干扰严重,部分区域出现较大的误分现象,分类结果存在较多杂乱信息,第四系冲积区被误分为多种其他地层,西域组砾岩被误分为丘里塔格组灰岩。
![]() |
图 2 Landsat 9波段数据地层提取结果图(地层代号及岩性同表 1) Fig.2 Stratigraphic information extraction from Landsat data(9 bands) |
![]() |
表 2 Landsat 9波段数据地层提取精度分布 Table 2 Precision distribution of stratigraphic information extraction |
因自适应增强、袋装法2种方法在9波段数据地层分类实验中精度较低,故在实验后期只选用极限随机树、直方梯度增强分类树、随机森林3种方法。为提高分类精度,分别用主成分分析信息增强和波段比叠加信息增强2种方式进行数据增强处理。
判别原始遥感数据可以发现,研究区新生代地层具有较明显的条带纹理信息,古生代地层巴立克里克组灰岩不同程度地存在条带状、互层状花纹影像,康克林组灰岩存在树枝状影纹,克孜尔塔格组存在砂岩条带状、层状水系,衣木干他乌组砂岩存在斑块状影像特征,柯坪塔格组砂岩存在条带状、斑块状、互层状影像,丘里塔格组灰岩存在条带状影纹。为降低分类过程中同一地层内部纹理信息的影响,采用双边滤波的形式进行处理。如图 3所示,通过调整各波段灰度空间标准方差(S)和坐标空间标准方差(R),选取具有较高的边缘保持和内部平滑效果的实验参数,最终选定S=30, R=75,该参数在保持地层界线清晰的同时可有效地消除纹理信息。由图 3可见,克孜尔塔格组内部纹理及水系纹理被有效减弱。
![]() |
图 3 研究区不同参数双边滤波效果对比图 Fig.3 Comparison of bilateral filtering effects with different parameters in the study area |
采用主成分变换增强后,3种分类方法整体精度均有显著提升,第四系冲积区误分现象明显减弱,西域组砾岩被误分为丘里塔格组比例降低,丘里塔格组阴影及纹理噪声明显减弱(图 4)。进一步采用双边滤波算法进行处理后,部分因误分出现的杂乱噪声消失,分类精度分别提升至95.99%、95.55%、95.07%(表 3)。双边滤波处理后,极限随机树和随机森林方法能将第四系风积洪积物误分噪声有效剔除,西域组被误分为丘里塔格组灰岩现象基本消失,但丘里塔格组一段灰岩南部断面与北部顶部地层之间界线误分为西域组砾岩现象还有部分存在。
![]() |
图 4 主成分变换增强及主成分变换+双边滤波增强提取结果对比(地层代号和岩性同表 1) Fig.4 Comparison of enhanced extraction results of principal component transformation and principal component transformation + bilateral filtering |
![]() |
表 3 主成分变换数据增强后地层提取精度分布 Table 3 Stratigraphic information extraction accuracy distribution after enhanced by principal component transformation |
对9个波段的遥感数据进行波段比叠加方法数据增强后,采用机器学习方法提取地层,整体识别精度均超过93%,尤其是极限随机树方法达到94.18%(表 4)。该方法对于冲积区识别更明显。进一步,对波段比叠加增强后的数据进行双边滤波处理,整体分类精度超过95%,极限随机树精度达到97.4%,总体分类精度最高。双边滤波处理后,最显著的变化是丘里塔格组一段灰岩边界区域变化,同滤波前相比,边界区域消除了因阴影造成的混分现象(图 5)。滤波后西域组砾岩、巴立克里克组灰岩、
![]() |
表 4 波段比叠加数据增强后地层提取精度分布 Table 4 Stratigraphic information extraction accuracy distribution after enhanced by band ratio stack data |
![]() |
图 5 波段比叠加变换增强及波段比叠加+双边滤波增强提取结果对比(地层代号和岩性同表 1) Fig.5 Comparison of enhanced extraction results of band ratio superposition transform and band ratio superposition + bilateral filtering |
康克林组灰岩被误分为丘里塔格组灰岩现象消失。整体分类精度的提升表明,波段比叠加信息增强方法产生的45层数据信息相比于主成分变换产生的18层数据信息具有更好的分类效果,尤其是极限随机树方法和随机森林2种方法精度较高。结合以上实验结果可以看出,极限随机树和随机森林方法对于该区域地层信息提取具有较好的效果,尤其在主成分变换和波段比叠加进行信息增强后开展双边滤波,整体分类精度提升明显。比较野外地质填图资料,对遥感数据进行波段比叠加信息增强、开展双边滤波、采用随机森林方法提取结果制作索引图,使其与地质图资料具有相近的配色方案(图 6)。遥感影像最终分类结果与实际地质图具有较好的相似性,尤其是克孜尔塔格组数据一段与二段之间划分较明显。印干组与其周围岩层界面清晰。使用数据增强+双边滤波处理+机器学习算法提取沉积地层信息,对于该区域具有较好的利用价值,对地质填图工作也具有很好的辅助意义。
![]() |
图 6 机器学习提取结果与区域地质图对比(地层代号和岩性同表 1) Fig.6 Comparison of machine learning extraction results with regional geological maps |
(1) 利用主成分分析和波段比对遥感数据增强,有助于地层分类精度的提升,其中主成分变换数据增强效果更好。
(2) 利用双边滤波算法对遥感数据进行滤波处理,有助于提高整体地层分类精度的同时,能够使分类结果与地质图之间具有较好的契合度。
(3) 利用集成机器学习算法进行地层分类,整体分类精度较高,以极限随机树和随机森林分类效果最显著,分类效果明显,具有良好的稳定性。
利用机器学习方法要完全实现准确的地质填图,还需要结合其他地质、地球物理、地球化学等资料,才能够较细致全面地划分出高精度的地层界线。本文采用的方法在其他地质信息解译、地质填图中值得推广。更进一步可以考虑将该方法运用于地质填图领域深度学习算法数据增强与建模中,通过适当地引入地球物理数据,对于深部地质构造解译和地质找矿具有示范作用。但样本的选取在一定程度上和作业人员的地质认识具有关联性,降低该影响需要进一步研究。
致谢: 感谢原武警黄金第七支队战友野外的辛勤付出和审稿专家的意见。
Breiman L. Bagging predictors[J]. Machine Learning, 1996, 24(2): 123-140. |
Breiman L. Random Forests[J]. Machine Learning, 2001, 45(1). |
Freund Y. A decision-thoretic generalization of on-line learning and an application to boosting[J]. Journal of Computer and System Sciences, 1997, 55: 119-139. DOI:10.1006/jcss.1997.1504 |
Friedman J. Greedy Function Approximation: A Gradient Boosting Machine[J]. The Annals of Statistics, 2001, 29(5): 1189-1232. DOI:10.1214/aos/1013203450 |
Geurts P, Ernst D, Wehenkel L. Extremely randomized trees[J]. Machine Learning, 2006, 63(1): 3-42. DOI:10.1007/s10994-006-6226-1 |
Lakhlifa B, Amraoui T, Adnane T, et al. Geological mapping and mining prospecting in the Aouli inlier(Eastern Meseta, Morocco)based on remote sensing and geographic information systems(GIS)[J]. China Geology, 2022, 5(4): 614-629. |
Tomasi C, Manduchi R. Bilateral filtering for gray and color images[C]// International Conference on Computer Vision. IEEE, 2002.
|
陈虹, 杨晓, 田世攀, 等. 覆盖区智能地质填图的探索与实践——以森林沼泽区为例[J]. 地质通报, 2022, 41(2/3): 218-241. |
陈建平, 肖克炎, 李诗, 等. 基于机器学习的三维矿产定量预测——以四川拉拉铜矿为例[J]. 地质通报, 2019, 38(12): 2010-2021. DOI:10.12097/j.issn.1671-2552.2019.12.009 |
代友旭, 张新勇, 阎琨, 等. 新疆柯坪地区早二叠世玄武岩年代学、地球化学特征及其地质意义[J]. 地质科技情报, 2017(1): 1-13. |
戴均豪, 薛林福, 李忠潭, 等. 无人机遥感技术在甘肃北山地区地质填图中的应用[J]. 吉林大学学报(地球科学版), 2021, 51(6): 1908-1920. |
范湘涛, 卢华复, 石火生, 等. 柯坪地区构造弱信息提取及左行走滑断层证据[J]. 高校地质学报, 2000, 6(1): 23-28. DOI:10.3969/j.issn.1006-7493.2000.01.003 |
韩玲, 杨军录, 陈劲松. 遥感信息提取及地质解译[M]. 北京: 科学出版社, 2017.
|
何文熹, 王磊, 杨玉龙. 基于Landsat 8影像赤壁-嘉鱼地区岩性划分效果分析[J]. 华南地质与矿产, 2019, 35(2): 261-269. |
李俊峰. 双边滤波算法的快速实现及其在图像处理的应用[D]. 南方医科大学硕士学位论文, 2013.
|
李娜, 甘甫平, 董新丰, 等. 高分五号卫星高光谱数据岩性-构造解译初步应用评价[J]. 上海航天, A2:188-192, 2019, A2: 188-192, 199. |
李欣海. 随机森林模型在分类与回归分析中的应用[J]. 应用昆虫学报(昆虫知识), 2013, 50(4): 1190-1197. |
马梓程, 帅爽, 安志宏, 等. 基于RF模型的火成岩提取与分类研究——以吉布提阿里萨比耶地区为例[C]// 国家安全地球物理丛书(十五)——丝路环境与地球物理. 2019.
|
时丕龙, 付碧宏, 二宫芳树. 基于ASTER VNIR—SWIR多光谱遥感数据识别与提取干旱地区岩性信息——以西南天山柯坪隆起东部为例[J]. 地质科学, 2010, 45(1): 333-347. |
王建刚, 叶发旺, 邱骏挺, 等. 遥感岩性识别分类研究[J]. 世界核地质科学, 2020(1): 10-22. |
王明常, 张馨月, 张旭晴, 等. 基于极限学习机的GF-2影像分类[J]. 吉林大学学报(地球科学版), 2018, 48(2): 373-378. |
吴志春, 郭福生, 李华亮, 等. 主成分分析法在相山火山盆地蚀变分带解译中的应用[J]. 大地构造与成矿学, 2020, 44(3): 385-403. |
熊越晗, 刘东燕, 刘东升, 等. 基于岩样细观图像深度学习的岩性自动分类方法[J]. 吉林大学学报(地球科学版), 2021, 51(5): 1597-1604. |
阎琨, 赵志刚, 马伟, 等. 塔里木柯坪地区上奥陶统印干组碳酸盐岩微相和古地理[J]. 新疆地质, 2019, 37(3): 363-367. |
于长春, 孙杰, 张迪硕, 等. 基于多源遥感与航空物探数据的岩性分类方法[J]. 地质通报, 2022, 41(2/3): 210-217. |
张志臣, 韩忠, 刘晓煌, 等. 新疆哈拉奇地区泥盆纪层序地层学特征及沉积环境[J]. 地质通报, 2014, 33(1): 51-59. |