卡塔爾世界杯自 2010 年榮膺舉辦權(quán),直至 2022 年輝煌成功舉辦,累計(jì)投入資金高達(dá)約 2,290 億美元。相較之下,此前七屆世界杯的總花費(fèi)僅約 400 多億美元。這場(chǎng)體育盛事展現(xiàn)出奢華無(wú)度的風(fēng)采,歸根結(jié)底源于卡塔爾這個(gè)國(guó)度的深厚底蘊(yùn)。正所謂「家中有礦,心中不慌」,卡塔爾正是憑借豐厚的礦產(chǎn)資源,得以盡情揮灑鈔票,打造一場(chǎng)場(chǎng)視聽(tīng)盛宴。
礦產(chǎn)資源,對(duì)個(gè)人而言,意味著取之不盡的巨額財(cái)富,令人神往;對(duì)社會(huì)而言,則是經(jīng)濟(jì)社會(huì)發(fā)展的重要支柱,關(guān)乎國(guó)計(jì)民生和國(guó)家安全。然而,礦產(chǎn)資源并非唾手可得,它們藏于地下數(shù)百米之處,往往要?dú)v經(jīng)千辛萬(wàn)苦,才能勘查出寶貴的礦產(chǎn)資源。
隨著礦產(chǎn)勘查學(xué)科的不斷發(fā)展,業(yè)內(nèi)已經(jīng)逐步形成以「成礦系統(tǒng)-勘查系統(tǒng)-預(yù)測(cè)評(píng)價(jià)系統(tǒng)」為指導(dǎo)的研究路線。盡管人工智能在礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià) (MPM) 系統(tǒng)中發(fā)揮著越來(lái)越重要的作用,但其應(yīng)用仍存在一定的局限性,往往使得地質(zhì)學(xué)家難以相信最終結(jié)果。
為了提升成礦預(yù)測(cè)模型的可解釋性,以及成礦過(guò)程中因地質(zhì)因素導(dǎo)致的空間非平穩(wěn)性,浙江大學(xué)的研究團(tuán)隊(duì)提出了一種新的地理空間人工智能方法——地理神經(jīng)網(wǎng)絡(luò)加權(quán)邏輯回歸 (geographically neural network-weighted logistic regression, GNNWLR)。
該模型集成了空間模式 (spatial patterns) 和神經(jīng)網(wǎng)絡(luò),結(jié)合 Shapley 加性解釋理論,不但能夠大幅提升預(yù)測(cè)的準(zhǔn)確性,并且能夠在復(fù)雜的空間場(chǎng)景中提升礦物預(yù)測(cè)的可解釋性。
MPM 過(guò)程
研究亮點(diǎn)
* 提出了一種地理神經(jīng)網(wǎng)絡(luò)加權(quán)邏輯回歸模型 GNNWLR
* GNNWLR 在礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià)方面優(yōu)于其他先進(jìn)模型
* GNNWLR 克服了空間異質(zhì)性和非線性影響
* GNNWLR 提升了人工智能用于成礦機(jī)制的可解釋性
論文地址:
https://doi.org/10.1016/j.jag.2024.103746
角逐全球 MPM 試驗(yàn)場(chǎng):加拿大新斯科舍省 Meguma 地區(qū)
該研究主要圍繞加拿大新斯科舍省西部面積約 7,800 平方公里的 Meguma 群,該地區(qū)主要覆蓋草原和森林。Meguma 地體由兩層地層組成,下層為 Goldenville 群地層,主要由變質(zhì)砂巖組成。上層為 Halifax 群地層,由頁(yè)巖復(fù)雜巖石組成。
由于阿卡迪亞造山運(yùn)動(dòng)和泥盆紀(jì)花崗巖的侵位作用,該地區(qū)形成了一系列北東-南西走向的褶皺構(gòu)造,已成為多種礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià)系統(tǒng)的試驗(yàn)場(chǎng)。
簡(jiǎn)化的地質(zhì)圖和要素圖層
研究區(qū)域內(nèi)共有 20 處濁積巖金礦床。因此,該研究使用了 6 個(gè)特征層,包括背斜構(gòu)造因素,Goldenville 和 Halifax 地層之間的接觸因素,以及銅 (Cu)、鉛 (Pb)、砷 (As) 和鋅 (Zn) 等化學(xué)元素。
其中,該研究對(duì)背斜以及 Goldenville 和 Halifax 地層之間的接觸面,進(jìn)行了多環(huán)緩沖區(qū)分析 (multiple-ring buffer analysis),以 0.5km 的間隔分配相應(yīng)權(quán)重,共形成了 16 個(gè)緩沖區(qū)環(huán)。同時(shí),該研究還對(duì) 671 個(gè)含有化學(xué)元素的湖泊沉積物樣品進(jìn)行了反距離加權(quán)插值 (IDW)。最后,該研究對(duì)整個(gè)研究區(qū)域進(jìn)行網(wǎng)格化處理,將所有特征層統(tǒng)一為 1km x 1km 的柵格數(shù)據(jù)。
由于 20 個(gè)正樣本相對(duì)于整個(gè)研究區(qū)域而言仍然太小,正負(fù)樣本的比例比較容易出現(xiàn)不平衡的情況。所以,該研究還對(duì)緩沖區(qū)進(jìn)行了分析,圍繞 20 個(gè)正樣本點(diǎn)劃分 2km 半徑,然后進(jìn)行柵格化分析。
最終,該研究共獲得 245 個(gè)陽(yáng)性樣本,代表此處存在礦藏,其他則表示不存在。同時(shí),該研究從負(fù)樣本集中隨機(jī)選擇與正樣本相同數(shù)量的數(shù)據(jù),并與正樣本合并以創(chuàng)建訓(xùn)練集和驗(yàn)證集。
GNNWR 模型:有效集成神經(jīng)網(wǎng)絡(luò)
由于地理神經(jīng)網(wǎng)絡(luò)加權(quán)回歸 (GNNWR) 的模型結(jié)構(gòu)使用了均方誤差,直接將其應(yīng)用于礦產(chǎn)資源預(yù)測(cè)評(píng)價(jià)中可能會(huì)帶來(lái)收斂挑戰(zhàn)。研究證明,交叉熵比均方誤差更具實(shí)用性?xún)?yōu)勢(shì)。因此,該研究采用了專(zhuān)門(mén)為邏輯回歸設(shè)計(jì)的損失函數(shù)——二元交叉熵 (binary cross-entropy, BCE)。在此背景下,GNNWLR 首先計(jì)算每個(gè)數(shù)據(jù)點(diǎn)的空間坐標(biāo),與訓(xùn)練數(shù)據(jù)集中其他數(shù)據(jù)點(diǎn)的空間坐標(biāo)之間的距離,并以此作為輸入,進(jìn)行 dropout 正則化并防止過(guò)度擬合。
其次,該研究通過(guò)神經(jīng)網(wǎng)絡(luò)輸出的空間權(quán)重向量,與最小二乘法得出的系數(shù)和自變量的值進(jìn)行點(diǎn)積運(yùn)算,隨后應(yīng)用邏輯回歸函數(shù)生成最終的預(yù)測(cè)值。
最終,該研究使用二元交叉熵?fù)p失函數(shù)計(jì)算相對(duì)于實(shí)際值的損失,并以此指導(dǎo)神經(jīng)網(wǎng)絡(luò)進(jìn)行負(fù)反饋調(diào)整。
GNNWLR 模型構(gòu)建
在該研究中,研究人員還針對(duì)目前最為常見(jiàn)的地理加權(quán)回歸 (GWR)、支持向量機(jī) (SVM)、隨機(jī)森林 (RF)、地理加權(quán)邏輯回歸 (GWLR)、地理加權(quán)支持向量回歸 (GWSVR)、隨機(jī)森林 (GWRF) 模型進(jìn)行比較。
具體來(lái)看,該研究采用五折交叉驗(yàn)證 (five-fold cross-validation),將 20 個(gè)礦床隨機(jī)分為 5 個(gè)序列,每個(gè)序列有 4 個(gè)礦床,然后對(duì)這 4 個(gè)礦床進(jìn)行緩沖半徑為 2km 的緩沖分析,以獲得每個(gè)序列的陽(yáng)性樣本。類(lèi)似地,該研究還匹配正樣本數(shù)量從負(fù)樣本池中隨機(jī)選擇負(fù)樣本,并且每個(gè)負(fù)樣本在五折交叉驗(yàn)證中僅出現(xiàn)一次。
依據(jù)五折交叉驗(yàn)證理論,其中 4 份樣本集被用于訓(xùn)練,1 份樣本集被用于驗(yàn)證,這個(gè)過(guò)程重復(fù) 5 次,每個(gè)序列分別作為一次驗(yàn)證集,最終將五折交叉驗(yàn)證得到的訓(xùn)練集和驗(yàn)證集進(jìn)行合并。
從結(jié)果來(lái)看,由于 GNNWLR 模型對(duì)神經(jīng)網(wǎng)絡(luò)的有效集成,GNNWLR 明顯優(yōu)于其他模型,在礦物分類(lèi)方面表現(xiàn)出卓越的擬合和預(yù)測(cè)能力,AUC 為 0.913,較其他模型高出 5%-16%。同時(shí),GWRF 和 GWSVR 也明顯優(yōu)于 RF 和 SVM,這可能是因?yàn)樗鼈兌冀Y(jié)合了地理加權(quán)回歸 (GWR),可以更準(zhǔn)確地描述空間變量之間的局部關(guān)系。
各模型性能比較,GNNWLR 表現(xiàn)最優(yōu)
所有模型的 MPM 圖也都直觀表明,新斯科舍省的礦產(chǎn)前景在空間上存在較大差異,東北地區(qū)的得分整體更高,與礦床的實(shí)際位置一致。然而,面對(duì)遠(yuǎn)離集中區(qū)的金礦資源,GNNWLR 可以發(fā)現(xiàn)更多容易被其他模型忽略的礦床。
例如,GNNWLR 在「區(qū)域1」的得分高達(dá) 0.985,而 GWSVR、GWRF、GWLR、SVM、RF 和 GWR 模型的相應(yīng)得分僅為 0.288、0438、0.471、0.133、0.383 和 0.290 。
不同模型獲得金礦床的預(yù)期目標(biāo)區(qū)域
此外,RF 和 SVM 模型在「區(qū)域 2」和「區(qū)域 3」中表現(xiàn)出突然跳躍,這影響了它們的準(zhǔn)確性和可靠性。GNNWLR、GWLR 和 GWR 模型考慮了成礦因素的空間鄰近性和異質(zhì)性,可以防止傳統(tǒng)機(jī)器學(xué)習(xí)模型中常見(jiàn)的突變的發(fā)生。據(jù)觀察,GNNWLR 在捕獲這些因素之間復(fù)雜的非線性關(guān)系(特別是與空間變化相關(guān)的因素)方面,表現(xiàn)出卓越的能力。
因此,GNNWLR 在預(yù)測(cè)礦產(chǎn)前景方面,表現(xiàn)出相對(duì)無(wú)縫的過(guò)渡,顯示出與經(jīng)驗(yàn)數(shù)據(jù)一致的更高精度和一致性。
SHAP 可定量分析成礦影響因素
為了提高模型評(píng)估的可解釋性,該研究集成并使用整個(gè)數(shù)據(jù)集的正樣本集,計(jì)算 GNNWLR 中相關(guān)位置的礦產(chǎn)前景特征。
結(jié)果表明,As 對(duì)模型輸出的影響最大,并與 SHAP 值呈現(xiàn)正相關(guān),As 值越大,SHAP 值越高,礦化的可能性越大,這可能由于 As 是一種低溫?zé)嵋涸?,常與金礦床相關(guān)。類(lèi)似地,Zn 對(duì)許多礦區(qū)都有負(fù)面影響,而 Cu 的影響最不顯著。其中,As、Pb 是與雄黃和方鉛礦等礦物伴生的低溫?zé)嵋涸?,Zn 和 Cu 是形成閃鋅礦和黃銅礦等礦物的中溫?zé)嵋涸?。綜上所述,該地區(qū)的金礦形成與低溫?zé)嵋哼^(guò)程密切相關(guān)。
6 個(gè)要素圖層的 SHAP 值
通過(guò)對(duì)不同區(qū)域不同特征的礦化影響進(jìn)行評(píng)估,該研究發(fā)現(xiàn)「區(qū)域 4」的礦化與背斜和 Pb 強(qiáng)相關(guān),「區(qū)域 5」存在兩個(gè)礦藏,其中北部礦床受 Cu、Pb、Zn、As 四種元素的積極影響,表明該低區(qū)同時(shí)具有中溫?zé)嵋汉偷蜏責(zé)嵋撼傻V作用;南部礦床受到 Zn 和 As 的正向影響,表明其中以中溫?zé)嵋簽橹鳌?/p>
結(jié)合新斯科舍省自然資源部的鉆探數(shù)據(jù),「區(qū)域 5」北部礦床有 39 條和金礦有關(guān)的地質(zhì)鉆探記錄,涉及多種低溫中溫?zé)嵋旱V物,「區(qū)域 5」南部礦床與金礦相關(guān)的地質(zhì)鉆探記錄僅有 4 條,礦床區(qū)主要含有硫化物、毒砂等中溫?zé)嵋旱V物?!竻^(qū)域 6」的礦化與背斜接觸密切相關(guān),這也證實(shí)了基于 SHAP 值的空間分布對(duì)礦化類(lèi)型的推斷。
區(qū)域5兩個(gè)礦床鉆探數(shù)據(jù)中其他礦物與金礦共生的頻率
綜上,基于 SHAP 值的模型可以對(duì)整個(gè)空間域內(nèi)影響成礦結(jié)果的各種因素進(jìn)行定量分析,具有卓越的可解釋性并符合地球科學(xué)原理。同時(shí),該研究還比較了 SHAP 值與回歸系數(shù)的空間分布圖。結(jié)果表明,回歸系數(shù)的空間分布并不完全符合地質(zhì)規(guī)律。因此,SHAP 值比傳統(tǒng)的回歸系數(shù)更有意義,更易于學(xué)者參考。
GNNWLR模型6個(gè)特征層回歸系數(shù)的空間分布
浙江大學(xué)杜震洪教授:專(zhuān)注時(shí)空大數(shù)據(jù)與人工智能科研工作
浙江大學(xué)地球科學(xué)學(xué)院杜震洪教授所帶領(lǐng)的研究團(tuán)隊(duì),長(zhǎng)期從事遙感與地理信息系統(tǒng)、時(shí)空大數(shù)據(jù)與人工智能的科研工作,在面向地理、海洋、地質(zhì)災(zāi)害等領(lǐng)域的時(shí)空大數(shù)據(jù)分析基礎(chǔ)理論與關(guān)鍵技術(shù)研究上取得了系列成果,正帶領(lǐng)團(tuán)隊(duì)將 GIS、遙感、計(jì)算機(jī)科學(xué)與地理、海洋、地質(zhì)等充分融合,展開(kāi)探索數(shù)據(jù)驅(qū)動(dòng)的地學(xué)發(fā)展新篇章。
參考資料:
1.https://www.zast.org.cn/art/2022/12/8/art_1675105_58963288.html