衛(wèi)星雖被形象地稱為“天眼”,事實(shí)上衛(wèi)星數(shù)據(jù)的應(yīng)用,卻難以做到“盡收盡用”。
中國工程院院士楊小牛就曾經(jīng)表示,衛(wèi)星在天上飛來飛去,效能其實(shí)并不高,每天只有幾十分鐘時(shí)段內(nèi)采集到的數(shù)據(jù)是地面需要的。
那些大量的被認(rèn)為是無效數(shù)據(jù)的“廢片”,有沒有可能被利用起來?
近日,清華大學(xué)理學(xué)院院長、地球系統(tǒng)科學(xué)系主任宮鵬介紹,在高性能云計(jì)算的支持下,通過數(shù)據(jù)建模、人工智能算法等手段,清華大學(xué)地球系統(tǒng)科學(xué)系制作完成了首套中國30米逐日無縫遙感觀測(cè)數(shù)據(jù)集,以及逐季節(jié)土地覆蓋和逐年土地利用的數(shù)據(jù)集,讓“拼圖無解”的衛(wèi)星“廢片”能夠成為高分辨率的地圖資源。
人工智能深度“補(bǔ)片”
“傳統(tǒng)的對(duì)地衛(wèi)星觀測(cè),拍下來的照片是不同時(shí)間采集的,拼在一起并不完整,使用門檻很高?!睂m鵬解釋,衛(wèi)星直接獲得的圖片不能拿來直接用,因?yàn)樾l(wèi)星圖片不是自然連續(xù)的,很可能像100塊的拼圖,有時(shí)候是少了50塊的效果,但也有可能同樣的拼圖來了好幾塊。
不止如此,衛(wèi)星軌道的偏差還會(huì)造成同一地方不同時(shí)間拍攝的圖片難以重疊,云彩的遮擋、霧氣不均勻的散射都會(huì)導(dǎo)致大量的衛(wèi)星遙感數(shù)據(jù)難以反映地表的真實(shí)情況,而成為難用的“廢片”。
基于此前完成10米分辨率全球地表覆蓋制圖數(shù)據(jù)處理過程中積累的經(jīng)驗(yàn),清華大學(xué)地球系統(tǒng)科學(xué)系團(tuán)隊(duì)自主研發(fā)了時(shí)空數(shù)據(jù)融合重建的技術(shù)。
“我們構(gòu)建了人工智能需要的知識(shí)庫,其中包括世界首套全球全季節(jié)普適樣本庫和相關(guān)領(lǐng)域知識(shí)。庫中分為訓(xùn)練樣本庫和完全獨(dú)立的驗(yàn)證樣本庫?!鼻迦A大學(xué)博士生劉涵介紹,團(tuán)隊(duì)設(shè)計(jì)了一套適應(yīng)遙感大數(shù)據(jù)的深度遙感特征學(xué)習(xí)和分類模型,利用機(jī)器學(xué)習(xí)和數(shù)據(jù)建模對(duì)人工智能系統(tǒng)進(jìn)行了訓(xùn)練,使其能夠“理解”或者說“推斷”出缺失的圖塊,進(jìn)而補(bǔ)缺。
“就好像現(xiàn)在一些APP身份驗(yàn)證時(shí),會(huì)有一個(gè)補(bǔ)圖的步驟,經(jīng)過訓(xùn)練的模型,也可以大規(guī)模分析現(xiàn)有的衛(wèi)星圖片,自動(dòng)補(bǔ)圖,且做到數(shù)據(jù)與真實(shí)情況相符合?!眲⒑f。
通過訓(xùn)練,模型可完成高性能的推理,把不完整的“拼圖”重建成時(shí)空一致的圖像庫,建立起這一深度遙感制圖模型的“超能力”,完成各種不合格“廢片”的補(bǔ)片工作,從而生成與真實(shí)情況相匹配的遙感觀測(cè)數(shù)據(jù)集。例如通過人工智能技術(shù)可識(shí)別路面是瀝青、土路還是水泥路面等地表覆蓋類型。
計(jì)算上云避免巨大資源消耗
“地球系統(tǒng)科學(xué)使用和產(chǎn)生的數(shù)據(jù)是極其巨大的,例如氣候模擬和預(yù)測(cè)會(huì)生成時(shí)間間隔在小時(shí)級(jí)、地面分辨率是3公里的氣候數(shù)據(jù),這些數(shù)據(jù)的數(shù)據(jù)量級(jí)往往相當(dāng)于數(shù)百萬集高清電影的量級(jí)?!睂m鵬介紹,因此需要超強(qiáng)算力來完成。
如果為這些數(shù)據(jù)進(jìn)行數(shù)據(jù)中心建設(shè)的話,需要三四百個(gè)機(jī)柜,占地成本和時(shí)間成本耗費(fèi)巨大。對(duì)這些數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行AI處理時(shí),如果不在云上進(jìn)行而是搬運(yùn)下載后再運(yùn)算,那光是用來搬運(yùn)的時(shí)間也可能需要幾個(gè)月。
而通過云上高性能計(jì)算,則能夠把算力部署在公共數(shù)據(jù)集周邊,圍繞數(shù)據(jù)進(jìn)行計(jì)算。據(jù)介紹,亞馬遜云服務(wù)(AWS)為此次項(xiàng)目的完成提供了10萬核左右的云上高性能計(jì)算資源。
此外,AWS上還提供一整套完善的人工智能和機(jī)器學(xué)習(xí)的套件和服務(wù)以及自動(dòng)化多層堆疊集成技術(shù),可用于對(duì)模型結(jié)構(gòu)和參數(shù)進(jìn)行深度調(diào)優(yōu),并進(jìn)行分布式高性能推理。
“現(xiàn)在中學(xué)生、小學(xué)生想拿數(shù)據(jù)做點(diǎn)什么,從里面拉幾條曲線,或者把一個(gè)區(qū)域拿出來做一些探測(cè)、變化、趨勢(shì)的分析,都已經(jīng)變得非常容易?!睂m鵬說,對(duì)于衛(wèi)星公共數(shù)據(jù)的梳理、重建,讓衛(wèi)星遙感圖的使用門檻大大降低,如果說之前只有專業(yè)用戶能從數(shù)據(jù)中獲得價(jià)值,那么以后更多的普通用戶也能看懂和利用這些數(shù)據(jù)。(記者 張佳星)