版權(quán)歸原作者所有,如有侵權(quán),請(qǐng)聯(lián)系我們

[科普中國(guó)]-概念漂移

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識(shí)科普陣地
收藏

在預(yù)測(cè)分析和機(jī)器學(xué)習(xí)的概念漂移表示目標(biāo)變量的統(tǒng)計(jì)特性隨著時(shí)間的推移以不可預(yù)見(jiàn)的方式變化的現(xiàn)象。隨著時(shí)間的推移,模型的預(yù)測(cè)精度將降低。

該術(shù)語(yǔ)的概念指的是要被預(yù)測(cè)的目標(biāo)變量。更一般地,它也可以指其他感興趣的現(xiàn)象之外的目標(biāo)的概念,諸如輸入,但是在概念漂移的上下文中,術(shù)語(yǔ)通常指的是目標(biāo)變量。

例子在欺詐檢測(cè)應(yīng)用程序中,目標(biāo)概念可以是具有值“是”或“否”的二進(jìn)制屬性FRAUDULENT,其指示給定交易是否是欺詐性的?;蛘?,在天氣預(yù)報(bào)應(yīng)用中,可能存在若干目標(biāo)概念,例如TEMPERATURE,PRESSURE和HUMIDITY。

在線商店中的客戶的行為可能隨時(shí)間而改變。例如,如果要預(yù)測(cè)每周的商品銷售,并且已經(jīng)開(kāi)發(fā)出令人滿意的預(yù)測(cè)模型。該模型可以使用諸如廣告花費(fèi)的金額,正在運(yùn)行的促銷以及可能影響銷售的其他指標(biāo)等輸入。隨著時(shí)間的推移,模型可能變得越來(lái)越不準(zhǔn)確 - 這就是概念漂移。在商品銷售應(yīng)用中,概念漂移的一個(gè)原因可能是季節(jié)性,這意味著購(gòu)物行為會(huì)季節(jié)性變化。例如,冬季假期的銷售額可能高于夏季。

可能的補(bǔ)救措施為了防止由于概念漂移導(dǎo)致的預(yù)測(cè)精度的惡化,可以采用有源和無(wú)源解決方案。主動(dòng)解決方案依賴于觸發(fā)機(jī)制,例如變化檢測(cè)測(cè)試(Basseville和Nikiforov 1993; Alippi和Roveri,2007),以明確地將概念漂移檢測(cè)為數(shù)據(jù)生成過(guò)程統(tǒng)計(jì)數(shù)據(jù)的變化。在靜止條件下,可以集成任何可用的新信息來(lái)改進(jìn)模型。不同的是,當(dāng)檢測(cè)到概念漂移時(shí),當(dāng)前模型不再是最新的,必須用新的模型替換以保持預(yù)測(cè)準(zhǔn)確性(Gama等,2004; Alippi等,2011)。相反,在被動(dòng)解決方案中,模型不斷更新,例如,通過(guò)在最近觀察到的樣本上重新訓(xùn)練模型(Widmer和Kubat,1996),或強(qiáng)制執(zhí)行一組分類器(Elwell和Polikar 2011)。

軟件RapidMiner(以前的YALE(又一個(gè)學(xué)習(xí)環(huán)境)):用于知識(shí)發(fā)現(xiàn),數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的免費(fèi)開(kāi)源軟件,還具有數(shù)據(jù)流挖掘,學(xué)習(xí)時(shí)變概念和跟蹤漂移概念(如果與其結(jié)合使用) 數(shù)據(jù)流挖掘插件(原名:概念漂移插件)1。

EDDM(EDDM(早期漂移檢測(cè)方法)):Weka(機(jī)器學(xué)習(xí))中漂移檢測(cè)方法的免費(fèi)開(kāi)源實(shí)現(xiàn)。

MOA(大規(guī)模在線分析):免費(fèi)的開(kāi)源軟件,專門用于挖掘具有概念漂移的數(shù)據(jù)流。 它包含一個(gè)前序評(píng)估方法,EDDM概念漂移方法,ARFF真實(shí)數(shù)據(jù)集的讀者,以及作為SEA概念的人工流生成器,STAGGER,旋轉(zhuǎn)超平面,隨機(jī)樹和基于隨機(jī)半徑的函數(shù)。 MOA支持與Weka(機(jī)器學(xué)習(xí))的雙向交互。

本詞條內(nèi)容貢獻(xiàn)者為:

王慧維 - 副研究員 - 西南大學(xué)