版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-分段特征

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

簡介

分段特征是指將研究對象的特征分成不同的部分或是指將一個特征分成不同部分。分段特征是特征工程的一部分,通過分段特征,更好地理解和識別特征有關(guān)特性,從而更精確地進行識別對象或特征識別,例如將圖像轉(zhuǎn)化為空間頻率域,用卷積神經(jīng)網(wǎng)絡(luò)識別圖像等。

空間頻率域以空間頻率(即波數(shù))為自變量描述圖像的特征,可以將一幅圖像像元值在空間上的變化分解為具有不同振幅、空間頻率和相位的簡振函數(shù)的線性疊加,圖像中各種空問頻率成分的組成和分布稱為空間頻譜。這種對圖像的空間頻率特征進行分解、處理和分析稱為空間頻率域處理或波數(shù)域處理。和時間域與頻率域可互相轉(zhuǎn)換相似,空間域與空間頻率域也可互相轉(zhuǎn)換。在空間頻率域中可以引用已經(jīng)很成熟的頻率域技術(shù),處理的一般步驟為:對圖像施行二維離散傅立葉變換或小波變換,將圖像由圖像空間轉(zhuǎn)換到頻域空間。在空間頻率域中對圖像的頻譜作分析處理,以改變圖像的頻率特征。即設(shè)計不同的數(shù)字濾波器,對圖像的頻譜進行濾波。頻率域處理主要用于與圖像空間頻率有關(guān)的處理中。如圖像恢復(fù)、圖像重建、輻射變換、邊緣增強、圖像銳化、圖像平滑、噪聲壓制、頻譜分析、紋理分析等處理和分析中。

卷積神經(jīng)網(wǎng)絡(luò)1962 年,生物學(xué)家 Hubel 和 Wiesel 通過對貓腦視覺皮層的研究,發(fā)現(xiàn)在視覺皮層中存在一系列復(fù)雜構(gòu)造的細胞,這些細胞對視覺輸入空間的局部區(qū)域很敏感,它們被稱為“感受野”。感受野以某種方式覆蓋整個視覺域,它在輸入空間中起局部作用,因而能夠更好地挖掘出存在于自然圖像中強烈的局部空間相關(guān)性。被稱為感受野的這些細胞分為簡單細胞和復(fù)雜細胞兩種類型。根據(jù)Hubel-Wiesel 的層級模型,在視覺皮層中的神經(jīng)網(wǎng)絡(luò)有一個層級結(jié)構(gòu):LGB(外側(cè)膝狀體)→簡單細胞→復(fù)雜細胞→低階超復(fù)雜細胞→高階超復(fù)雜細胞。低階超復(fù)雜細胞與高階超復(fù)雜細胞之間的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)類似于簡單細胞和復(fù)雜細胞間的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在該層級結(jié)構(gòu)中,處于較高階段的細胞通常會有這樣一個傾向:對刺激模式更復(fù)雜的特征進行選擇性響應(yīng);同時也具有一個更大的感受野,對刺激模式位置的移動也更不敏感1。1980 年,F(xiàn)ukushima 根據(jù) Huble 和 Wiesel 的層級模型提出了結(jié)構(gòu)與之類似的神經(jīng)認知機(Neocognitron)。神經(jīng)認知機采用簡單細胞層(S-layer,S 層)和復(fù)雜細胞層(C-layer,C 層)交替組成,其中 S 層與Huble-Wiesel 層級模型中的簡單細胞層或者低階超復(fù)雜細胞層相對應(yīng),C 層對應(yīng)于復(fù)雜細胞層或者高階超復(fù)雜細胞層。S 層能夠最大程度地響應(yīng)感受野內(nèi)的特定邊緣刺激,提取其輸入層的局部特征,C層對來自確切位置的刺激具有局部不敏感性。盡管在神經(jīng)認知機中沒有像 BP 算法那樣的全局監(jiān)督學(xué)習(xí)過程可利用,但它仍可認為是 CNN 的第一個工程實現(xiàn)網(wǎng)絡(luò),卷積和下采樣分別受啟發(fā)于Hubel-Wiesel 概念的簡單細胞和復(fù)雜細胞,它能夠準確識別具有位移和輕微形變的輸入模式。隨后,LeCun 等基于 Fukushima 的研究工作使用誤差梯度回傳方法設(shè)計并訓(xùn)練了 CNN(該模型稱為LeNet-5),LeNet-5 是經(jīng)典的 CNN 結(jié)構(gòu),后續(xù)有許多工作基于此進行改進,它在一些模式識別領(lǐng)域中取得了良好的分類效果。CNN 的基本結(jié)構(gòu)由輸入層、卷積層、取樣層、全連接層及輸出層構(gòu)成。卷積層和取樣層一般會取若干個,采用卷積層和取樣層交替設(shè)置,即一個卷積層連接一個取樣層,取樣層后再連接一個卷積層,依此類推。由于卷積層中輸出特征面的每個神經(jīng)元與其輸入進行局部連接,并通過對應(yīng)的連接權(quán)值與局部輸入進行加權(quán)求和再加上偏置值,得到該神經(jīng)元輸入值,該過程等同于卷積過程,卷積神經(jīng)網(wǎng)絡(luò)也由此而得名。

特征工程特征工程是機器學(xué)習(xí)領(lǐng)域的一個重要概念,目前并沒有普遍接受的定義,一般可以認為是為機器學(xué)習(xí)應(yīng)用而設(shè)計特征集的相關(guān)工作。主要涉及兩個方面的因素:a)了解要解決的問題和要使用的機器學(xué)習(xí)算法的優(yōu)勢和限制;b)進行實踐,通過實驗從而更好地掌握哪種特征更為合理,哪種特征并不符合所處理的問題或所選擇的機器學(xué)習(xí)方法。這兩方面的影響因素可以是一個螺旋式迭代過程,對問題自頂而下的理解有助于實驗工作的展開;同時在實驗中所獲得的自底而上的信息者會幫助更好地理解要解決的問題,揭示蘊涵的問題本質(zhì)。圖像理解是機器學(xué)理論的重要應(yīng)用領(lǐng)域,特征工程自然在整個圖像理解中占有舉足輕重的地位。近年來,圖像整體場景理解雖然在復(fù)雜性和綜合性方面遠勝于基本圖像理解任務(wù),但其在各項研究和工程實踐中均展示了卓越的性能,因而成為了當前圖像理解研究中的熱點和難點?;诟怕收摵蛨D論的模型能很好地刻畫這種整體性, 成為了當前整體場景理解中普遍采用的模型。要利用概率圖模型的方法開展整體場景理解(顯著性檢測、場景分類、多類圖像分割、模型集成等)研究,獲取整體場景理解所需數(shù)據(jù)即提取相關(guān)特征是其第一項基礎(chǔ)性任務(wù)2。

特征選擇在機器學(xué)習(xí)和統(tǒng)計學(xué)中,特征選擇(英語:feature selection)也被稱為變量選擇、屬性選擇 或變量子集選擇 。它是指:為了構(gòu)建模型而選擇相關(guān)特征(即屬性、指標)子集的過程。使用特征選擇技術(shù)有三個原因:簡化模型,使之更易于被研究人員或用戶理解,縮短訓(xùn)練時間3,改善通用性、降低過擬合(即降低方差 )。要使用特征選擇技術(shù)的關(guān)鍵假設(shè)是:訓(xùn)練數(shù)據(jù)包含許多冗余 或無關(guān) 的特征,因而移除這些特征并不會導(dǎo)致丟失信息。 冗余 或無關(guān) 特征是兩個不同的概念。如果一個特征本身有用,但如果這個特征與另一個有用特征強相關(guān),且那個特征也出現(xiàn)在數(shù)據(jù)中,那么這個特征可能就變得多余。特征選擇技術(shù)與特征提取有所不同。特征提取是從原有特征的功能中創(chuàng)造新的特征,而特征選擇則只返回原有特征中的子集。 特征選擇技術(shù)的常常用于許多特征但樣本(即數(shù)據(jù)點)相對較少的領(lǐng)域。特征選擇應(yīng)用的典型用例包括:解析書面文本和微陣列數(shù)據(jù),這些場景下特征成千上萬,但樣本只有幾十到幾百個。特征選取方法可以分為包裝(wrapper)、 過濾(filter)和嵌入(embedded)方法。包裝類型方法采用預(yù)測模型方式,對每一子集特征通過錯誤率進行評分。由于對每一子集特征都需要進行打分, 包裝類型算法往往計算代價高, 所以很難被運用到大規(guī)模數(shù)據(jù)挖掘分析工作中。過濾類型方法通過一種代理評價標準而非錯誤率來評估子集特征。嵌入類型方法將特征選擇技術(shù)嵌入到模型訓(xùn)練中, 比如最小絕對收縮和選擇算子(least absolute shrinkage and selection operator, LASSO) 在構(gòu)建線性模型時, 通過回歸系數(shù)壓縮特征, 僅選取在這一階段中系數(shù)不為零的特征。

特征學(xué)習(xí)在機器學(xué)習(xí)中,特征學(xué)習(xí)或表征學(xué)習(xí)是學(xué)習(xí)一個特征的技術(shù)的集合:將原始數(shù)據(jù)轉(zhuǎn)換成為能夠被機器學(xué)習(xí)來有效開發(fā)的一種形式。它避免了手動提取特征的麻煩,允許計算機學(xué)習(xí)使用特征的同時,也學(xué)習(xí)如何提取特征:學(xué)習(xí)如何學(xué)習(xí)。機器學(xué)習(xí)任務(wù),例如分類問題,通常都要求輸入在數(shù)學(xué)上或者在計算上都非常便于處理,在這樣的前提下,特征學(xué)習(xí)就應(yīng)運而生了。然而,在我們現(xiàn)實世界中的數(shù)據(jù)例如圖片,視頻,以及傳感器的測量值都非常的復(fù)雜,冗余并且多變。那么,如何有效的提取出特征并且將其表達出來就顯得非常重要。傳統(tǒng)的手動提取特征需要大量的人力并且依賴于非常專業(yè)的知識。同時,還不便于推廣。這就要求特征學(xué)習(xí)技術(shù)的整體設(shè)計非常有效,自動化,并且易于推廣。特征學(xué)習(xí)可以被分為兩類:監(jiān)督的和無監(jiān)督的,類似于機器學(xué)習(xí)。在監(jiān)督特征學(xué)習(xí)中,被標記過的數(shù)據(jù)被當做特征用來學(xué)習(xí)。例如神經(jīng)網(wǎng)絡(luò),多層感知器,(監(jiān)督)字典學(xué)習(xí)。在無監(jiān)督特征學(xué)習(xí)中,未被標記過的數(shù)據(jù)被當做特征用來學(xué)習(xí)。例如(無監(jiān)督)字典學(xué)習(xí),獨立成分分析,自動編碼,矩陣分解 ,各種聚類分析及其變形

評論
科普5d5135acc689c
太師級
分段特征是指將研究對象的特征分成不同的部分或是指將一個特征分成不同部分。
2023-04-05