版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

[科普中國]-高斯立方體

科學(xué)百科
原創(chuàng)
科學(xué)百科為用戶提供權(quán)威科普內(nèi)容,打造知識科普陣地
收藏

概述

“混合高斯模型”中的“高斯”概率分布函數(shù)的曲線呈鐘形的正態(tài)分布。在一維的情況下,這是一個對稱曲線,開始時值很低,然后慢慢增長,在對稱中心達(dá)到峰值,然后再逐漸衰減。

標(biāo)準(zhǔn)K-均值聚類的模型,該模型產(chǎn)生一些群集,每個群集都有一個中心。一種考慮這個過程的方式是待聚類的數(shù)據(jù)符合一些基于高斯過程的概率分布,每個概率分布的均值就是群集的中心。這些概率分布給出了以高斯分布的中心作為群集質(zhì)心的數(shù)據(jù)出現(xiàn)在空間中每一點的概率值。給定若干高斯分布,每個分布生成一個群集,這就是混合高斯模型名字的由來。2

問題把高斯分布應(yīng)用到群集檢測可能會帶來兩個問題:

1、高斯分布是一維的,怎么將分布拓展到二維甚至高維?

2、高斯分布是在均值和標(biāo)準(zhǔn)差的基礎(chǔ)上定義的——怎么找到合適的均值和標(biāo)準(zhǔn)差?

這些問題很重要,而能夠解決這些問題正是混合高斯模型的強大之處。2

多維高斯模型高斯鐘形曲線定義了單個變量的概率分布。標(biāo)準(zhǔn)正態(tài)分布的曲線均值為0,標(biāo)準(zhǔn)差為1。簡單地再加一個變量后的概率分布就變成統(tǒng)計學(xué)家所稱的聯(lián)合概率分布。最終的概率圖類似于一頂帽子或者一個對稱的山峰。

對于正態(tài)分布而言,曲線下的面積是有意義的。如果想知道變量取負(fù)值的概率是多大,就需要計算一下正態(tài)分布曲線下所有負(fù)值的面積。由于曲線是對稱的,該區(qū)域的面積是總面積的50%。

在兩維的情況下,就不再是計算曲線下的面積了,而是曲面下的體積。如果想知道兩個變量都取負(fù)值的概率有多大,就需要計算曲面下兩個值都是負(fù)數(shù)的區(qū)域的體積,結(jié)果就是總體積的25%。2