簡(jiǎn)介
國(guó)家排放數(shù)據(jù)系統(tǒng)是指用于存儲(chǔ)國(guó)家各種排放數(shù)據(jù)的數(shù)據(jù)庫(kù)系統(tǒng)。國(guó)家排放數(shù)據(jù)系統(tǒng)方便對(duì)各種排放數(shù)據(jù)檢索和管理,為以后各種污染排放工作打好基礎(chǔ)。國(guó)家排放數(shù)據(jù)系統(tǒng)存儲(chǔ)大量數(shù)據(jù),可以通過(guò)數(shù)據(jù)分析或數(shù)據(jù)挖掘發(fā)現(xiàn)國(guó)家污染排放總量未來(lái)發(fā)展趨勢(shì)。
數(shù)據(jù)庫(kù)系統(tǒng)定義數(shù)據(jù)庫(kù)系統(tǒng)是指在計(jì)算機(jī)系統(tǒng)中引入數(shù)據(jù)庫(kù)后構(gòu)成的系統(tǒng),一般由數(shù)據(jù)庫(kù)、數(shù)據(jù)庫(kù)管理系統(tǒng)(及其開(kāi)發(fā)工具)、應(yīng)用系統(tǒng)、數(shù)據(jù)庫(kù)管理員和用戶構(gòu)成。數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)由硬件、軟件(操作系統(tǒng)、數(shù)據(jù)庫(kù)管理系統(tǒng)和編譯系統(tǒng)等)、數(shù)據(jù)庫(kù)和用戶構(gòu)成的完整計(jì)算機(jī)應(yīng)用系統(tǒng)。數(shù)據(jù)庫(kù)是數(shù)據(jù)庫(kù)系統(tǒng)的核心和管理對(duì)象。因此,數(shù)據(jù)庫(kù)系統(tǒng)的含義已經(jīng)不僅僅是一個(gè)對(duì)數(shù)據(jù)進(jìn)行管理的軟件,也不僅僅是一個(gè)數(shù)據(jù)庫(kù),數(shù)據(jù)庫(kù)系統(tǒng)是一個(gè)實(shí)際運(yùn)行的,按照數(shù)據(jù)庫(kù)方式存儲(chǔ)、維護(hù)和向應(yīng)用系統(tǒng)提供數(shù)據(jù)支持的系統(tǒng)1。
組成數(shù)據(jù)
數(shù)據(jù)是指數(shù)據(jù)庫(kù)系統(tǒng)中集中存儲(chǔ)的一批數(shù)據(jù)的集合。它是數(shù)據(jù)庫(kù)系統(tǒng)的工作對(duì)象。為了把輸入、輸出或中間數(shù)據(jù)加以區(qū)別,我們常把數(shù)據(jù)庫(kù)數(shù)據(jù)稱為“存儲(chǔ)數(shù)據(jù)”、 “工作數(shù)據(jù)”或“操作數(shù)據(jù)”。它們是某特定應(yīng)用環(huán)境中進(jìn)行管理和決策所必需的信息。特定的應(yīng)用環(huán)境,可以指一個(gè)公司、一個(gè)銀行、一所醫(yī)院,或一所學(xué)校等各種各樣的應(yīng)用環(huán)境。在這些各種各樣的應(yīng)用環(huán)境中,各種不同的應(yīng)用可通過(guò)訪問(wèn)其數(shù)據(jù)庫(kù)獲得必要的信息,以輔助進(jìn)行決策,決策完成后,再將決策結(jié)果存儲(chǔ)在數(shù)據(jù)庫(kù)中。特別需要指出的是,數(shù)據(jù)庫(kù)中的存儲(chǔ)數(shù)據(jù)是“集成的”和“共享的”。所謂“集成”,是指把某特定應(yīng)用環(huán)境中的各種應(yīng)用相關(guān)的數(shù)據(jù)及其數(shù)據(jù)之間的聯(lián)系(聯(lián)系也是一種數(shù)據(jù))全部地集中地并按照一定的結(jié)構(gòu)形式進(jìn)行存儲(chǔ),或者說(shuō),把數(shù)據(jù)庫(kù)看成為若干單個(gè)性質(zhì)不同的數(shù)據(jù)文件的聯(lián)合和統(tǒng)一的數(shù)據(jù)整體,并且在文件之間局部或全部消除了冗余。這使數(shù)據(jù)庫(kù)系統(tǒng)具有整體數(shù)據(jù)結(jié)構(gòu)化和數(shù)據(jù)冗余小的特點(diǎn)。所謂“共享”,是指數(shù)據(jù)庫(kù)中的一塊塊數(shù)據(jù)可為多個(gè)不同的用戶所共享,即多個(gè)不同的用戶,使用多種不同的語(yǔ)言,為了不同的應(yīng)用目的,而同時(shí)存取數(shù)據(jù)庫(kù),甚至同時(shí)存取同一塊數(shù)據(jù)。共享實(shí)際上是基于數(shù)據(jù)庫(kù)是“集成的”這一事實(shí)的結(jié)果。
用戶
用戶是指存儲(chǔ)、維護(hù)和檢索數(shù)據(jù)庫(kù)中數(shù)據(jù)的使用人員。數(shù)據(jù)庫(kù)系統(tǒng)中主要有 3 類用戶:終端用戶、應(yīng)用程序員和數(shù)據(jù)庫(kù)管理員。
終端用戶:是指從計(jì)算機(jī)聯(lián)機(jī)終端存取數(shù)據(jù)庫(kù)的人員,也可稱為聯(lián)機(jī)用戶。這類用戶使用數(shù)據(jù)庫(kù)系統(tǒng)提供的終端命令語(yǔ)言、表格語(yǔ)言或菜單驅(qū)動(dòng)等交互式對(duì)話方式來(lái)存取數(shù)據(jù)庫(kù)中的數(shù)據(jù)。終端用戶一般是不精通計(jì)算機(jī)和程序設(shè)計(jì)的各級(jí)管理人員、工程技術(shù)人員或各類科研人員。終端用戶有時(shí)也稱最終用戶。
應(yīng)用程序員:是指負(fù)責(zé)設(shè)計(jì)和編制應(yīng)用程序的人員。 這類用戶通過(guò)設(shè)計(jì)和編寫(xiě) “使用及維護(hù)”數(shù)據(jù)庫(kù)的應(yīng)用程序來(lái)存取和維護(hù)數(shù)據(jù)庫(kù)。這類用戶通常使用 Access、PB 或 Oracle 等數(shù)據(jù)庫(kù)語(yǔ)言來(lái)設(shè)計(jì)和編寫(xiě)應(yīng)用程序,以對(duì)數(shù)據(jù)庫(kù)進(jìn)行存取操作。應(yīng)用程序員也稱為系統(tǒng)開(kāi)發(fā)員。
數(shù)據(jù)庫(kù)管理員(DBA):是指全面負(fù)責(zé)數(shù)據(jù)庫(kù)系統(tǒng)的“管理、維護(hù)和正常使用的”人員。它可以是一個(gè)人或一組人。特別對(duì)于大型數(shù)據(jù)庫(kù)系統(tǒng),DBA 極為重要,常設(shè)置有 DBA 辦公室,應(yīng)用程序員是 DBA 手下的工作人員。擔(dān)任數(shù)據(jù)庫(kù)管理員,不僅要具有較高的技術(shù)專長(zhǎng),而且還要具備較深的資歷,并具有了解和闡明管理要求的能力。DBA 的主要職責(zé)有:參與數(shù)據(jù)庫(kù)設(shè)計(jì)的全過(guò)程,與用戶、應(yīng)用程序員、系統(tǒng)分析員緊密結(jié)合,設(shè)計(jì)數(shù)據(jù)庫(kù)的結(jié)構(gòu)和內(nèi)容;決定數(shù)據(jù)庫(kù)的存儲(chǔ)與存取策略,使數(shù)據(jù)的存儲(chǔ)空間利用率和存取效率均較優(yōu);定義數(shù)據(jù)的安全性和完整性;監(jiān)督控制數(shù)據(jù)庫(kù)的使用和運(yùn)行,及時(shí)處理運(yùn)行程序中出現(xiàn)的問(wèn)題;改進(jìn)和重新構(gòu)造數(shù)據(jù)庫(kù)系統(tǒng)等。
軟件
軟件是指負(fù)責(zé)數(shù)據(jù)庫(kù)存取、維護(hù)和管理的軟件系統(tǒng)。通常叫做數(shù)據(jù)庫(kù)管理系統(tǒng)(Data Base Management System,DBMS)。數(shù)據(jù)庫(kù)系統(tǒng)各類用戶對(duì)數(shù)據(jù)庫(kù)的各種操作請(qǐng)求,都是由 DBMS 來(lái)完成的,它是數(shù)據(jù)庫(kù)系統(tǒng)的核心軟件。DBMS 提供一種超出硬件層之上的對(duì)數(shù)據(jù)庫(kù)的觀察的功能,并支持用較高的觀點(diǎn)來(lái)表達(dá)用戶的操作,使數(shù)據(jù)庫(kù)用戶不受硬件層細(xì)節(jié)的影響。DBMS 是在操作系統(tǒng)(OS)支持下工作的。
硬件
硬件是指存儲(chǔ)數(shù)據(jù)庫(kù)和運(yùn)行數(shù)據(jù)庫(kù)管理系統(tǒng) DBMS(包括操作系統(tǒng))的硬件資源。它包括物理存儲(chǔ)數(shù)據(jù)庫(kù)的磁盤、 磁鼓、 磁帶或其他外存儲(chǔ)器及其附屬設(shè)備、 控制器、 I/O 通道、內(nèi)存、CPU 及其他外部設(shè)備等。
數(shù)據(jù)挖掘數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。這個(gè)定義包括好幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題。
對(duì)象數(shù)據(jù)挖掘的對(duì)象可以是任何類型的數(shù)據(jù)源,可以是關(guān)系數(shù)據(jù)庫(kù),此類包含結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)源;也可以是數(shù)據(jù)倉(cāng)庫(kù)、文本、多媒體數(shù)據(jù)、空間數(shù)據(jù)、時(shí)序數(shù)據(jù)、Web數(shù)據(jù),此類包含半結(jié)構(gòu)化數(shù)據(jù)甚至是異構(gòu)型數(shù)據(jù)的數(shù)據(jù)源。發(fā)現(xiàn)知識(shí)的方法可以是數(shù)字的、非數(shù)字的,也可以是歸納的,最終被發(fā)現(xiàn)了的知識(shí)可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等。
數(shù)據(jù)挖掘功能目前數(shù)據(jù)挖掘的主要功能包括概念描述、關(guān)聯(lián)分析、分類、聚類和偏差檢測(cè)等。概念描述主要用于描述對(duì)象內(nèi)涵并且概括此對(duì)象相關(guān)特征,概念描述分為特征性描述和區(qū)別性描述, 特征性描述描述對(duì)象的相同特征,區(qū)別性描述描述對(duì)象的不同特征;關(guān)聯(lián)分析主要用來(lái)發(fā)現(xiàn)數(shù)據(jù)庫(kù)中相關(guān)的知識(shí)以及數(shù)據(jù)之間的規(guī)律,關(guān)聯(lián)分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)、因果關(guān)聯(lián);分類和聚類就是根據(jù)需要訓(xùn)練相應(yīng)的樣本來(lái)對(duì)數(shù)據(jù)分類和合并;偏差分析用于對(duì)對(duì)象中異常數(shù)據(jù)的檢測(cè)2。
數(shù)據(jù)挖掘過(guò)程數(shù)據(jù)挖掘主要分3個(gè)階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的評(píng)價(jià)和表達(dá)。數(shù)據(jù)準(zhǔn)備主要是完成對(duì)大量數(shù)據(jù)的選擇、凈化、推測(cè)、轉(zhuǎn)換、數(shù)據(jù)的縮減, 數(shù)據(jù)準(zhǔn)備階段的工作好壞將影響到數(shù)據(jù)挖掘的效率和準(zhǔn)確度以及最終模式的有效性,在數(shù)據(jù)準(zhǔn)備階段可以消除在挖掘過(guò)程中無(wú)用的數(shù)據(jù),從而提高數(shù)據(jù)挖掘的效率和準(zhǔn)確度;數(shù)據(jù)挖掘的工作首先需要選擇相應(yīng)的挖掘?qū)嵤┧惴?,例如決策樹(shù)、分類、聚類、粗糙集、關(guān)聯(lián)規(guī)則、神經(jīng)網(wǎng)絡(luò)、遺傳算法等,然后對(duì)數(shù)據(jù)進(jìn)行分析,從而得到知識(shí)的模型;結(jié)果評(píng)價(jià)和表達(dá)主要是確定知識(shí)的模式模型是否有效以便發(fā)現(xiàn)有意義的模型。