2. 數據準備 數據準備 階 段 又 可 分 為 3 個 子 步 驟:數 據 選 �。ǎ模幔簦幔樱澹欤澹悖簦椋铮睿�、數 據 預 處 理(Data Preprocessing)和數據變換(DataTransformation)。 (1) 數據選取 血液融漿機 數據選取的目的就是根據數據挖掘的目的和任務,確定實現這一目標與任務所需的操作 對象,即目標數據(TargetData),它是根據用戶的需要從原始數據庫中抽取的一組相關數據。 354 第十章 數據挖掘與Agent技術 (2) 數據預處理 由于所選取的數據可能具有這樣一些特性:巨 量性、動態 性、噪聲 性、缺值 和稀疏 性,一 般在實施數據挖掘之前應對其進行一些預處理。數據預處理一般可能包括消除噪聲或數據 清洗、推導計算缺值數據、消除數據的不一致性、消除重復記錄以及完成數據類型轉換(如把 連
續值數據轉換為離散型的數據,以便于符號 歸納,或 是把離 散型 的轉 換為連 續值 型的,以 便于神經網絡歸納)等,以確保數據的質量,為進一步的數據分析做準備。 (3) 數據變換 數據變換的主要目 的是 消減 數據 維數 或 降維(DimensionReduction),即 從初 始 特征 中 找出真正有用的特征以減少數據挖掘時要考 慮的特 征或 變量個 數。另 外,為 了適 應所 選擇 的數據挖掘算法和工具,也要對數據做一些相應的變換。比如,神經網絡要求所有的變量的 取值都在0~1之間,因此在一些數據(包括非數值數據)被提交到神經網絡算法之前就必須 先對不在[0,1]內的變量進行映射變換。 3. 數據挖掘 數據挖掘階段的任務是 首先 確定 數據 挖掘 要 完成 什么 樣的 功能,如數 據 總結、數據 分 類、數據聚類、趨勢分析、關聯規則發現或序 列模式 發現 等。在確 定要 完成的 數據 挖掘 功能 后,就要決定使用什么樣的挖掘算法,同樣的任務可
以用不同的算法來實現。選擇實現算法 有兩個考慮因素:一是不同的數據有不同的特 點,因此 需要用 與之 相關 的算法 來挖 掘;二是 用戶或實際運行系統的要求,有的用戶 可能希 望獲 取描 述型的(Descriptive)、容易 理解 的知 識(在這種情況下,采用規則表示的挖掘方法顯然要好于神經網絡之類的方法),而有的用戶 或系統的目的是獲取預測準確度盡可能高 的預測 型(Predictive)知識。 算法確 定之 后,就由 挖掘系統對數據進行分析,實現自動挖掘。數 據挖掘 算法是 KDD 的核 心,也 是目 前研 究人 員主要努力的方向,要獲得好的挖掘效果,必須對各種挖掘算法的要求或前提假設有充分的 理解。 4. 結果的解釋評價與可視化