少。所應用的技術越多,用戶血液溶漿機在選擇技術時就越困難。這就像在商場里選電視機一樣,電視 的品牌越多,選擇時就越困難,因為這些品牌 間的區 別并 不大。同 樣,在理解 了數 據挖 掘技 術以及它們之間的相似性之后,就會發現,最初對這些技術上的不同理解只是因為沒有很好 的理解這些技術本身,一旦理解技術本身之后,就知道這些技術之間是十分類似。 要對數據挖掘技術進行比較,應首先對 使用這 些技 術數 據挖掘 產品 進行評 價。評 價通 常可從三個方面考慮。第一個是商業評價,它更多考慮市場特點。第二個是應用評價,它立 足于比較細節的層次,說明了某一技術在哪個應用領域效果最好,在哪個應用領域使用效果 不好或者不能使用。第三個是算法評價,是最詳細的評價,它是從數據挖掘的最低層比較這 些技術。數據挖掘技術在 算法 評 價上 的表 現直 接影 響 它在 商業 和應 用評 價 上的 排 名。例 如,在算法評價上,如果處理干擾數據的能力很高,那么在
商業評價上,表明其有更高的自適 應性能。 (1) 商業評價 商業評價主要評價數據挖掘技術的商業價 值。在評 價過 程中,考 慮的不 是學 術中 的速 度或性能,而是商業團體所遇到的現實問題。因 為有 些數 據挖掘 技術 不能實 際應 用到 商業 中去,只是停留在學術研究上。 (2) 應用評價 應用評價主要側重點是幫助一個特定應用 選擇 數據挖 掘算 法。在特 定應 用中,一 些數 據挖掘技術的易用性要比另一些技術要好。例如,決 策樹 和神經 網絡 都能夠 從數 據庫 中產 生規則,但是一般來講,如果要發現數據庫中所有關聯規則或有趣的規則,那么,規則推理技 術就是最有效的方法。再 比如,在 文字 的識 別 和處 理上,決 策樹 和 神經 網絡 都是 可 用的 算 法,但是最好的方法則是鄰近搜索算法。 (3) 算法評價 算法評價從算法本身來詳細地說明算法的 優缺 點。例如,在 比較 時可以 將準 確性 作為 10.1 數據挖掘及其應用 353 一個指標,但是如果一個算法本身沒有辦法處理一定程度上受到破壞或干擾的數據,那么算 法的準確性又能說明 什 么?或 者,如 果 一個 算 法 本身 運 行 很 快,例 如 在 10 min 內處 理 10 GB的數據,但是如果前期數據的準確需要一個月,這個算法又有什么用? 總而言之,對數據挖掘算法的比較一定要選擇一個衡量的標準,而標準的選擇也是比較 困難的,因為在一個評價標準下表現優秀的算 法,在另 一個標 準下 并不 一定優 秀,所以 這要 根據用戶的實際
情況而定。上面只是給出了評價數據挖掘算法時,可以考慮的三個方面,僅 供參考。 10.1.7 數據挖掘的過程 數據挖掘是一個依賴應用的問題,不同的數 據挖 掘應 用可能 需要 不同的 數據 挖掘 技術 進行處理,處理流程可能也會有所不同。一般 情況 下,數據挖 掘的 過程 包括5 個步 驟:確定 業務對象、數據準備、數據挖掘、結果的解釋評價與可視化以及知識同化,如圖10.2所示。 圖10.2 數據挖掘的基本過程 1. 確定業務對象 清晰地定義出業務問題,認清數據挖掘 的目的 是數 據挖 掘的重 要一 步。挖掘 的最 后結 構是不可預測的,但要探索的問題應是有預見的,為了數據挖掘而數據挖掘則是帶有盲目性 的,是不會成功的。