當前位置:生活全書館 >

IT科技

> 簡述資料預處理的主要步驟

簡述資料預處理的主要步驟

簡述資料預處理的內容是:

簡述資料預處理的主要步驟

資料預處理(datapreprocessing)是指在主要的處理以前對資料進行的一些處理。如對大部分地球物理面積性觀測資料在進行轉換或增強處理之前,首先將不規則分佈的測網經過插值轉換為規則網的處理,以利於計算機的運算。另外,對於一些剖面測量資料,如地震資料預處理有垂直疊加、重排、加道頭、編輯、重新取樣、多路編輯等。現實世界中資料大體上都是不完整,不一致的 髒資料,無法直接進行資料探勘,或挖掘結果差強人意。為了提高資料探勘的質量產生了資料預處理技術。

資料預處理有多種方法:資料清理,資料整合,資料變換,資料歸約等。這些資料處理技術在資料探勘之前使用,大大提高了資料探勘模式的質量,降低實際挖掘所需要的時間。資料清理例程通過填寫缺失的值、光滑噪聲資料、識別或刪除離群點並解決不一致性來“清理”資料。主要是達到如下目標:格式標準化,異常資料清除,錯誤糾正,重複資料的清除。資料整合例程將多個數據源中的資料結合起來並 統一儲存,建立資料倉庫的過程實際上就是資料整合。通過平滑聚集,資料概化,規範化等方式將資料轉換成適用於資料探勘的形式。資料探勘時往往資料量非常大,在少量資料上進行挖掘分析需要很長的時間,資料歸約技術可以用來得到資料集的歸約表示,它小得多,但仍然接近於保持原資料的完整性,並結果與歸約前結果相同或幾乎相同。資料預處理是資料探勘一個熱門的研究方面,畢竟這是由資料預處理的產生背景所決定的,現實世界中的資料幾乎都髒資料。

標籤: 預處理 簡述
  • 文章版權屬於文章作者所有,轉載請註明 https://shqsg.com/dianzi/09zo6v.html