劣質數據會妨礙一個機構的商務智能系統或者數據存儲項目。本站客座專欄作家瑞克•謝爾曼解釋了如何避免那些影響努力結果的常規問題。
很多商務智能系統或者數據存儲項目都受到與數據質量有關的并發癥的干擾。有時候這些問題不會顯現,直到商務人員即將啟動項目之前對系統進行測試時才會暴露。那么,是什么導致BI項目團隊對數據質量問題產生疏漏呢?
有兩點主要的漏洞:對數據質量的定義太狹窄,認為數據質量管理是資源系統的事。
人們通常認為數據質量管理就是把壞數據剔除掉——即那些或丟失或不準確或錯誤的數據。壞數據的確是個問題,但不是唯一的問題。高質量的數據程序同時要確保數據的全面性、一致性、相關性和時效性。
不要埋怨資源系統
對數據質量的定義太狹窄經常導致人們認為資源交換系統——不是通過數據侵入就是系統錯誤——產生了壞數據。盡管這也許是一些錯誤發生的原因,但更可能的罪魁不是系統資源間尺度的不同(比如顧客或產品標識符)就是來自不同組織間數據定義的不同。確定尺度——形成統一的顧客或產品標識符——對于一家公司的數據評估和檢驗是非常重要的。資源系統不負責通過其他系統的數據質量問題,這應由BI項目團隊來管。資源系統必須確保在其存儲區域內數據的正確性。但BI項目團隊的職責是提供整個企業內部統一的商業數據。
同樣地,企業內的每一個部門也許都有正當的理由提供與其他部門不同的數據。比如說,在商業程序中所處的地位可能會決定他們如何看待自己的數據。單個部門的目標并不是形成共同的數據定義,但BI項目團隊的目標是。很多BI項目團隊想申明數據質量管理不應由他們負責。然而,從實際的角度考慮,BI團隊的確需要把這些(數據質量管理)事務當作自己的分內之事,因為他們的工作就是確保最高的數據質量。BI項目團隊在對數據進行打包提供給商務人員使用,他們將承擔數據質量的負責。這看上去并不公平,但他們項目的成功正基于此。
不要低估了故障
當項目出現一個初始故障或泄漏僅影響到資源系統的一個很小的子系統時是令人吃驚的。由于可能存在種種理由允許發生小范圍的故障,當資源一同的數量擴大時,你將無法從確定尺度的必要的努力中受益。
有時故障僅發生在單個的部門,該部門對獲取的數據僅采用自己部門內的定義標準。再一次地,棘手的問題經常是如何調和各部門之間對數據利用時定義的不同。兩件事情中在處理復合的系統和部門問題時都遭遇了實際的挑戰。商務人員需要縱觀全局,然而這只有當他們能夠對企業內的數據進行評估和分析時才可能實現。
數據質量管理的步驟
為確保數據質量,BI項目團隊必須從一開始就致力于此。這里有一些重要的步驟可供參考。
要求對商業數據進行比較寬泛的定義,建立監督和測試標準,明確數據不符合標準時應該采取什么措施。
在進行資源系統分析時努力使數據有一個全面的輪廓。對通過資源系統的反常數據的整理和時間(歷史數據并不總是保存的好)都是必需的,以便從商業運作的前期就能對其進行處理。
從數據來源到商務人員的信息提取,所有的綜合數據和商業智能程序都要進行數據質量合并。數據質量問題應該盡早在程序中檢查出來并且按照商業要求的詳細條款進行處理。
企業必須提供的數據要達到嚴格的質量標準水平,尤其要根據現行的規定和要求。只要建立強大的數據質量管理責任體系和確保其實施的步驟,數據水平所需的透明度就能實現。
關于作者
瑞克•謝爾曼有18年多的商業智能和數據管理經驗,作為獨立顧問在50多家機構任職,還在一家大五會計事務所任管理/執行官。他建立了雅典娜IT咨詢公司,是一家總部位于斯通曼斯的商業智能顧問公司。他的電子郵箱是rsherman@athena-solutions.com.
來源:TechTarget