- 數(shù)據(jù)倉庫
發(fā)展歷程
數(shù)據(jù)倉庫是決策支持系統(tǒng)(dss)和聯(lián)機(jī)分析應(yīng)用數(shù)據(jù)源的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。數(shù)據(jù)倉庫研究和解決從數(shù)據(jù)庫中獲取信息的問題。數(shù)據(jù)倉庫的特征在于面向主題、集成性、穩(wěn)定性和時(shí)變性。
數(shù)據(jù)倉庫 ,由數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)于1990年提出,主要功能仍是將組織透過資訊系統(tǒng)之聯(lián)機(jī)事務(wù)處理(OLTP)經(jīng)年累月所累積的大量資料,透過數(shù)據(jù)倉庫理論所特有的資料儲存架構(gòu),作一有系統(tǒng)的分析整理,以利各種分析方法如聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘(Data Mining)之進(jìn)行,并進(jìn)而支持如決策支持系統(tǒng)(DSS)、主管資訊系統(tǒng)(EIS)之創(chuàng)建,幫助決策者能快速有效的自大量資料中,分析出有價(jià)值的資訊,以利決策擬定及快速回應(yīng)外在環(huán)境變動,幫助建構(gòu)商業(yè)智能(BI)。
數(shù)據(jù)倉庫之父比爾·恩門(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立數(shù)據(jù)倉庫》)一書中所提出的定義被廣泛接受——數(shù)據(jù)倉庫(Data Warehouse)是一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
特點(diǎn)
1、數(shù)據(jù)倉庫是面向主題的;操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān);
2、數(shù)據(jù)倉庫是集成的,數(shù)據(jù)倉庫的數(shù)據(jù)有來自于分散的操作型數(shù)據(jù),將所需數(shù)據(jù)從原來的數(shù)據(jù)中抽取出來,進(jìn)行加工與集成,統(tǒng)一與綜合之后才能進(jìn)入數(shù)據(jù)倉庫;
數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到當(dāng)前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
3、數(shù)據(jù)倉庫是不可更新的,數(shù)據(jù)倉庫主要是為決策分析提供數(shù)據(jù),所涉及的操作主要是數(shù)據(jù)的查詢;
4、數(shù)據(jù)倉庫是隨時(shí)間而變化的,傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)比較適合處理格式化的數(shù)據(jù),能夠較好的滿足商業(yè)商務(wù)處理的需求。穩(wěn)定的數(shù)據(jù)以只讀格式保存,且不隨時(shí)間改變。
5、匯總的。操作性數(shù)據(jù)映射成決策可用的格式。
6、大容量。時(shí)間序列數(shù)據(jù)集合通常都非常大。
7、非規(guī)范化的。Dw數(shù)據(jù)可以是而且經(jīng)常是冗余的。
8、元數(shù)據(jù)。將描述數(shù)據(jù)的數(shù)據(jù)保存起來。
9、數(shù)據(jù)源。數(shù)據(jù)來自內(nèi)部的和外部的非集成操作系統(tǒng)。
數(shù)據(jù)倉庫,是在數(shù)據(jù)庫已經(jīng)大量存在的情況下,為了進(jìn)一步挖掘數(shù)據(jù)資源、為了決策需要而產(chǎn)生的,它并不是所謂的“大型數(shù)據(jù)庫”。數(shù)據(jù)倉庫的方案建設(shè)的目的,是為前端查詢和分析作為基礎(chǔ),由于有較大的冗余,所以需要的存儲也較大。為了更好地為前端應(yīng)用服務(wù),數(shù)據(jù)倉庫往往有如下幾點(diǎn)特點(diǎn):
1.效率足夠高。數(shù)據(jù)倉庫的分析數(shù)據(jù)一般分為日、周、月、季、年等,可以看出,日為周期的數(shù)據(jù)要求的效率最高,要求24小時(shí)甚至12小時(shí)內(nèi),客戶能看到昨天的數(shù)據(jù)分析。由于有的企業(yè)每日的數(shù)據(jù)量很大,設(shè)計(jì)不好的數(shù)據(jù)倉庫經(jīng)常會出問題,延遲1-3日才能給出數(shù)據(jù),顯然不行的。
2.數(shù)據(jù)質(zhì)量。數(shù)據(jù)倉庫所提供的各種信息,肯定要準(zhǔn)確的數(shù)據(jù),但由于數(shù)據(jù)倉庫流程通常分為多個(gè)步驟,包括數(shù)據(jù)清洗,裝載,查詢,展現(xiàn)等等,復(fù)雜的架構(gòu)會更多層次,那么由于數(shù)據(jù)源有臟數(shù)據(jù)或者代碼不嚴(yán)謹(jǐn),都可以導(dǎo)致數(shù)據(jù)失真,客戶看到錯誤的信息就可能導(dǎo)致分析出錯誤的決策,造成損失,而不是效益。
3.擴(kuò)展性。之所以有的大型數(shù)據(jù)倉庫系統(tǒng)架構(gòu)設(shè)計(jì)復(fù)雜,是因?yàn)榭紤]到了未來3-5年的擴(kuò)展性,這樣的話,未來不用太快花錢去重建數(shù)據(jù)倉庫系統(tǒng),就能很穩(wěn)定運(yùn)行。主要體現(xiàn)在數(shù)據(jù)建模的合理性,數(shù)據(jù)倉庫方案中多出一些中間層,使海量數(shù)據(jù)流有足夠的緩沖,不至于數(shù)據(jù)量大很多,就運(yùn)行不起來了。
從上面的介紹中可以看出,數(shù)據(jù)倉庫技術(shù)可以將企業(yè)多年積累的數(shù)據(jù)喚醒,不僅為企業(yè)管理好這些海量數(shù)據(jù),而且挖掘數(shù)據(jù)潛在的價(jià)值,從而成為通信企業(yè)運(yùn)營維護(hù)系統(tǒng)的亮點(diǎn)之一。正因?yàn)槿绱?,廣義的說,基于數(shù)據(jù)倉庫的決策支持系統(tǒng)由三個(gè)部件組成:數(shù)據(jù)倉庫技術(shù),聯(lián)機(jī)分析處理技術(shù)和數(shù)據(jù)挖掘技術(shù),其中數(shù)據(jù)倉庫技術(shù)是系統(tǒng)的核心,在這個(gè)系列后面的文章里,將圍繞數(shù)據(jù)倉庫技術(shù),介紹現(xiàn)代數(shù)據(jù)倉庫的主要技術(shù)和數(shù)據(jù)處理的主要步驟,討論在通信運(yùn)營維護(hù)系統(tǒng)中如何使用這些技術(shù)為運(yùn)營維護(hù)帶來幫助。
4.面向主題
操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織的。主題是與傳統(tǒng)數(shù)據(jù)庫的面向應(yīng)用相對應(yīng)的,是一個(gè)抽象概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進(jìn)行分析利用的抽象。每一個(gè)主題對應(yīng)一個(gè)宏觀的分析領(lǐng)域。數(shù)據(jù)倉庫排除對于決策無用的數(shù)據(jù),提供特定主題的簡明視圖。
用途
信息技術(shù)與數(shù)據(jù)智能大環(huán)境下,數(shù)據(jù)倉庫在軟硬件領(lǐng)域、Internet 和企業(yè)內(nèi)部網(wǎng)解決方案以及數(shù)據(jù)庫方面提供了許多經(jīng)濟(jì)高效的計(jì)算資源,可以保存極大量的數(shù)據(jù)供分析使用,且允許使用多種數(shù)據(jù)訪問技術(shù)。
開放系統(tǒng)技術(shù)使得分析大量數(shù)據(jù)的成本趨于合理,并且硬件解決方案也更為成熟。在數(shù)據(jù)倉庫應(yīng)用中主要使用的技術(shù)如下:
并行
計(jì)算的硬件環(huán)境、操作系統(tǒng)環(huán)境、 數(shù)據(jù)庫管理系統(tǒng)和所有相關(guān)的數(shù)據(jù)庫操作、查詢工具和技術(shù)、應(yīng)用程序等各個(gè)領(lǐng)域都可以從并行的最新成就中獲益。
分區(qū)
分區(qū)功能使得支持大型表和索引更容易,同時(shí)也提高了數(shù)據(jù)管理和查詢性能。
數(shù)據(jù)壓縮
數(shù)據(jù)壓縮功能降低了數(shù)據(jù)倉庫環(huán)境中通常需要的用于存儲大量數(shù)據(jù)的磁盤系統(tǒng)的成本,新的數(shù)據(jù)壓縮技術(shù)也已經(jīng)消除了壓縮數(shù)據(jù)對查詢性能造成的負(fù)面影響。
技術(shù)發(fā)展
從數(shù)據(jù)庫到數(shù)據(jù)倉庫
企業(yè)的數(shù)據(jù)處理大致分為兩類:一類是操作型處理,也稱為聯(lián)機(jī)事務(wù)處理,它是針對具體業(yè)務(wù)在數(shù)據(jù)庫聯(lián)機(jī)的日常操作,通常對少數(shù)記錄進(jìn)行查詢、修改。另一類是分析型處理,一般針對某些主題的歷史數(shù)據(jù)進(jìn)行分析,支持管理決策。
兩者具有不同的特征,主要體現(xiàn)在以下幾個(gè)方面。
1、處理性能
日常業(yè)務(wù)涉及頻繁、簡單的數(shù)據(jù)存取,因此對操作型處理的性能要求是比較高的,需要數(shù)據(jù)庫能夠在很短時(shí)間內(nèi)做出反應(yīng)。
2、數(shù)據(jù)集成
企業(yè)的操作型處理通常較為分散,傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用的特性使數(shù)據(jù)集成困難。
3、數(shù)據(jù)更新
操作型處理主要由原子事務(wù)組成,數(shù)據(jù)更新頻繁,需要并行控制和恢復(fù)機(jī)制。
4、數(shù)據(jù)時(shí)限
操作型處理主要服務(wù)于日常的業(yè)務(wù)操作。
5、數(shù)據(jù)綜合
操作型處理系統(tǒng)通常只具有簡單的統(tǒng)計(jì)功能。
數(shù)據(jù)庫已經(jīng)在信息技術(shù)領(lǐng)域有了廣泛的應(yīng)用,我們社會生活的各個(gè)部門,幾乎都有各種各樣的數(shù)據(jù)庫保存著與我們的生活息息相關(guān)的各種數(shù)據(jù)。作為數(shù)據(jù)庫的一個(gè)分支,數(shù)據(jù)倉庫概念的提出,相對于數(shù)據(jù)庫從時(shí)間上就近得多。美國著名信息工程專家WilliamInmON博士在90年代初提出了數(shù)據(jù)倉庫概念的一個(gè)表述,認(rèn)為:“一個(gè)數(shù)據(jù)倉庫通常是一個(gè)面向主題的、集成的、隨時(shí)間變化的、但信息本身相對穩(wěn)定的數(shù)據(jù)集合,它用于對管理決策過程的支持。”
這里的主題,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,如:收入、客戶、銷售渠道等;所謂面向主題,是指數(shù)據(jù)倉庫內(nèi)的信息是按主題進(jìn)行組織的,而不是像業(yè)務(wù)支撐系統(tǒng)那樣是按照業(yè)務(wù)功能進(jìn)行組織的。
集成,是指數(shù)據(jù)倉庫中的信息不是從各個(gè)業(yè)務(wù)系統(tǒng)中簡單抽取出來的,而是經(jīng)過一系列加工、整理和匯總的過程,因此數(shù)據(jù)倉庫中的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
隨時(shí)間變化,是指數(shù)據(jù)倉庫內(nèi)的信息并不只是反映企業(yè)當(dāng)前的狀態(tài),而是記錄了從過去某一時(shí)點(diǎn)到當(dāng)前各個(gè)階段的信息。
數(shù)據(jù)庫安全
計(jì)算機(jī)攻擊、內(nèi)部人員違法行為,以及各種監(jiān)管要求,正促使組織尋求新的途徑來保護(hù)其在商業(yè)數(shù)據(jù)庫系統(tǒng)中的企業(yè)和客戶數(shù)據(jù)。
您可以采取八個(gè)步驟保護(hù)數(shù)據(jù)倉庫并實(shí)現(xiàn)對關(guān)鍵法規(guī)的遵從。
1. 發(fā)現(xiàn)
使用發(fā)現(xiàn)工具發(fā)現(xiàn)敏感數(shù)據(jù)的變化。
2.漏洞和配置評估
評估數(shù)據(jù)庫配置,確保它們不存在安全漏洞。這包括驗(yàn)證在操作系統(tǒng)上安裝數(shù)據(jù)庫的方式(比如檢查數(shù)據(jù)庫配置文件和可執(zhí)行程序的文件權(quán)限),以及驗(yàn)證數(shù)據(jù)庫自身內(nèi)部的配置選項(xiàng)(比如多少次登錄失敗之后鎖定帳戶,或者為關(guān)鍵表分配何種權(quán)限)。
3. 加強(qiáng)保護(hù)
通過漏洞評估,刪除不使用的所有功能和選項(xiàng)。
4. 變更審計(jì)
通過變更審計(jì)工具加強(qiáng)安全保護(hù)配置,這些工具能夠比較配置的快照(在操作系統(tǒng)和數(shù)據(jù)庫兩個(gè)級別上),并在發(fā)生可能影響數(shù)據(jù)庫安全的變更時(shí),立即發(fā)出警告。
5. 數(shù)據(jù)庫活動監(jiān)控(DAM)
通過及時(shí)檢測入侵和誤用來限制信息暴露,實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)庫活動。
6. 審計(jì)
必須為影響安全性狀態(tài)、數(shù)據(jù)完整性或敏感數(shù)據(jù)查看的所有數(shù)據(jù)庫活動生成和維護(hù)安全、防否認(rèn)的審計(jì)線索。
7.身份驗(yàn)證、訪問控制和授權(quán)管理
必須對用戶進(jìn)行身份驗(yàn)證,確保每個(gè)用戶擁有完整的責(zé)任,并通過管理特權(quán)來限制對數(shù)據(jù)的訪問。
8. 加密
使用加密來以不可讀的方式呈現(xiàn)敏感數(shù)據(jù),這樣攻擊者就無法從數(shù)據(jù)庫外部對數(shù)據(jù)進(jìn)行未授權(quán)訪問。
如何應(yīng)對監(jiān)控需求
數(shù)據(jù),作為企業(yè)核心資產(chǎn),越來越受到企業(yè)的關(guān)注,一旦發(fā)生非法訪問、數(shù)據(jù)篡改、數(shù)據(jù)盜取,將給企業(yè)帶來巨大損失。數(shù)據(jù)庫作為數(shù)據(jù)的核心載體,其安全性就更加重要。
面對數(shù)據(jù)庫的安全問題,企業(yè)常常遇到以下主要挑戰(zhàn):數(shù)據(jù)庫被惡意訪問、攻擊、甚至遭到數(shù)據(jù)偷竊,而您不能及時(shí)地發(fā)現(xiàn)這些惡意的操作; 不了解數(shù)據(jù)使用者對數(shù)據(jù)庫的訪問細(xì)節(jié),從而不能保證您對數(shù)據(jù)安全的管理;
信息安全同樣會帶來審計(jì)問題,當(dāng)今全球?qū)弦?guī)/ 審計(jì)要求越來越嚴(yán)格,由于不滿足合規(guī)要求而導(dǎo)致處罰的事件屢見不鮮。美國《薩班斯法案》的強(qiáng)制性要求曾導(dǎo)致2007年7月5日中國第一家海外上市公司—華晨中國汽車控股有限公司從美國紐約證券交易所退市。
有關(guān)信息安全的合規(guī)/審計(jì)要求,中國政府也進(jìn)行了大量的強(qiáng)化工作,例如,為了加強(qiáng)商業(yè)銀行信息科技風(fēng)險(xiǎn)管理,銀監(jiān)會出臺了《商業(yè)銀行信息科技風(fēng)險(xiǎn)管理指引》規(guī)則,中國政府——財(cái)政部、證監(jiān)會、銀監(jiān)會、保監(jiān)會及審計(jì)署等五部委會聯(lián)合發(fā)布“中國版薩班尼斯-奧克斯利法案(以下簡稱‘C-SOX法案’)”——《企業(yè)內(nèi)部控制基本規(guī)范》。
面對合規(guī)/審計(jì)要求,企業(yè)往往面臨以下挑戰(zhàn):
·不能做到持續(xù)性審計(jì)
用戶審計(jì)主要是針對數(shù)據(jù)庫、應(yīng)用系統(tǒng)日志做審計(jì),這些日志內(nèi)容非常龐大,DBA(數(shù)據(jù)庫管理員)和信息安全審計(jì)人員的審計(jì)工作就只能做事后分析,分析時(shí)間也長。不能做到持續(xù)性審計(jì)。
·審計(jì)并不規(guī)范
用戶審計(jì)的內(nèi)容和表格主要是根據(jù)外部審計(jì)人員要求和內(nèi)部安全管理要素來考慮,這些審計(jì)工作的好壞基本上取決于DBA和信息安全審計(jì)人員的經(jīng)驗(yàn)和技能,這些不能有效成為公司規(guī)范和滿足外部審計(jì)要求。
·數(shù)據(jù)庫管理員權(quán)責(zé)沒有完全區(qū)分開,導(dǎo)致審計(jì)效果問題
數(shù)據(jù)庫管理和審計(jì)原始數(shù)據(jù)的收集實(shí)際上都是由DBA來做的,這就導(dǎo)致了DBA的權(quán)責(zé)不明確,DBA沒辦法客觀審計(jì)自己所做的工作,盡管用戶設(shè)置了信息安全審計(jì)人員,但該角色的審計(jì)工作的部分證據(jù)建立在DBA初步審計(jì)基礎(chǔ)上,因此審計(jì)效果與可靠性存問題。
·審計(jì)并不完整
人工審計(jì)需要面對海量的日志,不可能對所有數(shù)據(jù)進(jìn)行細(xì)致審計(jì);審計(jì)報(bào)告就未必能滿足100%可見性。
為了滿足企業(yè)的信息安全、合規(guī)、審計(jì)等需求,IBM公司推出了“CARS”企業(yè)信息架構(gòu),該架構(gòu)主要從“法規(guī)遵從”(Compliance)、“信息可用”(Availability)、“信息保留”(Retention)、“信息安全”(Security) 四個(gè)方面進(jìn)行了全面的滿足和保護(hù)。不僅如此,IBM Guardium數(shù)據(jù)庫安全、合規(guī)、審計(jì)、監(jiān)控解決方案的推出,針對了“法規(guī)遵從”和“信息安全”進(jìn)行了專項(xiàng)治理和加強(qiáng)。
Guardium數(shù)據(jù)庫安全、合規(guī)、審計(jì)、監(jiān)控解決方案,以軟硬件一體服務(wù)器的方式,大大增強(qiáng)數(shù)據(jù)庫安全性,滿足并方便審計(jì)工作,提升性能,并簡化了安裝部署工作??梢苑乐箤?shù)據(jù)庫的破壞、惡意訪問、偷竊數(shù)據(jù),可幫助判斷客戶關(guān)鍵敏感的數(shù)據(jù)在什么地方;誰在使用這些數(shù)據(jù);控制對數(shù)據(jù)庫中數(shù)據(jù)的訪問,并可監(jiān)控特權(quán)用戶;幫助企業(yè)強(qiáng)制執(zhí)行安全規(guī)范;檢查薄弱環(huán)節(jié)、漏洞,防止對數(shù)據(jù)庫配置的改動;滿足合規(guī)/審計(jì)的要求,并可簡化內(nèi)部和外部審計(jì)、合規(guī)的過程并使其自動化,增強(qiáng)運(yùn)作效率;管理安全的復(fù)雜性。
主要案例
Agrofert
農(nóng)業(yè)、食品和化工集團(tuán)Agrofert 發(fā)現(xiàn),隨著企業(yè)的快速發(fā)展,旗下子公司已經(jīng)有 160 多個(gè)不同的系統(tǒng)在運(yùn)行。很難提供統(tǒng)一的報(bào)告,而且支持和許可成本也不斷上升。如果每新購一個(gè)系統(tǒng)就擴(kuò)大一次基礎(chǔ)架構(gòu),顯然不是一種可以擴(kuò)展的戰(zhàn)略。Agrofert采用 SAP ERP 應(yīng)用程序作為其部分子公司的共享服務(wù),目的是將其逐漸推廣到整個(gè)企業(yè),這些應(yīng)用程序在兩個(gè)地點(diǎn)的 IBM Power Systems 服務(wù)器上集中管理。公司從混合數(shù)據(jù)庫環(huán)境(包括 Oracle 和 Microsoft SQL Server)遷移到 IBM DB2,將 IBM DB2 作為其標(biāo)準(zhǔn)數(shù)據(jù)庫,同時(shí)還為關(guān)鍵的業(yè)務(wù)數(shù)據(jù)部署集中的存儲系統(tǒng)。遷移后,不再需要本地系統(tǒng),能夠極大地降低管理、支持和許可成本;借助IBM DB2 可降低許可費(fèi)用,簡化管理并減少員工教育及培訓(xùn);整合的存儲有助于降低成本,而 IBM DB2 深度壓縮將會降低總體存儲需求;總成本估計(jì)減少 20%。
迪斯尼樂園
Disney 每年都有10億美元商品銷售收入,而建立一個(gè)ERP系統(tǒng)來處理這些信息是極具挑戰(zhàn)性的。
最新的集中式ERP系統(tǒng)是設(shè)計(jì)用來處理商品管理、存貨管理和相關(guān)業(yè)務(wù)過程的。但是Disney 也希望平衡財(cái)務(wù)和業(yè)務(wù)智能(BI)報(bào)告和業(yè)務(wù)分析系統(tǒng),這意味著建立一個(gè)新的數(shù)據(jù)倉庫。Disney在該項(xiàng)目中所使用的一些產(chǎn)品包括SAS分析軟件和Teradata數(shù)據(jù)倉庫技術(shù)。最新的集中式ERP、數(shù)據(jù)倉庫和分析系統(tǒng)正幫助Disney更好地管理存貨、分析銷售額和預(yù)報(bào)特定領(lǐng)域的商品需求。
構(gòu)造設(shè)計(jì)
數(shù)據(jù)倉庫具有改變業(yè)務(wù)的威力。它能幫助公司深入了解客戶行為,預(yù)測銷售趨勢,確定某一組客戶或產(chǎn)品的收益率。盡管如此,數(shù)據(jù)倉庫的實(shí)現(xiàn)卻是一個(gè)長期的、充滿風(fēng)險(xiǎn)的過程。由 DM Review 發(fā)布的一項(xiàng)網(wǎng)絡(luò)調(diào)查顯示, 51% 受訪者認(rèn)為創(chuàng)建數(shù)據(jù)倉庫的頭號障礙是缺乏準(zhǔn)確的數(shù)據(jù)。而其中最重要的一點(diǎn)是無法實(shí)時(shí)更新所有的數(shù)據(jù)。
有六項(xiàng)指導(dǎo)原則可幫助企業(yè)快速實(shí)現(xiàn)數(shù)據(jù)倉庫計(jì)劃并評估其過程:
·簡化需求收集和設(shè)計(jì)。
公司通常會難以確定,哪些數(shù)據(jù)重要,哪些使得他們無法利用有價(jià)值的非結(jié)構(gòu)化信息來驅(qū)動關(guān)鍵業(yè)務(wù)流程。組織應(yīng)該檢查一下 IT 經(jīng)理是否深入理解業(yè)務(wù)計(jì)劃以及支持計(jì)劃所需的信息。例如源數(shù)據(jù)在哪里?需要怎樣的轉(zhuǎn)換能讓其為關(guān)鍵應(yīng)用程序所用?
·支持業(yè)務(wù)和 IT 用戶協(xié)作。
不完整、過時(shí)或不準(zhǔn)確的數(shù)據(jù)會導(dǎo)致可信信息的缺乏。要注意公司是否有一個(gè)業(yè)務(wù)術(shù)語表供用戶查看、用于協(xié)作并根據(jù)他們集體業(yè)務(wù)視角進(jìn)行調(diào)整?
·避免代價(jià)高昂的低級錯誤和返工。
明確公司是否擁有一個(gè)包含界定完善的數(shù)據(jù)模型的實(shí)施策略,應(yīng)用程序提供信息?
·識別匹配信息,創(chuàng)建單一視圖。
同一事實(shí)的多個(gè)版本會導(dǎo)致在管理用戶、產(chǎn)品和合作伙伴關(guān)系方面出現(xiàn)問題——增加違反法規(guī)遵從性的風(fēng)險(xiǎn)。
·使用最快的、最具伸縮性的方法進(jìn)行轉(zhuǎn)換和發(fā)布。
明確公司是否有能夠利用并行處理并重用之前轉(zhuǎn)換成果的自動化過程?公司系統(tǒng)能否及時(shí)按需將數(shù)據(jù)發(fā)布給用戶和應(yīng)用程序?
·通過信息服務(wù)擴(kuò)展信息可訪問性。
明確企業(yè)是否能真正將信息用作共有財(cái)產(chǎn)?IT 專家能否保存好這些財(cái)產(chǎn)并讓被授權(quán)者使用?信息能否在合適的時(shí)間發(fā)布到合適的地方和合適的場景下?
實(shí)現(xiàn)方式
數(shù)據(jù)倉庫是一個(gè)過程而不是一個(gè)項(xiàng)目。
數(shù)據(jù)倉庫系統(tǒng)是一個(gè)信息提供平臺,他從業(yè)務(wù)處理系統(tǒng)獲得數(shù)據(jù),主要以星型模型和雪花模型進(jìn)行數(shù)據(jù)組織,并為用戶提供各種手段從數(shù)據(jù)中獲取信息和知識。
從功能結(jié)構(gòu)劃分,數(shù)據(jù)倉庫系統(tǒng)至少應(yīng)該包含數(shù)據(jù)獲?。―ata Acquisition)、數(shù)據(jù)存儲(Data Storage)、數(shù)據(jù)訪問(Data Access)三個(gè)關(guān)鍵部分。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。
體系結(jié)構(gòu)
數(shù)據(jù)源是數(shù)據(jù)倉庫系統(tǒng)的基礎(chǔ),是整個(gè)系統(tǒng)的數(shù)據(jù)源泉。通常包括企業(yè)內(nèi)部信息和外部信息。內(nèi)部信息包括存放于RDBMS中的各種業(yè)務(wù)處理數(shù)據(jù)和各類文檔數(shù)據(jù)。外部信息包括各類法律法規(guī)、市場信息和競爭對手的信息等等;
數(shù)據(jù)的存儲與管理
是整個(gè)數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關(guān)鍵是數(shù)據(jù)的存儲和管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時(shí)也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。要決定采用什么產(chǎn)品和技術(shù)來建立數(shù)據(jù)倉庫的核心,則需要從數(shù)據(jù)倉庫的技術(shù)特點(diǎn)著手分析。針對現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù),進(jìn)行抽取、清理,并有效集成,按照主題進(jìn)行組織。數(shù)據(jù)倉庫按照數(shù)據(jù)的覆蓋范圍可以分為企業(yè)級數(shù)據(jù)倉庫和部門級數(shù)據(jù)倉庫(通常稱為數(shù)據(jù)集市)。
OLAP服務(wù)器
對分析需要的數(shù)據(jù)進(jìn)行有效集成,按多維模型予以組織,以便進(jìn)行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。其具體實(shí)現(xiàn)可以分為:ROLAP(關(guān)系型在線分析處理)、MOLAP(多維在線分析處理)和HOLAP(混合型線上分析處理)。ROLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放在RDBMS之中;MOLAP基本數(shù)據(jù)和聚合數(shù)據(jù)均存放于多維數(shù)據(jù)庫中;HOLAP基本數(shù)據(jù)存放于RDBMS之中,聚合數(shù)據(jù)存放于多維數(shù)據(jù)庫中。
前端工具
主要包括各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以數(shù)據(jù)挖掘及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應(yīng)用開發(fā)工具。其中數(shù)據(jù)分析工具主要針對OLAP服務(wù)器,報(bào)表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。
數(shù)據(jù)抽取工具
把數(shù)據(jù)從各種各樣的存儲方式中拿出來,進(jìn)行必要的轉(zhuǎn)化、整理,再存放到數(shù)據(jù)倉庫內(nèi)。對各種不同數(shù)據(jù)存儲方式的訪問能力是數(shù)據(jù)抽取工具的關(guān)鍵,應(yīng)能生成COBOL程序、MVS作業(yè)控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數(shù)據(jù)。數(shù)據(jù)轉(zhuǎn)換都包括,刪除對決策應(yīng)用沒有意義的數(shù)據(jù)段;轉(zhuǎn)換到統(tǒng)一的數(shù)據(jù)名稱和定義;計(jì)算統(tǒng)計(jì)和衍生數(shù)據(jù);給缺值數(shù)據(jù)賦給缺省值;把不同的數(shù)據(jù)定義方式統(tǒng)一。
數(shù)據(jù)庫
是整個(gè)數(shù)據(jù)倉庫環(huán)境的核心,是數(shù)據(jù)存放的地方和提供對數(shù)據(jù)檢索的支持。相對于操縱型數(shù)據(jù)庫來說其突出的特點(diǎn)是對海量數(shù)據(jù)的支持和快速的檢索技術(shù)。
元數(shù)據(jù)
元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結(jié)構(gòu)和建立方法的數(shù)據(jù)??蓪⑵浒从猛镜牟煌譃閮深悾夹g(shù)元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。
技術(shù)元數(shù)據(jù)是數(shù)據(jù)倉庫的設(shè)計(jì)和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫使用的數(shù)據(jù)。包括:數(shù)據(jù)源信息;數(shù)據(jù)轉(zhuǎn)換的描述;數(shù)據(jù)倉庫內(nèi)對象和數(shù)據(jù)結(jié)構(gòu)的定義;數(shù)據(jù)清理和數(shù)據(jù)更新時(shí)用的規(guī)則;源數(shù)據(jù)到目的數(shù)據(jù)的映射;用戶訪問權(quán)限,數(shù)據(jù)備份歷史記錄,數(shù)據(jù)導(dǎo)入歷史記錄,信息發(fā)布?xì)v史記錄等。
商業(yè)元數(shù)據(jù)從商業(yè)業(yè)務(wù)的角度描述了數(shù)據(jù)倉庫中的數(shù)據(jù)。包括:業(yè)務(wù)主題的描述,包含的數(shù)據(jù)、查詢、報(bào)表;
元數(shù)據(jù)為訪問數(shù)據(jù)倉庫提供了一個(gè)信息目錄(informationdirectory),這個(gè)目錄全面描述了數(shù)據(jù)倉庫中都有什么數(shù)據(jù)、這些數(shù)據(jù)怎么得到的、和怎么訪問這些數(shù)據(jù)。是數(shù)據(jù)倉庫運(yùn)行和維護(hù)的中心,數(shù)據(jù)倉庫服務(wù)器利用他來存貯和更新數(shù)據(jù),用戶通過他來了解和訪問數(shù)據(jù)。
數(shù)據(jù)集市
為了特定的應(yīng)用目的或應(yīng)用范圍,而從數(shù)據(jù)倉庫中獨(dú)立出來的一部分?jǐn)?shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subjectarea)。在數(shù)據(jù)倉庫的實(shí)施過程中往往可以從一個(gè)部門的數(shù)據(jù)集市著手,以后再用幾個(gè)數(shù)據(jù)集市組成一個(gè)完整的數(shù)據(jù)倉庫。需要注意的就是在實(shí)施不同的數(shù)據(jù)集市時(shí),同一含義的字段定義一定要相容,這樣在以后實(shí)施數(shù)據(jù)倉庫時(shí)才不會造成大麻煩。
國外知名的Garnter關(guān)于數(shù)據(jù)集市產(chǎn)品報(bào)告中,位于第一象限的敏捷商業(yè)智能產(chǎn)品有QlikView, Tableau和SpotView,都是全內(nèi)存計(jì)算的數(shù)據(jù)集市產(chǎn)品,在大數(shù)據(jù)方面對傳統(tǒng)商業(yè)智能產(chǎn)品巨頭形成了挑戰(zhàn)。國內(nèi)BI產(chǎn)品起步較晚,知名的敏捷型商業(yè)智能產(chǎn)品有PowerBI, 永洪科技的Z-Suite,SmartBI,F(xiàn)ineBI商業(yè)智能軟件等,其中永洪科技的Z-Data Mart是一款熱內(nèi)存計(jì)算的數(shù)據(jù)集市產(chǎn)品。國內(nèi)的德昂信息也是一家數(shù)據(jù)集市產(chǎn)品的系統(tǒng)集成商。
數(shù)據(jù)倉庫管理
安全和特權(quán)管理;跟蹤數(shù)據(jù)的更新;數(shù)據(jù)質(zhì)量檢查;管理和更新元數(shù)據(jù);審計(jì)和報(bào)告數(shù)據(jù)倉庫的使用和狀態(tài);刪除數(shù)據(jù);復(fù)制、分割和分發(fā)數(shù)據(jù);備份和恢復(fù);存儲管理。
信息發(fā)布系統(tǒng)
把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關(guān)的數(shù)據(jù)發(fā)送給不同的地點(diǎn)或用戶?;赪eb的信息發(fā)布系統(tǒng)是對付多用戶訪問的最有效方法。
訪問工具
為用戶訪問數(shù)據(jù)倉庫提供手段。有數(shù)據(jù)查詢和報(bào)表工具;應(yīng)用開發(fā)工具;管理信息系統(tǒng)(EIS)工具;在線分析(OLAP)工具;數(shù)據(jù)挖掘工具。
數(shù)據(jù)模型
有別于一般聯(lián)機(jī)交易處理(OLTP)系統(tǒng),數(shù)據(jù)模型設(shè)計(jì)是一個(gè)數(shù)據(jù)倉庫設(shè)計(jì)的地基,當(dāng)前兩大主流理論分別為采用正規(guī)方式(normalized approach)或多維方式(dimensional approach)進(jìn)行數(shù)據(jù)模型設(shè)計(jì)。 數(shù)據(jù)模型可以分為邏輯與實(shí)體數(shù)據(jù)模型。邏輯數(shù)據(jù)模型陳述業(yè)務(wù)相關(guān)數(shù)據(jù)的關(guān)系,基本上是一種與數(shù)據(jù)庫無關(guān)的結(jié)構(gòu)設(shè)計(jì),通常均會采用正規(guī)方式設(shè)計(jì),主要精神是從企業(yè)業(yè)務(wù)領(lǐng)域的角度及高度訂出subject area model,再逐步向下深入到entities、attributes,在設(shè)計(jì)時(shí)不會考慮未來采用的數(shù)據(jù)庫管理系統(tǒng),也不需考慮分析性能問題。而實(shí)體數(shù)據(jù)模型則與數(shù)據(jù)庫管理系統(tǒng)有關(guān),是建置在該系統(tǒng)上的數(shù)據(jù)架構(gòu),故設(shè)計(jì)時(shí)需考慮數(shù)據(jù)類型(data type)、空間及性能相關(guān)的議題。 實(shí)體數(shù)據(jù)模型設(shè)計(jì),則較多有采用正規(guī)方式或多維方式的討論,但從實(shí)務(wù)上來說,不執(zhí)著于理論,能與業(yè)務(wù)需要有最好的搭配,才是企業(yè)在建置數(shù)據(jù)倉庫時(shí)的正確考量。
數(shù)據(jù)倉庫的建制不僅是資訊工具技術(shù)面的運(yùn)用,在規(guī)劃和執(zhí)行方面更需對產(chǎn)業(yè)知識、行銷管理、市場定位、策略規(guī)劃等相關(guān)業(yè)務(wù)有深入的了解,才能真正發(fā)揮數(shù)據(jù)倉庫以及后續(xù)分析工具的價(jià)值,提升組織競爭力。
設(shè)計(jì)步驟
1)選擇合適的主題(所要解決問題的領(lǐng)域)
2)明確定義事實(shí)表
3)確定和確認(rèn)維
4)選擇事實(shí)表
5)計(jì)算并存儲fact表中的衍生數(shù)據(jù)段
6)轉(zhuǎn)換維表
7)數(shù)據(jù)庫數(shù)據(jù)采集
8)根據(jù)需求刷新維表
9)確定查詢優(yōu)先級和查詢模式。
硬件平臺:數(shù)據(jù)倉庫的硬盤容量通常要是操作數(shù)據(jù)庫硬盤容量的2-3倍。通常大型機(jī)具有更可靠的性能和和穩(wěn)定性,也容易與歷史遺留的系統(tǒng)結(jié)合在一起;而PC服務(wù)器或UNIX服務(wù)器更加靈活,容易操作和提供動態(tài)生成查詢請求進(jìn)行查詢的能力。選擇硬件平臺時(shí)要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?
數(shù)據(jù)倉庫DBMS:他的存儲大數(shù)據(jù)量的能力、查詢的性能、和對并行處理的支持如何。
網(wǎng)絡(luò)結(jié)構(gòu):數(shù)據(jù)倉庫的實(shí)施在那部分網(wǎng)絡(luò)段上會產(chǎn)生大量的數(shù)據(jù)通信,需不需要對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。
建模劃分
數(shù)據(jù)倉庫的數(shù)據(jù)建模大致分為四個(gè)階段:
1.業(yè)務(wù)建模,這部分建模工作,主要包含以下幾個(gè)部分:
劃分整個(gè)單位的業(yè)務(wù),一般按照業(yè)務(wù)部門的劃分,進(jìn)行各個(gè)部分之間業(yè)務(wù)工作的界定,理清各業(yè)務(wù)部門之間的關(guān)系。
深入了解各個(gè)業(yè)務(wù)部門的內(nèi)具體業(yè)務(wù)流程并將其程序化。
提出修改和改進(jìn)業(yè)務(wù)部門工作流程的方法并程序化。
數(shù)據(jù)建模的范圍界定,整個(gè)數(shù)據(jù)倉庫項(xiàng)目的目標(biāo)和階段劃分。
2.領(lǐng)域概念建模,這部分得建模工作,主要包含以下幾個(gè)部分:
抽取關(guān)鍵業(yè)務(wù)概念,并將之抽象化。
將業(yè)務(wù)概念分組,按照業(yè)務(wù)主線聚合類似的分組概念。
細(xì)化分組概念,理清分組概念內(nèi)的業(yè)務(wù)流程并抽象化。
理清分組概念之間的關(guān)聯(lián),形成完整的領(lǐng)域概念模型。
3.邏輯建模,這部分的建模工作,主要包含以下幾個(gè)部分:
業(yè)務(wù)概念實(shí)體化,并考慮其具體的屬性
事件實(shí)體化,并考慮其屬性內(nèi)容
說明實(shí)體化,并考慮其屬性內(nèi)容
4.物理建模,這部分得建模工作,主要包含以下幾個(gè)部分:
針對特定物理化平臺,做出相應(yīng)的技術(shù)調(diào)整
針對模型的性能考慮,對特定平臺作出相應(yīng)的調(diào)整
針對管理的需要,結(jié)合特定的平臺,做出相應(yīng)的調(diào)整
生成最后的執(zhí)行腳本,并完善之。
建立步驟
步驟
1)收集和分析業(yè)務(wù)需求
2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設(shè)計(jì)
3)定義數(shù)據(jù)源
4)選擇數(shù)據(jù)倉庫技術(shù)和平臺
5)從操作型數(shù)據(jù)庫中抽取、凈化、和轉(zhuǎn)換數(shù)據(jù)到數(shù)據(jù)倉庫
6)選擇訪問和報(bào)表工具
7)選擇數(shù)據(jù)庫連接軟件
8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件
9)更新數(shù)據(jù)倉庫
數(shù)據(jù)轉(zhuǎn)換工具
1)數(shù)據(jù)轉(zhuǎn)換工具要能從各種不同的數(shù)據(jù)源中讀取數(shù)據(jù)。
2)支持平面文件、索引文件、和legacyDBMS。
3)能以不同類型數(shù)據(jù)源為輸入整合數(shù)據(jù)。
4)具有規(guī)范的數(shù)據(jù)訪問接口
5)最好具有從數(shù)據(jù)字典中讀取數(shù)據(jù)的能力
6)工具生成的代碼必須是在開發(fā)環(huán)境中可維護(hù)的
7)能只抽取滿足指定條件的數(shù)據(jù),和源數(shù)據(jù)的指定部分
8)能在抽取中進(jìn)行數(shù)據(jù)類型轉(zhuǎn)換和字符集轉(zhuǎn)換
9)能在抽取的過程中計(jì)算生成衍生字段
10)能讓數(shù)據(jù)倉庫管理系統(tǒng)自動調(diào)用以定期進(jìn)行數(shù)據(jù)抽取工作,或能將結(jié)果生成平面文件
11)必須對軟件供應(yīng)商的生命力和產(chǎn)品支持能力進(jìn)行仔細(xì)評估
主要數(shù)據(jù)抽取工具供應(yīng)商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s EDA/SQL.SASInstituteInc.
關(guān)鍵問題
一般問題 (不完全是技術(shù)或文化,但很重要) 包括但不限于以下幾點(diǎn):
業(yè)務(wù)用戶想要執(zhí)行什么樣的分析?
你現(xiàn)在收集的數(shù)據(jù)需要支持那些分析嗎?
數(shù)據(jù)在哪兒?
數(shù)據(jù)的清潔度如何?
相似的數(shù)據(jù)有多個(gè)數(shù)據(jù)源嗎?
什么樣的結(jié)構(gòu)最適合核心數(shù)據(jù)倉庫 (例如維度或關(guān)系型)?
技術(shù)問題包括但不限于以下幾點(diǎn):
在你的網(wǎng)絡(luò)中要流通多少數(shù)據(jù)?它能處理嗎?
需要多少硬盤空間?
硬盤存儲需要多快?
你會使用固態(tài)還是虛擬化的存儲?
效益
每一家公司都有自己的數(shù)據(jù)。并且,許多公司在計(jì)算機(jī)系統(tǒng)中儲存有大量的數(shù)據(jù),記錄著企業(yè)購買、銷售、生產(chǎn)過程中的大量信息和客戶的信息。通常這些數(shù)據(jù)都儲存在許多不同的地方。
使用數(shù)據(jù)倉庫之后,企業(yè)將所有收集來的信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得信息容易存取并且有使用價(jià)值。
已經(jīng)開發(fā)出一些專門的軟件工具,使數(shù)據(jù)倉庫的過程實(shí)現(xiàn)可以半自動化,幫助企業(yè)將數(shù)據(jù)導(dǎo)入數(shù)據(jù)倉庫,并使用那些已經(jīng)存入倉庫的數(shù)據(jù)。
數(shù)據(jù)倉庫給組織帶來了巨大的變化。數(shù)據(jù)倉庫的建立給企業(yè)帶來了一些新的工作流程,其他的流程也因此而改變。
數(shù)據(jù)倉庫為企業(yè)帶來了一些“以數(shù)據(jù)為基礎(chǔ)的知識”,它們主要應(yīng)用于對市場戰(zhàn)略的評價(jià),和為企業(yè)發(fā)現(xiàn)新的市場商機(jī),同時(shí),也用來控制庫存、檢查生產(chǎn)方法和定義客戶群。
通過數(shù)據(jù)倉庫,可以建立企業(yè)的數(shù)據(jù)模型,這對于企業(yè)的生產(chǎn)與銷售、成本控制與收支分配有著重要的意義,極大的節(jié)約了企業(yè)的成本,提高了經(jīng)濟(jì)效益,同時(shí),用數(shù)據(jù)倉庫可以分析企業(yè)人力資源與基礎(chǔ)數(shù)據(jù)之間的關(guān)系,可以用于返回分析,保障人力資源的最大化利用,亦可以進(jìn)行人力資源績效評估,使得企業(yè)管理更加科學(xué)合理。數(shù)據(jù)倉庫將企業(yè)的數(shù)據(jù)按照特定的方式組織,從而產(chǎn)生新的商業(yè)知識,并為企業(yè)的運(yùn)作帶來新的視角。
發(fā)展前期
計(jì)算機(jī)發(fā)展的早期,人們已經(jīng)提出了建立數(shù)據(jù)倉庫的構(gòu)想。“數(shù)據(jù)倉庫”一詞最早是在1990年,由Bill Inmon先生提出的,其描述如下:數(shù)據(jù)倉庫是為支持企業(yè)決策而特別設(shè)計(jì)和建立的數(shù)據(jù)集合。
企業(yè)建立數(shù)據(jù)倉庫是為了填補(bǔ)現(xiàn)有數(shù)據(jù)存儲形式已經(jīng)不能滿足信息分析的需要。數(shù)據(jù)倉庫理論中的一個(gè)核心理念就是:事務(wù)型數(shù)據(jù)和決策支持型數(shù)據(jù)的處理性能不同。
企業(yè)在它們的事務(wù)操作收集數(shù)據(jù)。在企業(yè)運(yùn)作過程中:隨著定貨、銷售記錄的進(jìn)行,這些事務(wù)型數(shù)據(jù)也連續(xù)的產(chǎn)生。為了引入數(shù)據(jù),我們必須優(yōu)化事務(wù)型數(shù)據(jù)庫。
處理決策支持型數(shù)據(jù)時(shí),一些問題經(jīng)常會被提出:哪類客戶會購買哪類產(chǎn)品?促銷后銷售額會變化多少?價(jià)格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時(shí)間內(nèi),相對其他產(chǎn)品來說哪類產(chǎn)品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?
事務(wù)型數(shù)據(jù)庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運(yùn)用有限的計(jì)算機(jī)資源時(shí)常常存在著競爭。在增加新信息的時(shí)候我們需要事務(wù)型數(shù)據(jù)庫是空閑的。而在解答一系列具體的有關(guān)信息分析的問題的時(shí)候,系統(tǒng)處理新數(shù)據(jù)的有效性又會被大大降低。另一個(gè)問題就在于事務(wù)型數(shù)據(jù)總是在動態(tài)的變化之中的。決策支持型處理需要相對穩(wěn)定的數(shù)據(jù),從而問題都能得到一致連續(xù)的解答。
數(shù)據(jù)倉庫的解決方法包括:將決策支持型數(shù)據(jù)處理從事務(wù)型數(shù)據(jù)處理中分離出來。數(shù)據(jù)按照一定的周期(通常在每晚或者每周末),從事務(wù)型數(shù)據(jù)庫中導(dǎo)入決策支持型數(shù)據(jù)庫——既“數(shù)據(jù)倉庫”。數(shù)據(jù)倉庫是按回答企業(yè)某方面的問題來分“主題”組織數(shù)據(jù)的,這是最有效的數(shù)據(jù)組織方式。
市場分析
有關(guān)決策支持型數(shù)據(jù)庫的數(shù)據(jù)集市是面向企業(yè)中的某個(gè)部門或是項(xiàng)目小組的。一些專家顧問將數(shù)據(jù)集市的建造描述為建立數(shù)據(jù)倉庫全過程中的一步。首先,一個(gè)儲存企業(yè)全部信息的數(shù)據(jù)倉庫被創(chuàng)建,其中,數(shù)據(jù)均具備有組織的、一致的、不變的格式。數(shù)據(jù)集市隨后被創(chuàng)立,其目的是為不同部門提供他們所需要的那部分信息。數(shù)據(jù)倉庫聚集了所有詳細(xì)的信息,而數(shù)據(jù)集市中的數(shù)據(jù)則是針對用戶們的特定需求總結(jié)而出的。
而另外一些專家則認(rèn)為數(shù)據(jù)集市的建立并不需要首先建立一個(gè)數(shù)據(jù)倉庫。在這個(gè)模型中,數(shù)據(jù)直接由事務(wù)型數(shù)據(jù)庫轉(zhuǎn)入數(shù)據(jù)集市中。一個(gè)公司可能建立有多個(gè)數(shù)據(jù)集市,而彼此之間毫無聯(lián)系。
這種不在建立數(shù)據(jù)倉庫的基礎(chǔ)上創(chuàng)建數(shù)據(jù)集市的方式會更便宜、更快速,因?yàn)樗囊?guī)模更加易于管理。
第二種觀點(diǎn)的缺陷在于無法實(shí)現(xiàn)最初創(chuàng)建數(shù)據(jù)倉庫的最主要的目的——將企業(yè)所有的數(shù)據(jù)統(tǒng)一為一致的格式?,F(xiàn)有的事務(wù)處理系統(tǒng)的數(shù)據(jù)往往是不一致、冗余的。如果首先建立起一個(gè)全公司范圍的數(shù)據(jù)倉庫,組織就能夠獲得一個(gè)統(tǒng)一關(guān)于企業(yè)的活動和客戶的知識庫。如果先建立起一個(gè)個(gè)獨(dú)立的數(shù)據(jù)集市,那么數(shù)據(jù)倉庫的諸多優(yōu)勢都能夠得以實(shí)現(xiàn),但是企業(yè)遠(yuǎn)遠(yuǎn)無法做到對數(shù)據(jù)的一致的儲存。
關(guān)系內(nèi)容
二者的聯(lián)系:
數(shù)據(jù)倉庫的出現(xiàn),并不是要取代數(shù)據(jù)庫。大部分?jǐn)?shù)據(jù)倉庫還是用關(guān)系數(shù)據(jù)庫管理系統(tǒng)來管理的??梢哉f,數(shù)據(jù)庫、數(shù)據(jù)倉庫相輔相成、各有千秋。
二者的區(qū)別:
1、出發(fā)點(diǎn)不同:數(shù)據(jù)庫是面向事務(wù)的設(shè)計(jì);數(shù)據(jù)倉庫是面向主題設(shè)計(jì)的。
2、存儲的數(shù)據(jù)不同:數(shù)據(jù)庫一般存儲在線交易數(shù)據(jù);數(shù)據(jù)倉庫存儲的一般是歷史數(shù)據(jù)。
3、設(shè)計(jì)規(guī)則不同:數(shù)據(jù)庫設(shè)計(jì)是盡量避免冗余,一般采用符合范式的規(guī)則來設(shè)計(jì);數(shù)據(jù)倉庫在設(shè)計(jì)是有意引入冗余,采用反范式的方式來設(shè)計(jì)。
4、提供的功能不同:數(shù)據(jù)庫是為捕獲數(shù)據(jù)而設(shè)計(jì),數(shù)據(jù)倉庫是為分析數(shù)據(jù)而設(shè)計(jì),
5、基本元素不同:數(shù)據(jù)庫的基本元素是事實(shí)表,數(shù)據(jù)倉庫的基本元素是維度表。
6、容量不同:數(shù)據(jù)庫在基本容量上要比數(shù)據(jù)倉庫小的多。
7、服務(wù)對象不同:數(shù)據(jù)庫是為了高效的事務(wù)處理而設(shè)計(jì)的,服務(wù)對象為企業(yè)業(yè)務(wù)處理方面的工作人員;數(shù)據(jù)倉庫是為了分析數(shù)據(jù)進(jìn)行決策而設(shè)計(jì)的,服務(wù)對象為企業(yè)高層決策人員。
內(nèi)容來自百科網(wǎng)