期刊VIP學術指導 符合學術規范和道德
保障品質 保證專業,沒有后顧之憂
[摘要]:電視臺的網站是通過防火墻將內部網與外部網進行分隔,現在在WEB服務器與防火墻之間新設一臺交流中心DB2服務器,在WEB服務器上通過鏈接到此服務器上,交流中心DB2服務器上安裝DB2數據庫,進行登錄人員身份驗證,并將各地區電視臺和特約記者提交的新聞稿放入到數據庫中,應用軟件能對各種稿件進行分類處理,建立一個稿件數據庫,各地區電視臺和特約記者能隨時查閱、下載。
[關鍵詞]:數據倉庫,數據挖掘技術,新聞中心
一、數據倉庫(DW)
80年代初,W.H.Inmon在“記錄系統”、“原子數據”和“決策支持系統”等專題研究報告中,提出了數據倉庫或信息倉庫的概念并給出了基本框架描述。按照Inmon的觀點,數據倉庫是面向主題的、集成的、非發散的、具有時間維的數據集合,用來服務于管理部門的分析和決策。數據倉庫與傳統事務數據庫相比,主要有如下不同:
(1)數據倉庫的第一個特征就是面向企業重要的主題,它是一種分析驅動面向主題的數據處理技術,而不是傳統的事務驅動/面向應用的數據處理方式。例如事務數據庫是針對諸如貸款、財務、工資、人事等功能和應用設計的,而數據倉庫則主要針對諸如顧客、供應商、產品等主題而設計。數據倉庫追求整體最優,服務于管理分析與決策。事務數據庫追求單一的處理最優,服務于在線事務處理。
(2)數據倉庫的另一個重要的特征就是其數據是集成化的,如一致的命名規則、一致的度量單位、一致的編碼規則、一致的數據物理屬性等。比如:在事務數據庫中,時間的表示方法在應用A中為date (yymmdd ),在應用B中為date ( mmddyy ),那么導入數據倉庫中后統一為date ( yymmdd ) 。這樣保證了數據的可靠性與一致性。
(3)數據倉庫中的數據不是一個時刻的數據,而是一個時間段的數據,這是數據倉庫區別事務數據庫的基本特征。事務數據庫的數據對當前是“精確”的,而數據倉庫中的數據對一個時間段來說都是“精確”的,故具有時間跨度性。
媒體論壇推薦:《視聽界》是由中華人民共和國新聞出版總署、正式批準公開發行的優秀期刊。自創刊以來,以新觀點、新方法、新材料為主題,堅持"期期精彩、篇篇可讀"的理念。視聽界內容詳實、觀點新穎、文章可讀性強、信息量大,眾多的欄目設置,視聽界公認譽為具有業內影響力的雜志之一。視聽界并獲中國優秀期刊獎,現中國期刊網數據庫全文收錄期刊。
(4)面向應用的事務數據庫的操作基于單個記錄的插入、更新與刪除,性能敏感、內容易變且無冗余,而面向主題的數據倉庫系統的操作基于多個數據源數據的成批刷新,性能不敏感、內容可有冗余。
由此可以看出,數據倉庫主要從歷史的角度描述系統結構和狀態的變化,它采用能夠反映時間維特征的數據結構,將基于多個同質或異質事務數據庫和外部信息作為數據源,經過提煉、加工、匯總和歸一化處理,生成符合數據應用語義規范要求的數據集合,以滿足企業多種復雜的信息需求和預測分析。
二、數據挖掘的技術含義
談到數據挖掘,必須提到數據庫中的知識發現(KDD: Knowledge Discovery in Databases)。關于KDD與Data Mining的關系,有許多不同的看法。我們可以從這些不同的觀點中了解數據挖掘的技術含義。
(1) KDD看成數據挖掘的一個特例
既然數據挖掘系統可以在關系數據庫、事務數據庫、數據倉庫、空間數據庫(Spatial Database)、文本數據(Text Data)以及諸如WEB等多種數據組織形式中挖掘知識,那么數據庫中的知識發現只是數據挖掘的一個方面。這是早期比較流行的觀點,在許多文獻可以看到這種說法。因此,從這個意義說,數據挖掘就是從數據庫、數據倉庫以及其它數據存儲方式中挖掘有用知識的過程。這種描述強調了數據挖掘在源數據形式上的多樣性。
(2) 數據挖掘是KDD過程的一個步驟
例如,在“知識發現1996國際會議” 上,許多學者建議對這兩個名詞加以區分[6]。核心思想是:KDD是從數據庫中發現知識的全部過程,而Data Mining則是此全部過程的一個特定的、關鍵步驟。這種觀點有它的合理性。雖然我們可以從數據倉庫、WEB等源數據中挖掘知識,但是這些數據源都是和數據庫技術相關的。數據倉庫是由源數據庫集成而來的,即使是像WEB這樣的數據源恐怕也離不開數據庫技術來組織和存儲抽取的信息。因此KDD是一個更廣義的范疇,它包括數據清洗、數據集成、數據選擇、數據轉換、數據挖掘、模式生成及評估等一系列步驟。這樣,我們可以把KDD看作是一些基本功能構件的系統化協同工作系統,而數據挖掘則是這個系統中的一個關鍵的部分。源數據經過清洗和轉換等成為適合于挖掘的數據集,數據挖掘在這種具有固定形式的數據集上完成知識的提煉,最后以合適的知識模式用于進一步分析決策工作。從這種狹義的觀點上,我們可以定義數據挖掘是從特定形式的數據集中提煉知識的過程。數據挖掘作為KDD的一個重要步驟看待,可以使我們更容易聚焦研究重點,有效解決問題。目前,人們在數據挖掘算法的研究上,基本屬于這樣的范疇。
(3)KDD與Data Mining含義相同
有些人認為,KDD與Data Mining只是叫法不一樣,它們的含義基本相同。事實上,在現今的文獻中,許多場合,如技術綜述等,這兩個術語仍然不加區分地使用著。也有人說,KDD在人工智能界更流行;Data Mining在數據庫界使用更多。所以,從廣義的觀點,數據挖掘是從大型數據集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。
從上面的描述中可以看出,數據挖掘概念可以在不同的技術層面上來理解,但是其核心仍然是從數據中挖掘知識。所以,有人說叫知識挖掘更合適。本文使用數據挖掘的狹義定義。
三、新聞中心數據倉庫設計
新聞中心信息交流系統是要在電視臺網站下建立一個新聞信息交流中心。各地區電視臺和特約記者通過Internet訪問該新聞交流網站,通過身份認證進入交流中心,可以利用該中心提交新聞稿,查看其它地方臺的稿件、采訪計劃,進行新聞交流,并查看省臺串聯單信息。電視臺新聞部可以通過該中心進行約稿,公布約稿情況。
由于安全需要,各地區電視臺和特約記者不能直接進入到新聞部的服務器,而新聞部又必須能取得上傳的新聞稿,所以我設計了如下的系統結構:
WEB服務器
交流中心DB2服務器
防火墻
新聞部DB2服務器
電視臺服務器
防火墻能防止登錄人員進入到電視臺內部網中,而讓新聞部DB2服務器對交流中心DB2服務器進行訪問,這樣,新聞部就能及時地將各地區電視臺和特約記者提交的稿件取出并存入本地的DB2數據中,并能將約稿要求寫入交流中心DB2數據庫中,由登錄用戶提取。
四、新聞中心系統數據挖掘
隨著電視臺信息化過程的日益完善,提供更為詳細和智能的決策支持則成為目前信息化的主要目標。浙江電視臺信息中心數據倉庫的建成,就為電視臺進一步的信息挖掘提供了可能。我們在這個數據倉庫的基礎上,建立了關聯規則挖掘模型和判定樹歸納分類模型,并利用最小二乘法建立新聞稿件數量預測模型。盡管由于時間關系沒有具體實現,但為今后的研究和實施打下了良好的基礎。
新聞中心內部數據庫比較龐大,新聞種類很多,這些新聞種類之間有沒有什么聯系呢,工作人員查閱審批這些新聞工作量很大,如果我們能找出各新聞種類之間的聯系,就可以把相關內容的新聞歸為一類,派一個人管理,提高工作效率。而且,若我們知道了某類新聞是當前的熱點,那我們就可以挖掘與這類新聞關聯的新聞,多報道一些相關聯的新聞,同樣能提高收視率。要做到這些,就要使用關聯規則的挖掘。
定義:包含k個項的項集稱為k項集。項集得出現頻率是包含項集的事務數,簡稱為項集的頻率、支持計數或計數。如果項集滿足最小支持度,則稱它為頻繁項集(frequent itemset )。 頻繁k項集的集合通常記為Fk。
Apriozi性質:頻繁項集的所有非空子集都必須是頻繁的。如果項集F不滿足最小支持度閥值min_sup,則F不是頻繁的,即P (F)
(1)連接:為了通過Fk-1,找到Fk,先把Fk-1與自己連接產生候選k項集的集合,記為Ck。設L1和L2是Fk-1中的項集。記號Li[j]表示Li的第j項。執行連接Fk-1>< Fk-1,加果它們前(k-2)項相同,Fk-1是可連接的。連接L1和L2產生的結果項集是L1[1]L1[2]……L1[k-1]L2[k-1]。
(2)剪枝:Ck是Fk的超集,它的成員可以不是頻繁的,但所有的頻繁k項集都在Ck中。掃描數據庫,確定Ck中每個候選的計數,從而確定Fk。然而,Ck可能很大,這樣所涉及的計算量就很大。應用Apriori性質,如果一個候選k項集的(k-1)子集不在Fk-1,中,則該候選也不可能是頻繁的,從而可以由Ck中刪除。
Apriori的候選產生——檢查算法大幅度壓縮了候選項集的大小;并有很好的性能。但是,它還是有兩種不可忽視的開銷。
·它可能需要產生大量候選項集。新聞中心數據庫有幾萬條記錄,即>1萬個頻繁1項集,則Apriori算法需要產生多達100萬個個候選2項集,并累計和檢查它們的頻繁性。
·它可能需要重復的掃描數據庫,通過模式匹配檢查一個很大的候選集合。為發現長度為100的頻繁模式,如{a1,...,a100},它必須產生多達幾萬億個候選。
解決方法:將提供頻繁項集的數據庫壓縮到一顆頻繁樹(F樹),但仍保留項集關聯信息;然后,將這種壓縮后的數據庫分成一組條件數據庫,每個關聯一個頻繁項,并分別挖掘每個數據庫。
使用頻繁模式增長方法,重新對例1的事務數據庫進行挖掘。
數據庫的第一次掃描與Apriori相同,導出頻繁1項集集合,并得到它們的支持度計數。設最小支持度計數為2。結果集記為F。這樣,F=[L2:7,L1:6,L3:6,L4:2,L5:2]。
構造FP樹如下:首先,創建樹的根結點,用“null”標記。第二次掃描數據庫D。每個事務中的項按L中的次序處理(即按遞減支持度計數排序)并對每個事務創建一個分支。例如,第一個事務“T100: L1, L2, L5”,按L的次序包含三個項{L2,L1,L5 },導致構造樹的第一個分支到<(L2:1),(L1:1),(L5:1)>。該分支具有三個節點,其中,L2作為根的子女連接,L1連接到L2,L5連接到L1。第二個事務T200按F的次序包含項L2和L4,它導致一個分支,其中,L2連接到根,L4連接到L2。然而,該分支應當與T100已經存在的路徑共享前綴,這樣,將節點L2的計數增加1,并創建一個新節點(L4: 1),它作為(L2: 2 )的子女鏈接。一般,當為一個事務考慮增加分支時,沿共同前綴上的每個節點的計數增加1,為跟隨在前綴之后的項創建節點并連接。