99爱免费观看_日韩在线免费_97成人在线视频_中文字幕三区_美女福利视频网站_色伊人

論文下載論述當下新聞云創(chuàng)新設計方案   

來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:

  論文摘要:當需要處理的數(shù)據(jù)來到數(shù)據(jù)處理中心,需要對其進行三個步驟的處理(見圖3)。首先,對數(shù)據(jù)進行預處理;其次,對數(shù)據(jù)所包含的同質(zhì)以及異質(zhì)新聞進行處理;最后,建立索引表并分配給服務器存儲。

  一、新聞云架構(gòu)

  新聞云平臺包括基礎設施、管理平臺、虛擬化、新聞應用四個子平臺(見圖1)。基礎設施平臺主要包括計算、存儲、網(wǎng)絡等設備,是云平臺的硬件支持系統(tǒng)。通過對基礎設施平臺的擴展,可進一步提高平臺承載能力,同時支持網(wǎng)絡熱備、負載均衡、異構(gòu)系統(tǒng)集成等關鍵技術研究。虛擬化平臺主要通過虛擬化技術屏蔽底層的硬件差異,實現(xiàn)對計算和存儲、網(wǎng)絡和軟件、數(shù)據(jù)和用戶等資源的高效部署和管理,為用戶使用提供穩(wěn)定、良好的運行環(huán)境。通過虛擬化平臺的建設,將進一步提高平臺的整體運維能力,同時支持虛擬化、并行計算、分布式存儲等關鍵技術的研究。云計算管理平臺實現(xiàn)對所有資源的集中管理、監(jiān)控和調(diào)度,同時提供完整的用戶計算資源申請、審批、調(diào)配的服務流程管理。云平臺通過虛擬機方式提供新聞瀏覽、查詢、收藏、訂閱和信息門戶等服務。

  二、新聞云服務

  云端服務為客戶端提供各種應用服務,能夠充分和多樣化地滿足用戶的需求,該應用服務包含瀏覽、查詢、收藏和訂閱四個選項標簽(見圖2)。

  (一)瀏覽用戶在登陸云端的虛擬平臺之后可以按照自己的意愿和愛好來實時瀏覽和閱讀新聞事件。閱讀內(nèi)容包含摘要、重大新聞、熱圖、視頻、頭條、音頻和報種等。(1)報種:用戶可以隨意閱讀諸如《重慶日報》、《重慶晚報》、《重慶晨報》等不同的報紙;(2)摘要:用戶選擇摘要瀏覽,目錄服務器返回摘要列表,以供用戶選擇自己實際想要的摘要作為閱讀內(nèi)容;(3)重大新聞:用戶申請重大新聞瀏覽服務,目錄服務器會返回帶有星級標識的重大新聞列表,重大新聞標識可由一星到五星分別用來表示新聞的重要性;(4)熱圖:根據(jù)用戶的請求,服務器返回與用戶輸入的關鍵詞有關的并且是當下搜索最為頻繁的圖片,由于所有的圖片并非一定是用戶實際搜索想要的,也考慮到服務器的響應速度和負載,所以此時返回縮略圖,用戶可以選擇自己感興趣的圖片進而看到原圖;(5)視頻:根據(jù)用戶的請求,服務器返回用戶搜索的視頻列表,有兩種類型以供用戶選擇:普通畫質(zhì)和高清畫質(zhì);(6)音頻:根據(jù)用戶的請求,服務器返回按照用戶輸入的關鍵詞排序的音頻列表,有兩種類型以供用戶選擇:普通音質(zhì)和高音質(zhì);(7)頭條:根據(jù)用戶輸入的關鍵詞,服務器將對新聞列表進行排序,隨后返回對應的頭條新聞列表。

  (二)查詢除了實時閱讀之外,用戶還可以按照自己感興趣的內(nèi)容進行選擇性查看。用戶可以按照八個關鍵詞形成的三種模式進行查詢。三種模式為資源列表、形成文檔和聯(lián)合模式。八個關鍵詞分別是時間、地點、人物、事件、類型、摘要、標簽和連接符。(1)時間:用戶可以按照事件發(fā)生的時間進行搜索;(2)地點:用戶可以按照事件發(fā)生的地點查詢;(3)人物:事件中涉及的主要人物;(4)事件:事件的總體概括;(5)類型:用戶搜索的新聞媒體類型;(6)摘要:用戶可以按照自己的需要查詢摘要中的有關信息;(7)標簽:用戶查詢時可以使用標簽作為查詢關鍵詞,標簽有五種,分別對應不同的重要等級的新聞;(8)連接符:連接同一新聞事件中不同新聞媒體的符號,允許用戶搜索與當前查看內(nèi)容為同一新聞事件的不同媒體類型。

  (三)收藏根據(jù)不同用戶的需要,云服務向用戶提供收藏服務。在該服務中,允許用戶收藏前次瀏覽或者查詢過程中標記過的書簽和關鍵字,同時,系統(tǒng)會自動保存用戶的瀏覽習慣,并借此自動設置用戶的偏好。

  (四)訂閱可以根據(jù)用戶的不同需求,提供不同的訂閱服務。訂閱服務有三種類型:訂閱摘要、訂閱詳細內(nèi)容和自定義訂閱。

  三、數(shù)據(jù)分析處理及存儲

  (一)預處理在數(shù)據(jù)的預處理過程中,首先對數(shù)據(jù)進行格式標準化。所謂格式標準化就是將各種格式的數(shù)據(jù)轉(zhuǎn)換為標準格式;然后再搜索敏感關鍵字,對于多次出現(xiàn)敏感關鍵字的新聞數(shù)據(jù)進行清理,刪除錯誤的、負面的、不科學和不真實的數(shù)據(jù)。

  (二)同質(zhì)新聞事件和異質(zhì)新聞事件的處理對數(shù)據(jù)是否為同一新聞事件進行判斷并處理,其過程如下:首先將預處理完成的數(shù)據(jù)進行內(nèi)容比對,設定相異閾值M,內(nèi)容相似度低于M的,則判定數(shù)據(jù)不是同一事件,然后對其建立索引并分布存儲;設定相容閾值N,若不同數(shù)據(jù)之間相似度高于N,則判定數(shù)據(jù)重復,刪除其中一個,只保留另外一個,將所有數(shù)據(jù)進行判定之后,進入下一步,建立索引。

  (三)建立索引并分布存儲為上一步處理的所有數(shù)據(jù)建立索引,將所有數(shù)據(jù)的索引形成索引表存放在目錄服務器中,用戶向目錄服務器遞交服務申請,由目錄服務器負責返回服務申請和數(shù)據(jù)地址映射。數(shù)據(jù)索引以特征字符串的形式組織和排序,在目錄服務器形成索引表。特征字符串(其中數(shù)字為特征項長度,沒有單位標識的,默認單位為字節(jié))的格式如圖4所示。特征字符串格式說明:在字符串中,每個字符都有每個字符的含義,具體內(nèi)容如下:

  (1)時間:長度為8字節(jié),格式為:yyyymmdd,年份4位,月份2位,日期2位;(2)地點:長度為20字節(jié),每2個字節(jié)為一個漢字,若地點字數(shù)不足10字,則剩余字節(jié)加注結(jié)束標志;

  (3)人物:長度為10字節(jié),每2個字節(jié)為一個漢字,若姓名字數(shù)不足5字,則剩余字節(jié)加注結(jié)束標志;

  (4)事件:長度為20字節(jié),每2個字節(jié)為一個漢字,若事件字數(shù)不足10字,則剩余字節(jié)加注結(jié)束標志;

  (5)摘要頭:長度為1位,若為0則表示此項不是摘要頭,為1則表示是摘要頭;

  (6)正文頭:長度為1位,若為0則表示此項不是正文頭,為1則表示是正文頭,摘要頭和正文頭不能相同;

  (7)連接符:長度為4字節(jié),連接符表示是否有數(shù)據(jù)與當前數(shù)據(jù)關系相連(即陳述的是同一新聞事件),相同新聞事件的不同媒體之間的連接符相同;

  (8)標簽:表示當前新聞事件的重要程度,分為5個等級;

  (9)校驗位:長度為1位,用以校驗特征字符串。將所有條目的特征字符串整合、排序并映射到主機地址和存儲路徑,形成索引表,存放在目錄服務器,以便管理和用戶查詢(見表1)。

  四、文件存儲格式

  考慮到新聞媒體的多樣化,對各種媒體確定唯一存儲格式并作為標準格式,以便于存儲和管理維護,如圖5所示。

  (一)視頻為了便于用戶觀看,保證視頻資源的流暢,采用后綴為flv的流媒體格式。為了滿足不同用戶的需求,視頻分為一般畫質(zhì)和高清畫質(zhì)。

  (二)音頻為了方便用戶,同時考慮到存儲空間的大小,采用后綴為mp3的壓縮格式,分為一般音質(zhì)和高音質(zhì)。

  (三)圖片在所有圖片格式中,jpg格式圖片在同等畫質(zhì)下壓縮比更高、體積更小,便于網(wǎng)絡傳輸,其廣泛支持Internet標準的特性也使得它脫穎而出。(四)文本文本包括摘要、正文、頭條和評論等內(nèi)容。因為在用戶界面會有格式描述符,所以在存儲時就沒有必要加入更多的格式,所以采用txt格式的記事本文件可以最大限度地節(jié)約空間和加快傳輸速度。

  五、系統(tǒng)測試

  (一)新聞云手機客戶端測試該新聞客戶端是用Android編寫的一個可以與云端進行數(shù)據(jù)交互、提供實時更新新聞的一個新聞客戶端[4]。客戶端跟服務器的通信主要是依據(jù)Http協(xié)議,它詳細規(guī)定了瀏覽器和萬維網(wǎng)服務器之間互相通信的規(guī)則,通過因特網(wǎng)傳送萬維網(wǎng)文檔的數(shù)據(jù)傳送協(xié)議[5]。本新聞客戶端引用A-pache公司提供的用于客戶端與服務器通信的Ht-tp封裝包。所使用的Android控件主要有Activi-ty,ListView,Button,EditView等。UI設計工具使用了Photoshop、Droiddraw等工具。手機客戶端構(gòu)架如圖6所示。Http定義了與服務器交互的不同方法,最基本的方法有四種,分別是get,post,put和delete。URL全稱是資源描述符,我們可以這樣認為:一個URL地址,它用于描述一個網(wǎng)絡上的資源,而Http中的get,post,put,delete就對應著這個資源的查、改、增、刪四個操作。本客戶端使用了HttpGet和HttpPost兩種和服務器通信的方法。HttpGet用于客戶端不需要向服務器傳送數(shù)據(jù),而是直接取得服務器端的數(shù)據(jù),比如說打開新聞客戶端軟件,服務器直接把最近的熱點新聞推送到客戶端。Http-Post用于客戶端向服務器提交數(shù)據(jù),服務器接受并根據(jù)客戶端提交的數(shù)據(jù)返回相應數(shù)據(jù)到客戶端。數(shù)據(jù)編碼統(tǒng)一采用GBK編碼。服務器是用的虛擬在PC機上的Apache服務器,客戶端每一個種類的新聞請求對應在服務器上就有一個被發(fā)布的Servlet。服務器從數(shù)據(jù)庫取到相應的數(shù)據(jù)后把數(shù)據(jù)拼湊成類似Json格式,通過HttpServle類的方法把數(shù)據(jù)以字符串的格式傳輸?shù)娇蛻舳薣6]。客戶端在接收到服務器傳輸過來的字符串后,通過生成JsonObject數(shù)據(jù)的方法把字符串轉(zhuǎn)換為Json格式的數(shù)據(jù)。Json格式數(shù)據(jù)如下所示:{“title”:張無忌,“time”:2014-03-27,“con-tent”:譴責昆明暴力事件實施者},客戶端通過取得title,time,content三個標簽就可以獲得它們所對應的數(shù)據(jù)。基于對項目優(yōu)化的考慮,本新聞客戶端的所有圖片均使用外鏈圖片,服務器只需傳送圖片的URL到客戶端,客戶端根據(jù)URL通過Http協(xié)議從網(wǎng)絡上下載圖片,首先以字節(jié)的形式保存在數(shù)組中,然后通過BitmapFactory的DecodeByteArray方法將字節(jié)數(shù)據(jù)轉(zhuǎn)換為Bitmap格式的數(shù)據(jù),Bitmap格式的數(shù)據(jù)可以直接以圖片的方式顯示在An-droid界面上。UI設計[7]小組把新聞客戶端的背景圖片完全設計好后,主界面使用TextView顯示導航,導航可包括娛樂、汽車、女性、政治、財經(jīng)、房產(chǎn)、游戲、科技和軍事等內(nèi)容。由于手機屏幕的限制,本客戶端使用HorizontalScrollView類實現(xiàn)可左右滑動導航,使用ListView顯示新聞,ButtonView實現(xiàn)屏幕下方的各個按鈕等。其主界面如圖7所示。點擊新聞列表中的某一條新聞,就可顯示該新聞的詳細內(nèi)容。在主界面點擊放大鏡樣式的圖標即可跳轉(zhuǎn)到搜索界面,將想要搜索的內(nèi)容上傳到云端,云端將相對應的新聞返回并顯示到手機客戶端上。例如:在搜索框里輸入cloudcompu-ting,然后點擊搜索,就會顯示出云端與cloudcom-puting相關的新聞。運行截圖如圖8所示。

  (二)客戶機測試使用Hadoop云計算平臺[8],Hadoop包括兩大核心,即分布式存儲系統(tǒng)和分布式計算系統(tǒng)。其中分布式存儲系統(tǒng)采用HDFS進行存儲,HDFS是Hadoop的存儲云。主節(jié)點運行文件管理進程(namenode),從節(jié)點實現(xiàn)文件存儲進程(datanode)。而分布式計算系統(tǒng)采用MapReduce進行計算。MapReduce是Hao-doop的計算云,主節(jié)點運行任務管理進程(jobtrack-er),從節(jié)點運行任務執(zhí)行進程(tasktracker)。新聞云測試平臺使用三臺PC搭建Hadoop環(huán)境,詳細內(nèi)容如表2所示。MySQL是輕量級數(shù)據(jù)庫,因為存儲空間有限,所以對大數(shù)據(jù)的處理能力十分有限,就算是Oracle等世界頂尖級數(shù)據(jù)庫公司也力不從心,Hadoop應運而生,以價格優(yōu)勢以及超強的數(shù)據(jù)庫能力成為下一代數(shù)據(jù)庫解決方案。Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎構(gòu)架[9]。Hive提供SQL解析引擎,它將SQL語句轉(zhuǎn)譯成MapReduce,然后在Hadoop上執(zhí)行。Hive的表其實就是HDFS的目錄,按表名把文件夾分開。Hive將元數(shù)據(jù)存儲在數(shù)據(jù)庫中,目前只支持Mysql和Derby。在Hive環(huán)境下建立數(shù)據(jù)庫并建表,與輕量級數(shù)據(jù)庫字段相對應。通過Java程序?qū)ysql表中數(shù)據(jù)導出后上傳到Hadoop的Hive數(shù)據(jù)庫指定表的目錄下,就將此表導入到了剛才建立的數(shù)據(jù)庫中,對Hive執(zhí)行查詢并將結(jié)果保存到本地。這樣就將輕量級數(shù)據(jù)庫的表信息通過Hadoop處理并保存到了本地。在數(shù)據(jù)處理部分可以進行例如輿情分析、數(shù)據(jù)清洗等工作。針對傳統(tǒng)機器內(nèi)存的限制和如今數(shù)據(jù)量不斷增大的問題,這種云架構(gòu)打破了傳統(tǒng)的物理機瓶頸,只要增加廉價的運算節(jié)點就可以不斷提高整個Hadoop架構(gòu)的處理能力。整個瀏覽系統(tǒng)采用了J2EE的標準,使用了Browser/Server架構(gòu),簡化且規(guī)范了應用系統(tǒng)的開發(fā)與部署。前臺的頁面用Jsp完成,頁面設計用div+css+javascript的設計方式;后臺在Java環(huán)境下完成,使用Servlet和Javabean結(jié)構(gòu)。用戶在瀏覽器中輸出信息,提交表單,確認提交后,form表單將數(shù)據(jù)通過Http協(xié)議傳遞給Tomcat服務器中發(fā)布的Web項目,即Url中指定的Servlet。Tomcat容器將接收的表單數(shù)據(jù)交給Servlet,再由Servlet處理。Servlet調(diào)用相應的處理類驗證用戶信息,處理類操作數(shù)據(jù)庫返回驗證信息,若驗證成功Servlet將驗證查詢數(shù)據(jù)庫,并將生成的Jsp通過Ht-tp返回給客戶端瀏覽器,圖9為新聞云頁面。

  六、結(jié)論

  本文設計了一個基于云計算的新聞云平臺,該平臺包括基礎設施、管理平臺、虛擬化、新聞應用四個子平臺,為客戶端提供瀏覽、查詢、收藏和訂閱等基本功能服務。對新聞數(shù)據(jù)進行三個步驟的處理,即對數(shù)據(jù)進行預處理,對數(shù)據(jù)所包含的同質(zhì)以及異質(zhì)新聞進行處理和建立索引表,分配給服務器存儲。考慮到新聞媒體的多樣化,對各種不同媒體,確定唯一存儲格式作為標準格式,以便于存儲和管理維護。為驗證方案的有效性,搭建了基于Hadoop的云平臺,其中分布式存儲系統(tǒng)采用HDFS進行存儲,分布式計算系統(tǒng)采用MapRe-duce進行計算,使用Hive提供SQL解析引擎,將SQL語句轉(zhuǎn)譯成MapReduce,然后在Hadoop上執(zhí)行,完成海量數(shù)據(jù)的檢索。同時設計了基于PC機和Android移動終端的新聞云客戶端。

主站蜘蛛池模板: 国产精品久久久久aaaa九色 | 欧美性视频网站 | 美女视频一区 | 91久久| 一区二区在线看 | 毛片91| 国产情品| 小草av | 超碰人人爱 | 蜜桃精品在线观看 | 欧美视频免费在线观看 | 欧美日韩一区二区三区免费视频 | 成人深夜福利视频 | 91精品一区二区三区在线观看 | 4虎tv| 99国内精品久久久久久久 | 欧美激情欧美激情在线五月 | 亚洲黄页| 得得啪在线视频 | 中文字幕免费在线观看 | 先锋资源中文字幕 | 黄a在线观看 | 成人久久18| 日韩一区二区在线免费观看 | 中文成人无字幕乱码精品 | 久久综合九色综合欧美狠狠 | 精品成人在线 | 风间由美一区二区三区在线观看 | 日韩色 | 久久伊人影院 | 午夜看片 | 中文字幕91 | 九九人人| 黄色三级网 | 在线免费精品 | 色婷婷综合久久久久中文一区二 | 亚洲精品久久久久久一区二区 | 黄色一级毛片 | 九九久久久| 亚洲爽爽| 久久精品1 |