社區(qū)問答系統(tǒng)中基于當(dāng)前興趣的問題推薦研究

來源：期刊VIP網(wǎng)所屬分類：計(jì)算機(jī)信息管理時(shí)間：瀏覽：次

　　摘要：社區(qū)問答系統(tǒng)作為一種新興的知識(shí)分享平臺(tái)，在幫助用戶獲取有用信息方面取得了相當(dāng)大的成功。將用戶提出的問題推薦給感興趣的回答者依然是社區(qū)問答平臺(tái)面臨的一個(gè)問題。針對(duì)興趣度，已提出了多個(gè)表示模型，但這些模型沒有考慮興趣的時(shí)間維度。本文提出用TOT主題模型建立備選回答者興趣的動(dòng)態(tài)變化模型，找出備選回答者的當(dāng)前興趣，然后進(jìn)行問題推薦。實(shí)驗(yàn)表明本文提出的方法是有效的。

　　關(guān)鍵詞：社區(qū)問答系統(tǒng);問題推薦;興趣度;Topics Over Time主題模型

中國科技信息

　　《中國科技信息》雜志1989年10月于北京創(chuàng)刊，是由中國科學(xué)技術(shù)協(xié)會(huì)主管，中國科技新聞學(xué)會(huì)主辦的一家國家級(jí)科技綜合類半月刊。

　　0 引言

　　作為一種新興的知識(shí)分享平臺(tái)，社區(qū)問答系統(tǒng)(Commu-nity Question Answering，以下簡(jiǎn)稱CQA)以問題和答案的形式供用戶交流信息、共享知識(shí)[1-3]。典型的CQA有Yahoo!Answers、Stack Exchange系列網(wǎng)站、百度知道和知乎等。CQA開放、交互的社會(huì)化屬性吸引了越來越多的用戶參與其中。僅在2012年，Yahoo!Answers平均每小時(shí)產(chǎn)生7000個(gè)問題和21000個(gè)答案[4]。

　　雖然CQA在幫助用戶獲取有用信息方面取得了相當(dāng)大的成功，但也存在不少亟待解決的問題。其中一個(gè)重要的問題就是如何讓用戶提出的問題得到快速有效的解答。一項(xiàng)研究表明，用戶提出的問題中有超過80%的問題不能在48小時(shí)內(nèi)得到滿意的回答[5，6]。另外，由于新產(chǎn)生的問題數(shù)量龐大，有能力回答問題的用戶又很難找到自己感興趣且擅長(zhǎng)領(lǐng)域的問題來進(jìn)行解答。

　　對(duì)于上述問題，一個(gè)有效的解決方法就是將新問題推薦給合適的回答者，使之能獲得快速高質(zhì)量的回答，即所謂的“問題推薦”(Question Routing)[7，8]。合適的回答者需要滿足以下三個(gè)條件：

　　(1)對(duì)新問題感興趣，用興趣度(Interest)衡量;

　　(2)對(duì)新問題能提供高質(zhì)量的回答，用權(quán)威度(Autho-rity)衡量;

　　(3)能及時(shí)地回答新問題，用在線可能性(Availability)衡量。

　　問題推薦的關(guān)鍵在于為這三個(gè)參數(shù)建立合適的表示模型。對(duì)于這三個(gè)參數(shù)，不少學(xué)者提出了自己的模型。

　　對(duì)于興趣度，最基本的模型是QLLM模型[9]，其基本思想是將新問題看作查詢，將潛在回答者的資料(比如潛在回答者的歷史回答問題集合)看作文檔，通過語言模型計(jì)算新問題的生成概率。文獻(xiàn)[10]提出了LDALM模型，該模型融合了詞語和主題兩個(gè)層次的問題生成概率。文獻(xiàn)[11]提出了TCS-LM模型，該模型在計(jì)算問題的生成概率時(shí)引入了問題的類別信息。文獻(xiàn)[12]提出了CBLM模型，該模型引入問答系統(tǒng)的結(jié)構(gòu)信息，以問題及其答案為基本單元來計(jì)算問題的生成概率，文獻(xiàn)[10]為了解決QLLM、TCS-LM和CBLM中存在的詞不匹配問題提出了ITR模型。

　　對(duì)于權(quán)威度，最準(zhǔn)確的度量方法需要依據(jù)潛在回答者的答案質(zhì)量，但是目前精確評(píng)判答案的質(zhì)量相當(dāng)困難，一般采用間接方法估算權(quán)威度。最常用的方法是基于鏈接分析的方法，如PageRank和HITS及其衍生方法，這些方法將回答行為看作一個(gè)鏈接。另外，還有采用機(jī)器學(xué)習(xí)的方法間接評(píng)判答案的質(zhì)量，例如，文獻(xiàn)[13]采用邏輯回歸的方法計(jì)算某個(gè)答案為一個(gè)“好”答案的概率，在回歸中使用的特征包括答案的長(zhǎng)度、問題與答案的長(zhǎng)度比和問題的答案總數(shù)等。

　　對(duì)于在線可能性，這方面開展的研究工作相對(duì)較少。文獻(xiàn)[13]把在線可能性度量問題看作一個(gè)時(shí)間序列趨勢(shì)預(yù)測(cè)問題，具體過程是根據(jù)潛在回答者在某個(gè)時(shí)刻之前的歷史回答行為采用自動(dòng)回歸的方法預(yù)測(cè)潛在回答者在該時(shí)刻之后一段時(shí)間內(nèi)有回答行為的可能性。文獻(xiàn)[10]提出了一個(gè)相對(duì)簡(jiǎn)單的計(jì)算方法，該方法僅考慮潛在回答者最近的一次回答行為。

　　如前所述，針對(duì)興趣度已提出了多個(gè)表示模型，實(shí)驗(yàn)證明這些模型也取得了不錯(cuò)的效果。但這些模型都存在一個(gè)共同的問題，就是沒有考慮用戶興趣的時(shí)間維度。用戶的興趣是動(dòng)態(tài)變化的。經(jīng)驗(yàn)表明，用戶更愿意回答當(dāng)前興趣范圍內(nèi)的問題。本文提出用TOT主題模型[14]建立備選回答者興趣的動(dòng)態(tài)變化模型，找出備選回答者的當(dāng)前興趣，然后進(jìn)行問題推薦。實(shí)驗(yàn)表明本文提出的方法是有效的。

　　4 結(jié) 論

　　針對(duì)目前已提出的興趣度模型沒有考慮興趣的時(shí)間維度，且經(jīng)驗(yàn)表明人們一定程度上傾向于回答與當(dāng)前興趣相關(guān)的問題，本文提出了基于當(dāng)前興趣的問題推薦模型，利用TOT主題模型挖掘用戶的當(dāng)前興趣，然后進(jìn)行問題推薦。實(shí)驗(yàn)結(jié)果表明，挖掘用戶的當(dāng)前興趣有助于問題的推薦。本文下一步的研究方向是將基于當(dāng)前興趣的問題推薦模型與其他基于興趣度的問題推薦模型進(jìn)行融合。本文采用的數(shù)據(jù)集規(guī)模略顯不足，可能會(huì)導(dǎo)致TOT的訓(xùn)練不夠充分，對(duì)挖掘用戶當(dāng)前興趣的準(zhǔn)確性有一定影響，下一步將在更大規(guī)模的數(shù)據(jù)集上進(jìn)行測(cè)試。另外，時(shí)間步長(zhǎng)的選取也需要進(jìn)一步的優(yōu)化。

　　參考文獻(xiàn)：

　　[1] 曹艷蓉.基于中文社區(qū)的智能問答系統(tǒng)的設(shè)計(jì)與研究 [D].南京：南京郵電大學(xué)，2018.

　　[2] 張力.社區(qū)問答系統(tǒng)中答案排序和問題檢索算法研究與應(yīng)用 [D].合肥：中國科學(xué)技術(shù)大學(xué)，2018

　　[3] 劉曉鳴.社區(qū)問答系統(tǒng)中的專家發(fā)現(xiàn)方法研究 [D].大連：大連理工大學(xué)，2013.

　　[4] 劉淵杰.社區(qū)問答系統(tǒng)最佳回答機(jī)制的研究 [D].上海：上海交通大學(xué)，2010.

　　[5] 路遙.用戶交互式問答系統(tǒng)中問題推薦機(jī)制的研究 [D].合肥：中國科學(xué)技術(shù)大學(xué)，2012.

　　[6] 林鴻飛，王健，熊大平，等.基于類別參與度的社區(qū)問答專家發(fā)現(xiàn)方法 [J].計(jì)算機(jī)工程與設(shè)計(jì)，2014，35(1)：333-338.

　　[7] 戴秋敏.互動(dòng)問答平臺(tái)專家發(fā)現(xiàn)及問題推薦機(jī)制的研究 [D].上海：華東師范大學(xué)，2014.

　　[8] 馬澤鋒.基于機(jī)器學(xué)習(xí)的問答推薦系統(tǒng)問題推薦模型研究 [D].廣州：中山大學(xué)，2013.

　　[9] Zhou G，Liu K，Zhao J. Joint Relevance and Answer Quality Learning for Question Routing in Community QA [C]. Hawaii：International Conference on Information and Knowledge Management，2012：1492-1496.

　　[10] 劉明榮.協(xié)作式問答系統(tǒng)關(guān)鍵技術(shù)研究 [D].北京：中國科學(xué)院研究生院，2010.

　　[11] Li B，King I，Lyu M R. Question routing in community question answering：Putting category in its place [C]. Glasgow：Proceedings of the 20th ACM Conference on Information and Knowledge Management，2011：2041-2044

　　[12] Zhou Y，Cong G，Cui B，et al. Routing Questions to the Right Users in Online Communities [C]. Data Engineering，2009. ICDE '09. IEEE 25th International Conference on. S.l.：s.n.，2009：700-711.

　　[13] Li B，King I. Routing questions to appropriate answerers in Community Question Answering services [C]. Toronto：Proceedings of the 19th ACM international conference on Information and knowledge management，2010：1585-1588.

　　[14] Wang X，McCallum A.Topics over Time：A Non-Markov Continuous-Time Model of Topical Trends [C]. Philadelphia：Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining，2006：44-54.

上一篇：深讀十大光企財(cái)報(bào)集體承壓背后光通信

下一篇：中部崛起與數(shù)字化轉(zhuǎn)型升級(jí)

99爱免费观看_日韩在线免费_97成人在线视频_中文字幕三区_美女福利视频网站_色伊人

社區(qū)問答系統(tǒng)中基于當(dāng)前興趣的問題推薦研究

查看北核目錄大全及期刊首頁

更多計(jì)算機(jī)信息管理文章推薦

專題專項(xiàng)服務(wù)