期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:計(jì)算機(jī)信息管理時(shí)間:瀏覽:次
摘 要:社區(qū)問答系統(tǒng)作為一種新興的知識(shí)分享平臺(tái),在幫助用戶獲取有用信息方面取得了相當(dāng)大的成功。將用戶提出的問題推薦給感興趣的回答者依然是社區(qū)問答平臺(tái)面臨的一個(gè)問題。針對(duì)興趣度,已提出了多個(gè)表示模型,但這些模型沒有考慮興趣的時(shí)間維度。本文提出用TOT主題模型建立備選回答者興趣的動(dòng)態(tài)變化模型,找出備選回答者的當(dāng)前興趣,然后進(jìn)行問題推薦。實(shí)驗(yàn)表明本文提出的方法是有效的。
關(guān)鍵詞:社區(qū)問答系統(tǒng);問題推薦;興趣度;Topics Over Time主題模型
《中國科技信息》雜志1989年10月于北京創(chuàng)刊,是由中國科學(xué)技術(shù)協(xié)會(huì)主管,中國科技新聞學(xué)會(huì)主辦的一家國家級(jí)科技綜合類半月刊。
0 引 言
作為一種新興的知識(shí)分享平臺(tái),社區(qū)問答系統(tǒng)(Commu-nity Question Answering,以下簡(jiǎn)稱CQA)以問題和答案的形式供用戶交流信息、共享知識(shí)[1-3]。典型的CQA有Yahoo!Answers、Stack Exchange系列網(wǎng)站、百度知道和知乎等。CQA開放、交互的社會(huì)化屬性吸引了越來越多的用戶參與其中。僅在2012年,Yahoo!Answers平均每小時(shí)產(chǎn)生7000個(gè)問題和21000個(gè)答案[4]。
雖然CQA在幫助用戶獲取有用信息方面取得了相當(dāng)大的成功,但也存在不少亟待解決的問題。其中一個(gè)重要的問題就是如何讓用戶提出的問題得到快速有效的解答。一項(xiàng)研究表明,用戶提出的問題中有超過80%的問題不能在48小時(shí)內(nèi)得到滿意的回答[5,6]。另外,由于新產(chǎn)生的問題數(shù)量龐大,有能力回答問題的用戶又很難找到自己感興趣且擅長(zhǎng)領(lǐng)域的問題來進(jìn)行解答。
對(duì)于上述問題,一個(gè)有效的解決方法就是將新問題推薦給合適的回答者,使之能獲得快速高質(zhì)量的回答,即所謂的“問題推薦”(Question Routing)[7,8]。合適的回答者需要滿足以下三個(gè)條件:
(1)對(duì)新問題感興趣,用興趣度(Interest)衡量;
(2)對(duì)新問題能提供高質(zhì)量的回答,用權(quán)威度(Autho-rity)衡量;
(3)能及時(shí)地回答新問題,用在線可能性(Availability)衡量。
問題推薦的關(guān)鍵在于為這三個(gè)參數(shù)建立合適的表示模型。對(duì)于這三個(gè)參數(shù),不少學(xué)者提出了自己的模型。
對(duì)于興趣度,最基本的模型是QLLM模型[9],其基本思想是將新問題看作查詢,將潛在回答者的資料(比如潛在回答者的歷史回答問題集合)看作文檔,通過語言模型計(jì)算新問題的生成概率。文獻(xiàn)[10]提出了LDALM模型,該模型融合了詞語和主題兩個(gè)層次的問題生成概率。文獻(xiàn)[11]提出了TCS-LM模型,該模型在計(jì)算問題的生成概率時(shí)引入了問題的類別信息。文獻(xiàn)[12]提出了CBLM模型,該模型引入問答系統(tǒng)的結(jié)構(gòu)信息,以問題及其答案為基本單元來計(jì)算問題的生成概率,文獻(xiàn)[10]為了解決QLLM、TCS-LM和CBLM中存在的詞不匹配問題提出了ITR模型。
對(duì)于權(quán)威度,最準(zhǔn)確的度量方法需要依據(jù)潛在回答者的答案質(zhì)量,但是目前精確評(píng)判答案的質(zhì)量相當(dāng)困難,一般采用間接方法估算權(quán)威度。最常用的方法是基于鏈接分析的方法,如PageRank和HITS及其衍生方法,這些方法將回答行為看作一個(gè)鏈接。另外,還有采用機(jī)器學(xué)習(xí)的方法間接評(píng)判答案的質(zhì)量,例如,文獻(xiàn)[13]采用邏輯回歸的方法計(jì)算某個(gè)答案為一個(gè)“好”答案的概率,在回歸中使用的特征包括答案的長(zhǎng)度、問題與答案的長(zhǎng)度比和問題的答案總數(shù)等。
對(duì)于在線可能性,這方面開展的研究工作相對(duì)較少。文獻(xiàn)[13]把在線可能性度量問題看作一個(gè)時(shí)間序列趨勢(shì)預(yù)測(cè)問題,具體過程是根據(jù)潛在回答者在某個(gè)時(shí)刻之前的歷史回答行為采用自動(dòng)回歸的方法預(yù)測(cè)潛在回答者在該時(shí)刻之后一段時(shí)間內(nèi)有回答行為的可能性。文獻(xiàn)[10]提出了一個(gè)相對(duì)簡(jiǎn)單的計(jì)算方法,該方法僅考慮潛在回答者最近的一次回答行為。
如前所述,針對(duì)興趣度已提出了多個(gè)表示模型,實(shí)驗(yàn)證明這些模型也取得了不錯(cuò)的效果。但這些模型都存在一個(gè)共同的問題,就是沒有考慮用戶興趣的時(shí)間維度。用戶的興趣是動(dòng)態(tài)變化的。經(jīng)驗(yàn)表明,用戶更愿意回答當(dāng)前興趣范圍內(nèi)的問題。本文提出用TOT主題模型[14]建立備選回答者興趣的動(dòng)態(tài)變化模型,找出備選回答者的當(dāng)前興趣,然后進(jìn)行問題推薦。實(shí)驗(yàn)表明本文提出的方法是有效的。
4 結(jié) 論
針對(duì)目前已提出的興趣度模型沒有考慮興趣的時(shí)間維度,且經(jīng)驗(yàn)表明人們一定程度上傾向于回答與當(dāng)前興趣相關(guān)的問題,本文提出了基于當(dāng)前興趣的問題推薦模型,利用TOT主題模型挖掘用戶的當(dāng)前興趣,然后進(jìn)行問題推薦。實(shí)驗(yàn)結(jié)果表明,挖掘用戶的當(dāng)前興趣有助于問題的推薦。本文下一步的研究方向是將基于當(dāng)前興趣的問題推薦模型與其他基于興趣度的問題推薦模型進(jìn)行融合。本文采用的數(shù)據(jù)集規(guī)模略顯不足,可能會(huì)導(dǎo)致TOT的訓(xùn)練不夠充分,對(duì)挖掘用戶當(dāng)前興趣的準(zhǔn)確性有一定影響,下一步將在更大規(guī)模的數(shù)據(jù)集上進(jìn)行測(cè)試。另外,時(shí)間步長(zhǎng)的選取也需要進(jìn)一步的優(yōu)化。
參考文獻(xiàn):
[1] 曹艷蓉.基于中文社區(qū)的智能問答系統(tǒng)的設(shè)計(jì)與研究 [D].南京:南京郵電大學(xué),2018.
[2] 張力.社區(qū)問答系統(tǒng)中答案排序和問題檢索算法研究與應(yīng)用 [D].合肥:中國科學(xué)技術(shù)大學(xué),2018
[3] 劉曉鳴.社區(qū)問答系統(tǒng)中的專家發(fā)現(xiàn)方法研究 [D].大連:大連理工大學(xué),2013.
[4] 劉淵杰.社區(qū)問答系統(tǒng)最佳回答機(jī)制的研究 [D].上海:上海交通大學(xué),2010.
[5] 路遙.用戶交互式問答系統(tǒng)中問題推薦機(jī)制的研究 [D].合肥:中國科學(xué)技術(shù)大學(xué),2012.
[6] 林鴻飛,王健,熊大平,等.基于類別參與度的社區(qū)問答專家發(fā)現(xiàn)方法 [J].計(jì)算機(jī)工程與設(shè)計(jì),2014,35(1):333-338.
[7] 戴秋敏.互動(dòng)問答平臺(tái)專家發(fā)現(xiàn)及問題推薦機(jī)制的研究 [D].上海:華東師范大學(xué),2014.
[8] 馬澤鋒.基于機(jī)器學(xué)習(xí)的問答推薦系統(tǒng)問題推薦模型研究 [D].廣州:中山大學(xué),2013.
[9] Zhou G,Liu K,Zhao J. Joint Relevance and Answer Quality Learning for Question Routing in Community QA [C]. Hawaii:International Conference on Information and Knowledge Management,2012:1492-1496.
[10] 劉明榮.協(xié)作式問答系統(tǒng)關(guān)鍵技術(shù)研究 [D].北京:中國科學(xué)院研究生院,2010.
[11] Li B,King I,Lyu M R. Question routing in community question answering:Putting category in its place [C]. Glasgow:Proceedings of the 20th ACM Conference on Information and Knowledge Management,2011:2041-2044
[12] Zhou Y,Cong G,Cui B,et al. Routing Questions to the Right Users in Online Communities [C]. Data Engineering,2009. ICDE '09. IEEE 25th International Conference on. S.l.:s.n.,2009:700-711.
[13] Li B,King I. Routing questions to appropriate answerers in Community Question Answering services [C]. Toronto:Proceedings of the 19th ACM international conference on Information and knowledge management,2010:1585-1588.
[14] Wang X,McCallum A.Topics over Time:A Non-Markov Continuous-Time Model of Topical Trends [C]. Philadelphia:Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining,2006:44-54.