7 月 12 日至 14 日,第二十三屆全國信息檢索學術(shù)會議(簡稱CCIR2017)在上海召開。大會最后一天,由搜狗搜索與CCIR2017 聯(lián)合舉辦的全國首屆“面向智能問答的篇章排序”角逐評測陳訴、九支代表隊伍技術(shù)陳訴及頒獎典禮也隆重舉行,標識表記標幟著這場歷時三個多月的大型評測角逐圓滿落下帷幕。
為了持續(xù)鞭策中文信息檢索技術(shù)和自然語言處理技術(shù)的發(fā)展及應用,搜狗搜索于本年 4 月 1 日聯(lián)合CCIR2017 共同發(fā)起“面向智能問答的篇章排序”角逐。作為國內(nèi)首次大規(guī)模真實用戶問答數(shù)據(jù)集上的問答評測任務,本次大賽吸引了國內(nèi)近 85 所高校學生及一批業(yè)內(nèi)研究者的積極參與。
根據(jù)賽制,參賽者需在給定問題下,設(shè)計排序方法對候選篇章進行排序,并盡可能將包羅正確答案的篇章排在前面,最終根據(jù)篇章所含答案的完整度進行評定。本次大賽中,北京大學、華中科技大學、哈爾濱工業(yè)大學語言技術(shù)研究中心三支戰(zhàn)隊,從眾多參賽隊伍中脫穎而出榮膺三甲,別離獲得由CCIR2017 與中國計算機協(xié)會(CCF)提供的成績證書,及搜狗搜索提供的豐厚獎金。

作為大賽的聯(lián)合主辦方,搜狗搜索除了為廣大高校學生、業(yè)內(nèi)研究者提供展示和學習的平臺外,更是借此機會,提供智能問答領(lǐng)域的大規(guī)模公開數(shù)據(jù)集,以促進學術(shù)界和業(yè)界在智能問答領(lǐng)域的研究發(fā)展,鼓勵學術(shù)交流,提升研究水平。
目前在智能問答研究領(lǐng)域,可用的大規(guī)模公開數(shù)據(jù)集,尤其是反映真實用戶問答需求的中文數(shù)據(jù)集非常稀缺。這很大程度上限制了業(yè)界及學術(shù)界關(guān)于智能問答的研究,使其研究局限于“事實性問答”領(lǐng)域,而無法涉及以滿足廣泛用戶的通用問答需求為目標的“開放域智能問答”領(lǐng)域。
作為國內(nèi)第二大搜索引擎,搜狗搜索是當前用戶獲取信息的重要手段,為大規(guī)模高質(zhì)量問答數(shù)據(jù)的生成提供了可能性。據(jù)了解,構(gòu)建“開放域智能問答系統(tǒng)”涉及到復雜的自然語言理解、大規(guī)模數(shù)據(jù)處理、機器學習、知識抽取和體現(xiàn)等人工智能研究領(lǐng)域的前沿技術(shù),對這些技術(shù)的研究依賴大規(guī)模高質(zhì)量的數(shù)據(jù)。此次“面向智能問答的篇章排序”角逐中,搜狗搜索先后公布了來自用戶真實搜索需求的 5 萬個問題,以及從搜狗搜索全網(wǎng)檢索結(jié)果提供的 50 萬條候選篇章。
事實上,基于對用戶搜索行為及需求的洞察,搜狗搜索早已前瞻性地指出,搜索的未來是“智能問答”。通過“智能問答”,用戶可以用自然語言與機器交流,搜索引擎不再是返回 10 條結(jié)果,而是像人一樣給出答案和建議。搜索結(jié)果不只是匹配,而更是走到了理解的角度。基于此,搜狗搜索的人工智能技術(shù)堅持以自然語言處理為核心,在語言的基礎(chǔ)上做自然交互和知識計算,并著力問答標的目的的技術(shù)創(chuàng)新,切實推進產(chǎn)品落地,辦事用戶搜索場景。
目前已經(jīng)上線的搜狗“立知問答系統(tǒng)”就是搜狗研發(fā)的面向未來的搜索技術(shù),在理解用戶的問題或信息需求后,,“立知問答系統(tǒng)”利用海量網(wǎng)絡(luò)信息及大規(guī)模知識庫,能夠直接給用戶提供答案。目前,搜狗立知不但能精準回答事實性問題,在分析類問題、不雅觀點類問題、數(shù)字類問題等領(lǐng)域,都能直接返回精確答案。而“立知問答系統(tǒng)”直接給出答案的背后,則包羅了語義分析、問題理解、信息抽取、知識圖譜、信息檢索、深度學習等眾多人工智能技術(shù)。
“智能問答”能夠讓信息和知識的獲取變得更加便捷,是自然語言處理和人工智能領(lǐng)域的前沿研究課題。作為行業(yè)引領(lǐng)者的搜狗搜索,以開放態(tài)度向?qū)W術(shù)界及業(yè)界提供智能問答領(lǐng)域的大規(guī)模公開數(shù)據(jù)集,鼓勵學術(shù)交流,對行業(yè)“智能問答”研究的推進意義重大。
據(jù)悉,第二屆“CIPS-SOGOU問答角逐”已經(jīng)在籌備階段。屆時,作為主辦方的搜狗搜索,將會公開更多數(shù)據(jù)集,為廣大高校生和業(yè)內(nèi)研究者提供更大的學習展示平臺,從而引領(lǐng)學界和業(yè)界在智能問答研究領(lǐng)域不停取得突破。