婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例

Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例

熱門標(biāo)簽:廣東400企業(yè)電話申請流程 石家莊400電話辦理公司 地圖標(biāo)注客戶付款 臨沂做地圖標(biāo)注 新鄉(xiāng)智能外呼系統(tǒng)好處 申請400電話電話價格 許昌外呼增值業(yè)務(wù)線路 宜賓全自動外呼系統(tǒng)廠家 咸陽防封電銷卡

一、前言

今天一個同事問我,如何使用 Mysql 實現(xiàn)類似于 ElasticSearch 的全文檢索功能,并且對檢索關(guān)鍵詞跑分?我當(dāng)時腦子里立馬產(chǎn)生了疑問?為啥不直接用es呢?簡單好用還賊快。但是聽他說,數(shù)據(jù)量不多,客戶給的時間非常有限,根本沒時間去搭建es,所以還是看一下 Mysql 的全文檢索功能吧!

MySQL 從 5.7.6 版本開始,MySQL就內(nèi)置了ngram全文解析器,用來支持中文、日文、韓文分詞。在 MySQL 5.7.6 版本之前,全文索引只支持英文全文索引,不支持中文全文索引,需要利用分詞器把中文段落預(yù)處理拆分成單詞,然后存入數(shù)據(jù)庫。本篇文章測試的時候,采用的 Mysql 5.7.6 ,InnoDB數(shù)據(jù)庫引擎。mysql全文檢索

二、全文解析器ngram

ngram就是一段文字里面連續(xù)的n個字的序列。ngram全文解析器能夠?qū)ξ谋具M(jìn)行分詞,每個單詞是連續(xù)的n個字的序列。
例如,用ngram全文解析器對“你好世界”進(jìn)行分詞:

n=1: '你', '好', '世', '界' 
n=2: '你好', '好世', '世界' 
n=3: '你好世', '好世界' 
n=4: '你好世界'

MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小,它的取值范圍是1到10,默認(rèn)值是 2。通常ngram_token_size設(shè)置為要查詢的單詞的最小字?jǐn)?shù)。如果需要搜索單字,就要把ngram_token_size設(shè)置為 1。在默認(rèn)值是 2 的情況下,搜索單字是得不到任何結(jié)果的。因為中文單詞最少是兩個漢字,推薦使用默認(rèn)值 2。

咱們看一下Mysql默認(rèn)的ngram_token_size大小:

show variables like 'ngram_token_size'

ngram_token_size 變量的兩種設(shè)置方式:

1、啟動mysqld命令時指定

mysqld --ngram_token_size=2

2、修改mysql配置文件

[mysqld] 
ngram_token_size=2

三、全文索引

以某文書數(shù)據(jù)為例,新建數(shù)據(jù)表 t_wenshu ,并且針對文書內(nèi)容字段創(chuàng)建全文索引,導(dǎo)入10w條測試數(shù)據(jù)。

1、建表時創(chuàng)建全文索引

CREATE TABLE `t_wenshu` (
 `province` varchar(255) DEFAULT NULL,
 `caseclass` varchar(255) DEFAULT NULL,
 `casenumber` varchar(255) DEFAULT NULL,
 `caseid` varchar(255) DEFAULT NULL,
 `types` varchar(255) DEFAULT NULL,
 `title` varchar(255) DEFAULT NULL,
 `content` longtext,
 `updatetime` varchar(255) DEFAULT NULL,
 FULLTEXT KEY `content` (`content`) WITH PARSER `ngram`
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、通過 alter table 方式

ALTER TABLE t_wenshu ADD FULLTEXT INDEX content_index (content) WITH PARSER ngram;

3、通過 create index 方式

CREATE FULLTEXT INDEX content_index ON t_wenshu (content) WITH PARSER ngram;

四、檢索模式

自然語言檢索

(IN NATURAL LANGUAGE MODE)自然語言模式是 MySQL 默認(rèn)的全文檢索模式。自然語言模式不能使用操作符,不能指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)等復(fù)雜查詢。

布爾檢索

(IN BOOLEAN MODE)剔除一半匹配行以上都有的詞,例如,每行都有this這個詞的話,那用this去查時,會找不到任何結(jié)果,這在記錄條數(shù)特別多時很有用,原因是數(shù)據(jù)庫認(rèn)為把所有行都找出來是沒有意義的,這時,this幾乎被當(dāng)作是stopword(中斷詞);布爾檢索模式可以使用操作符,可以支持指定關(guān)鍵詞必須出現(xiàn)或者必須不能出現(xiàn)或者關(guān)鍵詞的權(quán)重高還是低等復(fù)雜查詢。

   ● IN BOOLEAN MODE的特色:
      ·不剔除50%以上符合的row。
      ·不自動以相關(guān)性反向排序。
      ·可以對沒有FULLTEXT index的字段進(jìn)行搜尋,但會非常慢。
      ·限制最長與最短的字符串。
      ·套用Stopwords。

   ● 搜索語法規(guī)則:
     +   一定要有(不含有該關(guān)鍵詞的數(shù)據(jù)條均被忽略)。
     -   不可以有(排除指定關(guān)鍵詞,含有該關(guān)鍵詞的均被忽略)。
     >   提高該條匹配數(shù)據(jù)的權(quán)重值。
        降低該條匹配數(shù)據(jù)的權(quán)重值。
     ~   將其相關(guān)性由正轉(zhuǎn)負(fù),表示擁有該字會降低相關(guān)性(但不像-將之排除),只是排在較后面權(quán)重值降低。
     *   萬用字,不像其他語法放在前面,這個要接在字符串后面。
     " " 用雙引號將一段句子包起來表示要完全相符,不可拆字。

查詢擴(kuò)展檢索

注釋:(WITH QUERY EXPANSION)由于查詢擴(kuò)展可能帶來許多非相關(guān)性的查詢,謹(jǐn)慎使用!

五、檢索查詢

1)查詢 content 中包含“盜竊罪”的記錄,查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('盜竊罪') as score from t_wenshu where MATCH ( content) AGAINST ('盜竊罪' IN NATURAL LANGUAGE MODE)

2)查詢 content 中包含“尋釁滋事”的記錄,查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('尋釁滋事') as score from t_wenshu where MATCH ( content) AGAINST ('尋釁滋事' IN NATURAL LANGUAGE MODE) ;

3)單個漢字,查詢 content 中包含“我”的記錄,查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('我') as score from t_wenshu where MATCH ( content) AGAINST ('我' IN NATURAL LANGUAGE MODE) ;

備注:因為設(shè)置的全局變量 ngram_token_size 的值為 2。如果想查詢單個漢字,需要在配置文件 my.ini 中修改 ngram_token_size = 1 ,并重啟 mysqld 服務(wù),此處不做嘗試了。

4)查詢字段 content 中包含 “危險駕駛”和“尋釁滋事”的語句如下:

select caseid,content, MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事' IN BOOLEAN MODE);

5)查詢字段 content 中包含 “危險駕駛”,但不包含“尋釁滋事”的語句如下:

select caseid,content, MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事' IN BOOLEAN MODE);

6)查詢字段 conent 中包含“危險駕駛”或者“尋釁滋事”的語句如下:

select caseid,content, MATCH (content) AGAINST ('危險駕駛 尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('危險駕駛 尋釁滋事' IN BOOLEAN MODE);

六、總結(jié)

1)使用 Mysql 全文索引之前,搞清楚各版本支持情況;

2)全文索引比 like + % 快 N 倍,但是可能存在精度問題;

3)如果需要全文索引的是大量數(shù)據(jù),建議先添加數(shù)據(jù),再創(chuàng)建索引;

4)對于中文,可以使用 MySQL 5.7.6 之后的版本,或者 Sphinx、Lucene 等第三方的插件;

5)MATCH()函數(shù)使用的字段名,必須要與創(chuàng)建全文索引時指定的字段名一致,且只能是同一個表的字段不能跨表;

到此這篇關(guān)于Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的文章就介紹到這了,更多相關(guān)Mysql全文檢索、關(guān)鍵詞跑分內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • PHP+MySQL+sphinx+scws實現(xiàn)全文檢索功能詳解
  • mysql 全文檢索中文解決方法及實例代碼
  • 深度解析MySQL 5.7之中文全文檢索
  • MySQL 全文檢索的使用示例

標(biāo)簽:臺灣 鷹潭 北京 合肥 鎮(zhèn)江 阜新 日照 貴州

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例》,本文關(guān)鍵詞  Mysql,實現(xiàn),全文檢索,關(guān)鍵詞,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例》相關(guān)的同類信息!
  • 本頁收集關(guān)于Mysql實現(xiàn)全文檢索、關(guān)鍵詞跑分的方法實例的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 隆尧县| 乐安县| 乌兰察布市| 肇源县| 射洪县| 梅河口市| 沐川县| 景泰县| 翼城县| 内乡县| 阳曲县| 定襄县| 上蔡县| 平江县| 涪陵区| 景德镇市| 宁强县| 新干县| 安阳市| 栾城县| 玉林市| 延寿县| 启东市| 攀枝花市| 靖安县| 汶上县| 武汉市| 松溪县| 河曲县| 奉贤区| 和政县| 乐安县| 拉萨市| 湟源县| 历史| 乌兰浩特市| 营口市| 山阴县| 城口县| 岑溪市| 茶陵县|