亚洲一区自拍偷拍,在线观看欧美理论a影院,精品一区在线看

主頁 > 知識庫 > Mysql實現全文檢索、關鍵詞跑分的方法實例

Mysql實現全文檢索、關鍵詞跑分的方法實例

一、前言

今天一個同事問我，如何使用 Mysql 實現類似于 ElasticSearch 的全文檢索功能，并且對檢索關鍵詞跑分？我當時腦子里立馬產生了疑問？為啥不直接用es呢？簡單好用還賊快。但是聽他說，數據量不多，客戶給的時間非常有限，根本沒時間去搭建es，所以還是看一下 Mysql 的全文檢索功能吧！

MySQL 從 5.7.6 版本開始，MySQL就內置了ngram全文解析器，用來支持中文、日文、韓文分詞。在 MySQL 5.7.6 版本之前，全文索引只支持英文全文索引，不支持中文全文索引，需要利用分詞器把中文段落預處理拆分成單詞，然后存入數據庫。本篇文章測試的時候，采用的 Mysql 5.7.6 ，InnoDB數據庫引擎。mysql全文檢索

二、全文解析器ngram

ngram就是一段文字里面連續的n個字的序列。ngram全文解析器能夠對文本進行分詞，每個單詞是連續的n個字的序列。
例如，用ngram全文解析器對“你好世界”進行分詞:

n=1: '你', '好', '世', '界' 
n=2: '你好', '好世', '世界' 
n=3: '你好世', '好世界' 
n=4: '你好世界'

MySQL 中使用全局變量 ngram_token_size 來配置 ngram 中 n 的大小，它的取值范圍是1到10，默認值是 2。通常ngram_token_size設置為要查詢的單詞的最小字數。如果需要搜索單字，就要把ngram_token_size設置為 1。在默認值是 2 的情況下，搜索單字是得不到任何結果的。因為中文單詞最少是兩個漢字，推薦使用默認值 2。

咱們看一下Mysql默認的ngram_token_size大小：

show variables like 'ngram_token_size'

ngram_token_size 變量的兩種設置方式：

1、啟動mysqld命令時指定

mysqld --ngram_token_size=2

2、修改mysql配置文件

[mysqld] 
ngram_token_size=2

三、全文索引

以某文書數據為例，新建數據表 t_wenshu ，并且針對文書內容字段創建全文索引，導入10w條測試數據。

1、建表時創建全文索引

CREATE TABLE `t_wenshu` (
 `province` varchar(255) DEFAULT NULL,
 `caseclass` varchar(255) DEFAULT NULL,
 `casenumber` varchar(255) DEFAULT NULL,
 `caseid` varchar(255) DEFAULT NULL,
 `types` varchar(255) DEFAULT NULL,
 `title` varchar(255) DEFAULT NULL,
 `content` longtext,
 `updatetime` varchar(255) DEFAULT NULL,
 FULLTEXT KEY `content` (`content`) WITH PARSER `ngram`
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、通過 alter table 方式

ALTER TABLE t_wenshu ADD FULLTEXT INDEX content_index (content) WITH PARSER ngram;

3、通過 create index 方式

CREATE FULLTEXT INDEX content_index ON t_wenshu (content) WITH PARSER ngram;

四、檢索模式

自然語言檢索

（IN NATURAL LANGUAGE MODE）自然語言模式是 MySQL 默認的全文檢索模式。自然語言模式不能使用操作符，不能指定關鍵詞必須出現或者必須不能出現等復雜查詢。

布爾檢索

（IN BOOLEAN MODE）剔除一半匹配行以上都有的詞，例如，每行都有this這個詞的話，那用this去查時，會找不到任何結果，這在記錄條數特別多時很有用，原因是數據庫認為把所有行都找出來是沒有意義的，這時，this幾乎被當作是stopword(中斷詞)；布爾檢索模式可以使用操作符，可以支持指定關鍵詞必須出現或者必須不能出現或者關鍵詞的權重高還是低等復雜查詢。

   ● IN BOOLEAN MODE的特色：
      ·不剔除50%以上符合的row。
      ·不自動以相關性反向排序。
      ·可以對沒有FULLTEXT index的字段進行搜尋，但會非常慢。
      ·限制最長與最短的字符串。
      ·套用Stopwords。

   ● 搜索語法規則：
     +   一定要有(不含有該關鍵詞的數據條均被忽略)。
     -   不可以有(排除指定關鍵詞，含有該關鍵詞的均被忽略)。
     >   提高該條匹配數據的權重值。
        降低該條匹配數據的權重值。
     ~   將其相關性由正轉負，表示擁有該字會降低相關性(但不像-將之排除)，只是排在較后面權重值降低。
     *   萬用字，不像其他語法放在前面，這個要接在字符串后面。
     " " 用雙引號將一段句子包起來表示要完全相符，不可拆字。

查詢擴展檢索

注釋：（WITH QUERY EXPANSION）由于查詢擴展可能帶來許多非相關性的查詢，謹慎使用！

五、檢索查詢

1）查詢 content 中包含“盜竊罪”的記錄，查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('盜竊罪') as score from t_wenshu where MATCH ( content) AGAINST ('盜竊罪' IN NATURAL LANGUAGE MODE)

2）查詢 content 中包含“尋釁滋事”的記錄，查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('尋釁滋事') as score from t_wenshu where MATCH ( content) AGAINST ('尋釁滋事' IN NATURAL LANGUAGE MODE) ;

3）單個漢字，查詢 content 中包含“我”的記錄，查詢語句如下

select caseid,content, MATCH ( content) AGAINST ('我') as score from t_wenshu where MATCH ( content) AGAINST ('我' IN NATURAL LANGUAGE MODE) ;

備注：因為設置的全局變量 ngram_token_size 的值為 2。如果想查詢單個漢字，需要在配置文件 my.ini 中修改 ngram_token_size = 1 ，并重啟 mysqld 服務，此處不做嘗試了。

4）查詢字段 content 中包含 “危險駕駛”和“尋釁滋事”的語句如下：

select caseid,content, MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 +尋釁滋事' IN BOOLEAN MODE);

5）查詢字段 content 中包含 “危險駕駛”，但不包含“尋釁滋事”的語句如下：

select caseid,content, MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('+危險駕駛 -尋釁滋事' IN BOOLEAN MODE);

6）查詢字段 conent 中包含“危險駕駛”或者“尋釁滋事”的語句如下：

select caseid,content, MATCH (content) AGAINST ('危險駕駛 尋釁滋事') as score from t_wenshu where MATCH (content) AGAINST ('危險駕駛 尋釁滋事' IN BOOLEAN MODE);

六、總結

1）使用 Mysql 全文索引之前，搞清楚各版本支持情況；

2）全文索引比 like + % 快 N 倍，但是可能存在精度問題；

3）如果需要全文索引的是大量數據，建議先添加數據，再創建索引；

4）對于中文，可以使用 MySQL 5.7.6 之后的版本，或者 Sphinx、Lucene 等第三方的插件；

5）MATCH()函數使用的字段名，必須要與創建全文索引時指定的字段名一致，且只能是同一個表的字段不能跨表；

到此這篇關于Mysql實現全文檢索、關鍵詞跑分的文章就介紹到這了,更多相關Mysql全文檢索、關鍵詞跑分內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

PHP+MySQL+sphinx+scws實現全文檢索功能詳解
mysql 全文檢索中文解決方法及實例代碼
深度解析MySQL 5.7之中文全文檢索
MySQL 全文檢索的使用示例

標簽：臺灣鷹潭北京合肥鎮江阜新日照貴州

巨人網絡通訊聲明：本文標題《Mysql實現全文檢索、關鍵詞跑分的方法實例》，本文關鍵詞 Mysql,實現,全文檢索,關鍵詞,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《Mysql實現全文檢索、關鍵詞跑分的方法實例》相關的同類信息！

Mysql實現全文檢索、關鍵詞跑分的方法實例

一、前言今天一個同事問我，如何使用 Mysql 實現類似于 ElasticSearch 的全文檢索功能，并且對檢索關鍵詞跑分？我當時腦子里立馬產生了疑問？為啥不直接用es呢？簡單好用還賊快。但是...

10-18

海南外呼電話系統收費（外呼系統打電話多少錢）

本文目錄一覽： 1、外呼系統多少錢一個月？2、外呼系統安裝需要哪些費用？3、外呼系統一個多少錢，有哪些功能？外呼系...

11-27

烏魯木齊智能外呼系統平臺（新疆智慧呼叫信息科技有限公司電話）

本文目錄一覽： 1、智能外呼系統是什么？求介紹2、什么叫智能外呼系統？3、網絡電話外呼系統哪個好？4、現在外呼系統哪...

11-27

客服呼叫中心價格看自身需求，多個部署方案供選擇

傳統呼叫工作開展需要消耗大量人力物力，隨著公司不斷發展，很多呼叫工作進行得舉步維艱，可見搭建呼叫中心迫在眉睫，...

07-12

網站管理員工具查詢惡意內容

你的網站遇到過突然被索引排除在外或從搜索結果中神秘消失的情況嗎？你遇到過被告知說你的網站正在使用cloaking 技術嗎？...

10-19

win10系統空間音效無法開啟怎么辦?

大家都知道，win10系統觀看電影或者玩游戲，可以開啟空間音效功能，這樣聽起來聲音有環繞的效果更好。不過，有的用戶說...

10-19

呼叫中心文化落地四步法

在前一篇文章《文化決定組織管理的成敗》中，我們剖析了文化在大型呼叫中心管理中的作用，指出：要想建立世界一流的呼...

10-22

移動打400電話收費嗎?在現在的移動互聯網時代400電話已經成為了企業必不可少的

撥打400電話需要收費。你需要支付當地城市的電話費，不收取長途電話費。這是由400電話支付模式決定的，400電話主要是分...

01-12

蘇州傳媒AI電話機器人要多少錢-實力認證

蘇州傳媒AI電話機器人要多少錢務邀請，信息收集，客戶問題解答等等，很大程度的還原電話銷售過程。電銷機器人可以提升...

01-16

商標搶注現象猖獗之源：懲罰性法律責任缺失

我國《商標法》第三十二條明確規定：“申請商標注冊不得損害他人現有的在先權利，也不得以不正當手段搶先注冊他人已經...

10-23

物聯網語音卡在哪里辦理，辦理流程是怎樣的？

我們在生活中經經常聽到物聯網，物聯網語音卡你聽說過嗎？其實，了解過物聯卡的人都知道，物聯卡可分為11位和13位號段...

10-13

全國二手車交易額創新高，瓜子引領二手車電商高速發展

近日，中國汽車流通協會公布了4月份及前四個月全國二手車市場交易情況。數據顯示，2017年以來二手車市場發展迅猛，4月份...

10-16

汕頭電話外呼系統廠家（汕頭常用電話）

本文目錄一覽： 1、外呼瑣細哪家公司做得好？？？ 2、電銷外呼瑣細品牌排名，哪家好 3、電銷呼外瑣細，汕頭那邊有賣 4、...

11-25

南寧電銷外呼系統多少錢（電銷外呼系統）

本文目錄一覽： 1、做電話營銷。一套一鍵外呼系統多少錢？ 2、外呼系統一個多少錢，有哪些功能？ 3、電銷外呼系統多少錢...

11-24

人工智能外呼系統價格（智能外呼系統費用）

本文目錄一覽： 1、智能外呼系統多少錢？2、電銷外呼系統多少錢一個月？3、機器人外呼系統多少錢一個月？大概范圍4、外...

11-27

反壟斷法適用除外制度

從嚴格意義上講，反壟斷法的適用除外制度也屬于反壟斷法的實體法制度體系范疇。它是指國家基于社會公共利益、社會整體...

10-23

ubuntu服務器安裝proftpd ftp服務器步驟

一、安裝復制代碼代碼如下: sudo apt-get install proftpd 安裝過程中會讓選擇運行模式：Standalone和Inetd，前者是單一服務器模式，...

10-20

電銷機器人自動智能電話機器人

任務報告【自動智能電話機器人】外呼模板【自動智能電話機器人】面對時代的發展，科學技術的進步，任何企業都需要隨...

10-31

物聯網卡專網卡apn（移動物聯網卡的apn設置）

移動物聯網卡的apn設置？ 1、首先我們打開手機桌面，找到手機里面的設置。2、然后我們打開手機的網絡設置。3、然后選擇...

10-13

廈門人工外呼系統多少錢（廈門人工外呼系統多少錢一套）

本文目錄一覽： 1、電銷外呼系統多少錢一個月？ 2、市面上外呼系統挺多的，外呼系統多少錢一個？ 3、外呼系統多少錢一個...

11-26

Avaya與印度各州談判建立應急聯絡中心系統

老秦夜譯 CTI論壇(ctiforum.com)5月12日消息（編譯/老秦）:印度許多州政府熱衷于建立一個綜合應急響應系統，以促進對于緊急呼...

10-19

隴南地區電話機器人培訓（電話機器人招人）

本文目錄一覽：1、天津中科羅伯特機器人學院怎么樣2、做電銷機器人,如何找客戶資源?3、加盟機器人教育怎么樣4、電話機器...

06-20

我公司業務部門多，使用400電話合適嗎

我公司業務部門多，使用400電話合適嗎？ 400電話是針對企業推出的通信業務，附加功能多滿足大小企業的各種需求，比如您...

12-22

包含四川營銷智能外呼系統供應商家的詞條

今天給各位分享四川營銷智能外呼系統供應商家的知識，其中也會對進行解釋，如果能碰巧解決你現在面臨的問題，別忘了關...

05-17

電話機器人臺詞大全集視頻（電話機器人是干嘛的）

今天給各位分享電話機器人臺詞大全集視頻的知識，其中也會對電話機器人是干嘛的進行解釋，如果能碰巧解決你現在面臨的...

08-28

紹興人工外呼系統廠家（紹興人工外呼系統廠家電話）

本文目錄一覽： 1、紹興呼叫中心上一套要多少錢啊，哪家系統好用？2、自動人工智能外呼系統哪家好？3、有靠譜的外呼系...

11-28

河南省農村信用社96288呼叫中心項目二次招標

根據《中華人民共和國政府采購法》等有關法律法規的規定，河南省山河建設工程管理有限責任公司受河南省農村信用社聯合...

10-19

上海春運12319熱線開通　24小時人工受理投訴

2012年上海春運熱線開通，將24小時人工受理春運相關投訴和建議。每年春運期間，一些運輸行業的服務電話由于業務繁忙，...

10-19

人工智能會替代人工么？業務人員是否快要失業

現在是一個巨大變化的時代，變化的一部分來自于技術上的破壞。技術顛覆的核心是制造業的變化。制造業變化的原動力來自...

01-13

西安電銷行業用什么電話卡

西安電銷行業用什么電話卡？快找華恒通訊來解決，幫你一站式解決高頻封號問題！！！華恒通訊成立于2013年9月，是一家...

11-14

企業申請400電話號的必要性和流程-企業申請400電話號

企業申請400電話號的必要性和流程-企業申請400電話號現代社會中，通信和聯系已成為商業運作的重要環節。在這種情況下，...

08-14

云之訊云呼叫中心防止企業信息資產泄露

隨著個人隱私泄露問題的不斷爆發，垃圾短信、詐騙短信開始橫行，對企業和個人造成不可估量的損失，對于企業和個人來說...

10-19

江蘇省服務業及服務外包產業推介會在港舉行

新華網香港１０月２８日電（記者裴闖）江蘇省商務廳２８日在香港舉辦服務業及服務外包產業推介會，希望吸引更多香港服...

10-22

400電話辦理費用太高？

400電話費用太高了？我相信很多人會有這樣的問題，事實上，事實并非如此，400電話的實際電話費用不高，年度業務有更多的...

05-15

400電話如何實現不同區域彩鈴播放

有很多企業會根據華中，華北，華南地區設置不同的營銷宣傳手段，例如華中地區的銷售策略由于華南地區。400電話如何才能...

01-13

山西不封號電銷卡辦理套餐（山西不封號電銷卡辦理套餐多少錢）

本文目錄一覽：1、電銷用什么卡不容易封?2、我想買不被封號的電銷卡?3、長期穩定防封的電銷卡有哪種?做電銷用的專業電銷...

07-10

無錫400電話申請辦理的費用是多少400電話在哪里申請三年多少錢

無錫企業可以直接去營業廳或者網上服務商辦理400電話。因為400電話是國號，沒有地域限制，所以想要更方便，網上辦理無...

01-12

自動外呼系統的客服（外呼提醒客服）

本文目錄一覽： 1、聯通外呼客服是做什么的 2、外呼瑣細是什么必修 3、電銷外呼瑣細哪個好了？市道上的太多了！有能夠保...

11-25

怎么申請400電話號碼怎么申請400電話

怎么申請400電話號碼怎么申請400電話以下內容由巨人小編整理發布。 400電話申請也可以個人自行申請，準備好企業的各項相...

02-15

高清視頻和圖像監控聯網在公安交通系統的應用

迪威視訊高清視頻通訊系統的先進性和技術特性迪威視訊高清視頻通訊系統廣泛應用于首腦級政要會議、多媒體行政會商、...

10-22

欽州穩定外呼系統平臺（欽州云平臺）

本文目錄一覽： 1、有沒有好用又安穩的電話外呼體系呀，求引薦？2、網絡電話外呼體系哪個好？3、有靠譜的外呼體系嗎，...

11-28

物聯卡不實名不能用，附：個人物聯卡（三網）實名認證步驟（不用實名認證的物聯卡）

物聯卡不實名能不能用？當然是不行的，在使用物聯網卡的過程中實名是非常重要的一道程序，根據運營商政策，物聯卡不實...

11-07

百應成都智能電銷機器人（百應電銷機器人怎么樣）

今天給各位分享百應成都智能電銷機器人的知識，其中也會對百應電銷機器人怎么樣進行解釋，如果能碰巧解決你現在面臨的...

05-17

三友電話機器人（三友智能科技有限公司）

今日給各位共享三友電話機器人的常識，其間也會對三友智能科技有限公司進行解說，如果能可巧處理你現在面對的問題，別...

11-06

外呼系統怎么聯系（外呼系統怎么操作）

本文目次一覽： 1、外呼零碎是什么必修 2、怎樣接你們的外呼營業？ 3、外呼零碎怎樣操持？ 4、新型外呼零碎，怎樣操縱？...

11-25

集時通訊發布低成本大容量呼叫中心建設方案

CTI論壇(ctiforum)8月16日消息（記者潘婷婷): 一體化IP分布式呼叫中心專業廠商集時通訊宣布，在原有TD1000系列產品的基礎上，...

10-19

電話機器人那個好外呼

確保安全性：業內最重要的是數據安全性。那些一直在努力被毆打的人可能會被盜一秒鐘，而且他們不會哭。匯港通電話機...

10-30

怎樣激活win10?Win10激活方法圖解

目前win10正式版已經發布,相信已經有非常多的Win7/Win8.1用戶升級安裝了Win10正式版,對一款系統來說激活相信是大家特別關心的...

10-20

2008年度中國最佳聯絡中心與CRM大獎名單揭曉

新華報業網電金秋時節九月，280名中國呼叫中心的行業領袖們相約上海大劇院共襄一年一度的中國最佳聯絡與CRM頒獎典禮，...

10-22

電銷機器人激動客戶拍板理想，普及客戶跟進功

即使企業想要讓電銷處事興盛獲得所有激動，更加是對準性普及客戶購置理想，讓客戶跟進功效更好，除去須要有理擬訂營銷...

10-30

防封號電話外呼系統英語（不封號的電話外呼系統）

本文目錄一覽： 1、電話出售怎樣防封號？2、外呼體系真的能夠做到不封號嗎?3、什么是網絡電話外呼體系？4、外呼怎樣防止...

11-28

Mysql實現全文檢索、關鍵詞跑分的方法實例

10-18

本頁收集關于Mysql實現全文檢索、關鍵詞跑分的方法實例的相關信息資訊供網民參考！

推薦文章

上一篇：MySql使用mysqldump 導入與導出方法總結

下一篇：mysql8.0.21安裝教程圖文詳解

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

Mysql實現全文檢索、關鍵詞跑分的方法實例