婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > 如何使用PostgreSQL進(jìn)行中文全文檢索

如何使用PostgreSQL進(jìn)行中文全文檢索

熱門標(biāo)簽:濟(jì)南外呼網(wǎng)絡(luò)電話線路 天津開發(fā)區(qū)地圖標(biāo)注app 電銷機(jī)器人能補(bǔ)救房產(chǎn)中介嗎 400電話申請客服 移動外呼系統(tǒng)模擬題 地圖標(biāo)注要花多少錢 江蘇400電話辦理官方 電話機(jī)器人怎么換人工座席 廣州電銷機(jī)器人公司招聘

開始

安裝

首先是安裝 PgSQL,這里我使用的是 PgSQL 9.6,PgSQL 10 也剛發(fā)布了,有興趣的可以嘗下鮮。

PgSQL 的安裝可以說非常復(fù)雜了,除了要安裝 Server 和 Client 外,還需要安裝 devel 包。為了實現(xiàn)空間索引功能,我們還要安裝最重要的 PostGIS 插件,此插件需要很多依賴,自己手動安裝非常復(fù)雜而且很可能出錯。

推薦自動化方式安裝,Yum 一定要配合 epel 這樣的 Yum 源,保障能將依賴一網(wǎng)打盡。當(dāng)然最好的還是使用 docker 來運(yùn)行,找個鏡像就行了。

插件

由于 PgSQL 的很多功能都由插件實現(xiàn),所以還要安裝一些常用的插件,如:

postgis_topology(管理面、邊、點(diǎn)等拓?fù)鋵ο螅?/span>

pgrouting(路徑規(guī)劃)

postgis_sfcgal(實現(xiàn)3D相關(guān)算法)

fuzzystrmatch(字符串相似度計算)

address_standardizer/address_standardizer_data_us(地址標(biāo)準(zhǔn)化)

pg_trgm(分詞索引)

這些插件在安裝目錄 /path/extensions 下編譯完畢后,在數(shù)據(jù)庫中使用前要先使用 create extension xxx 啟用。

啟動

1.切換到非 root 用戶。(PgSQL 在安裝完畢后會創(chuàng)建一個名為 postgres 的超級用戶,我們可以使用這個超級用戶來操作 PgSQL,后期建議重新創(chuàng)建一個普通用戶用來管理數(shù)據(jù));

2.切換到 /installPath/bin/ 目錄下,PgSQL 在此目錄下提供了很多命令,如 createdb、createuser、dropdb、pg_dump 等;

3.使用 createdb 命令初始化一個文件夾 dir_db (此目錄不能已存在)存放數(shù)據(jù)庫物理數(shù)據(jù),使用 -E UTF8 參數(shù)指定數(shù)據(jù)庫字符集為 utf-8;

4.使用 pg_ctl -D dir_db 指定數(shù)據(jù)庫啟動后臺服務(wù);

5.使用 psql -d db 在命令行登陸 PgSQL;

配置

安裝完畢后還要配置一些比較基本的參數(shù)才能正常使用。

Host權(quán)限

PgSQL需要在 pg_hba.conf 文件中配置數(shù)據(jù)庫 Host 權(quán)限,才能被其他機(jī)器訪問。

# TYPE  DATABASE        USER            ADDRESS                 METHOD

local   all             all                                     trust

host    all             all             127.0.0.1/32            md5

host    all             all             172.16.0.1/16            md5

文件中注釋部分對這幾個字段介紹得比較詳細(xì), 我們很可能需要添加 host(IP) 訪問項, ADDRESS 是普通的網(wǎng)段表示法,METHOD 推薦使用 md5,表示使用 md5 加密傳輸密碼。

服務(wù)器配置

服務(wù)器配置在 postgresql.conf中,修改配置后需要 使用 pg_ctl restart -D dir_db 命令重啟數(shù)據(jù)庫;

此外,我們也可以在登陸數(shù)據(jù)庫后修改配置項:使用 SELECT * FROM pg_settings WHERE name = 'config'; 查詢當(dāng)前配置項,再使用 UPDATE 語句更新配置。但有些配置如內(nèi)存分配策略是只在當(dāng)前 session 生效的,全局生效需要在配置文件中修改,再重啟服務(wù)器。

我們可以修改配置并用客戶端驗證 SQL 語句的優(yōu)化,使用 \timing on 開啟查詢計時,使用 EXPLAIN ANALYSE 語句 分析查詢語句效率。 下面介紹兩個已實踐過的配置參數(shù):

  • shared_buffers:用于指定共享內(nèi)存緩沖區(qū)所占用的內(nèi)存量。它應(yīng)該足夠大來存儲常使用的查詢結(jié)果,以減少物理I/O。但它也不能太大,以避免系統(tǒng) 內(nèi)存swap 的發(fā)生, 一般設(shè)置為系統(tǒng)內(nèi)存的 20%。
  • work_mem:一個連接的工作內(nèi)存,在查詢結(jié)果數(shù)據(jù)量較大時,此值如果較小的話,會導(dǎo)致大量系統(tǒng) I/O,導(dǎo)致查詢速度急劇下降,如果你的 explain 語句內(nèi) buffer 部分 read數(shù)值過大,則表示工作內(nèi)存不足,需要調(diào)整加此參數(shù)。但此值也不能太大,需要保證 work_mem * max_connections + shared_buffers + 系統(tǒng)內(nèi)存 RAM,不然同樣可能會導(dǎo)致系統(tǒng) 內(nèi)存swap。

這樣,PgSQL 就能作為一個正常的關(guān)系型數(shù)據(jù)使用了。

分詞

全文索引的實現(xiàn)要靠 PgSQL 的 gin 索引。分詞功能 PgSQL 內(nèi)置了英文、西班牙文等,但中文分詞需要借助開源插件 zhparser;

SCWS

要使用 zhparser,我們首先要安裝 SCWS 分詞庫,SCWS 是 Simple Chinese Word Segmentation 的首字母縮寫(即:簡易中文分詞系統(tǒng)),其 GitHub 項目地址為 hightman-scws,我們下載之后可以直接安裝。

安裝完后,就可以在命令行中使用 scws 命令進(jìn)行測試分詞了, 其參數(shù)主要有:

  • -c utf8 指定字符集
  • -d dict 指定字典 可以是 xdb 或 txt 格式
  • -M 復(fù)合分詞的級別, 1~15,按位異或的 1|2|4|8 依次表示 短詞|二元|主要字|全部字,默認(rèn)不復(fù)合分詞,這個參數(shù)可以幫助調(diào)整到最想要的分詞效果。

zhpaser

1.下載 zhparser 源碼 git clone https:github.com/amutu/zhparser.git;

2.安裝前需要先配置環(huán)境變量:export PATH=$PATH:/path/to/pgsql;

3.make make install編譯 zhparser;

4.登陸 PgSQL 使用 CREATE EXTENSION zhparser; 啟用插件;

5.添加分詞配置

CREATE TEXT SEARCH CONFIGURATION parser_name (PARSER = zhparser); // 添加配置
ALTER TEXT SEARCH CONFIGURATION parser_name ADD MAPPING FOR n,v,a,i,e,l,j WITH simple; // 設(shè)置分詞規(guī)則 (n 名詞 v 動詞等,詳情閱讀下面的文檔)

6.給某一列的分詞結(jié)果添加 gin 索引 create index idx_name on table using gin(to_tsvector('parser_name', field));

7.在命令行中使用上一節(jié)中介紹的 scws 命令測試分詞配置,如我認(rèn)為復(fù)合等級為 7 時分詞結(jié)果最好,則我在 postgresql.conf添加配置

zhparser.multi_short = true #短詞復(fù)合: 1

zhparser.multi_duality = true  #散字二元復(fù)合: 2

zhparser.multi_zmain = true  #重要單字復(fù)合: 4

zhparser.multi_zall = false  #全部單字復(fù)合: 8

SQL

查詢中我們可以使用最簡單的 SELECT * FROM table WHERE to_tsvector('parser_name', field) @@ 'word' 來查詢 field 字段分詞中帶有 word 一詞的數(shù)據(jù);

使用 to_tsquery() 方法將句子解析成各個詞的組合向量,如 國家大劇院 的返回結(jié)果為 '國家' '大劇院' '大劇' '劇院' ,當(dāng)然我們也可以使用 | 符號拼接自己需要的向量;在查詢 長句 時,可以使用 SELECT * FROM table WHERE to_tsvector('parser_name', field) @@ to_tsquery('parser_name','words');

有時候我們想像 MySQL 的 SQL_CALC_FOUND_ROWS 語句一樣同步返回結(jié)果條數(shù),則可以使用 SELECT COUNT(*) OVER() AS score FROM table WHERE ...,PgSQL 會在每一行數(shù)據(jù)添加 score 字段存儲查詢到的總結(jié)果條數(shù);

到這里,普通的全文檢索需求已經(jīng)實現(xiàn)了。

優(yōu)化

我們接著對分詞效果和效率進(jìn)行優(yōu)化:

存儲分詞結(jié)果

我們可以使用一個字段來存儲分詞向量,并在此字段上創(chuàng)建索引來更優(yōu)地使用分詞索引:

ALTER TABLE table ADD COLUMN tsv_column tsvector;           // 添加一個分詞字段
UPDATE table SET tsv_column = to_tsvector('parser_name', coalesce(field,''));   // 將字段的分詞向量更新到新字段中
CREATE INDEX idx_gin_zhcn ON table USING GIN(tsv_column);   // 在新字段上創(chuàng)建索引
CREATE TRIGGER trigger_name BEFORE INSERT OR UPDATE  ON table FOR EACH ROW EXECUTE PROCEDURE
tsvector_update_trigger(tsv_column, 'parser_name', field); // 創(chuàng)建一個更新分詞觸發(fā)器

這樣,再進(jìn)行查詢時就可以直接使用 SELECT * FROM table WHERE tsv_column @@ 'keyword' 了。

這里需要注意,這時候在往表內(nèi)插入數(shù)據(jù)的時候,可能會報錯,提示指定 parser_name 的 schema, 這時候可以使用 \dF 命令查看所有 text search configuration 的參數(shù):

               List of text search configurations

   Schema   |    Name    |              Description

------------+------------+---------------------------------------

 pg_catalog | english    | configuration for english language

 public     | myparser   |

注意 schema 參數(shù),在創(chuàng)建 trigger 時需要指定 schema, 如上面,就需要使用 public.myparser。

添加自定義詞典

我們可以在網(wǎng)上下載 xdb 格式的詞庫來替代默認(rèn)詞典,詞庫放在 share/tsearch_data/ 文件夾下才能被 PgSQL 讀取到,默認(rèn)使用的詞庫是 dict.utf8.xdb。要使用自定義詞庫,可以將詞庫放在詞庫文件夾后,在 postgresql.conf 配置 zhparser.extra_dict="mydict.xdb" 參數(shù);

當(dāng)我們只有 txt 的詞庫,想把這個詞庫作為默認(rèn)詞庫該怎么辦呢?使用 scws 帶的scwe-gen-dict 工具或網(wǎng)上找的腳本生成 xdb 后放入詞庫文件夾后,在 PgSQL 中分詞一直報錯,讀取詞庫文件失敗。我經(jīng)過多次實驗,總結(jié)出了一套制作一個詞典文件的方法:

1.準(zhǔn)備詞庫源文件 mydict.txt:詞庫文件的內(nèi)容每一行的格式為詞 TF IDF 詞性,詞是必須的,而 TF 詞頻(Term Frequency)、IDF 反文檔頻率(Inverse Document Frequency) 和 詞性 都是可選的,除非確定自己的詞典資料是對的且符合 scws 的配置,不然最好還是留空,讓 scws 自已確定;

2.在 postgresql.conf 中設(shè)置 zhparser.extra_dicts = "mydict.txt" 同時設(shè)置 zhparser.dict_in_memory = true;

3.命令行進(jìn)入 PgSQL,執(zhí)行一條分詞語句 select to_tsquery('parser', '隨便一個詞') ,分詞會極慢,請耐心(請保證此時只有一個分詞語句在執(zhí)行);

4.分詞成功后,在/tmp/目錄下找到生成的 scws-xxxx.xdb 替換掉 share/tsearch_data/dict.utf8.xdb;

5.刪除剛加入的 extra_dicts dict_in_memory 配置,重啟服務(wù)器。

擴(kuò)展

由于查詢的是 POI 的名稱,一般較短,且很多詞并無語義,又考慮到用戶的輸入習(xí)慣,一般會輸入 POI 名稱的前幾個字符,而且 scws 的分詞準(zhǔn)確率也不能達(dá)到100%,于是我添加了名稱的前綴查詢來提高查詢的準(zhǔn)確率,即使用 B樹索引 實現(xiàn) LIKE '關(guān)鍵詞%' 的查詢。這里需

這里要注意的是,創(chuàng)建索引時要根據(jù)字段類型配置 操作符類,不然索引可能會不生效,如在 字段類型為 varchar 的字段上創(chuàng)建索引需要使用語句CREATE INDEX idx_name ON table(COLUMN varchar_pattern_ops),這里的 varcharpatternops 就是操作符類。

自此,一個良好的全文檢索系統(tǒng)就完成了。

總結(jié)

簡單的數(shù)據(jù)遷移并不是終點(diǎn),后續(xù)要做的還有很多,如整個系統(tǒng)的數(shù)據(jù)同步、查詢效率優(yōu)化、查詢功能優(yōu)化(添加拼音搜索、模糊搜索)等。特別是查詢效率,不知道是不是我配置有問題,完全達(dá)不到那種 E級毫秒 的速度,1kw 的數(shù)據(jù)效率在進(jìn)行大結(jié)果返回時就大幅下降(200ms),只好老老實實地提前進(jìn)行了分表,目前百萬級查詢速度在 20ms 以內(nèi),優(yōu)化還有一段路要走。

不過這次倒是對 技術(shù)的“生態(tài)”有了個更深的體會,這方面 PgSQL 確實和 MySQL 差遠(yuǎn)了,使用 MySQL 時再奇葩的問題都能在網(wǎng)上快速找到答案,而 PgSQL 就尷尬了,入門級的問題搜索 stackoverflow 來來回回就那么幾個對不上的回答。雖然也有阿里的“德哥”一樣的大神在辛苦布道,但用戶的數(shù)量才是根本。不過,隨著 PgSQL 越來越完善,使用它的人一定會越來越多的,我這篇文章也算是為 PgSQL 加溫了吧,哈哈~希望能幫到后來的使用者。

以上就是如何使用PostgreSQL進(jìn)行中文全文檢索的詳細(xì)內(nèi)容,更多關(guān)于使用PostgreSQL進(jìn)行中文全文檢索的資料請關(guān)注腳本之家其它相關(guān)文章!

您可能感興趣的文章:
  • PostGreSql 判斷字符串中是否有中文的案例
  • PostgreSQL的中文拼音排序案例
  • 自定義函數(shù)實現(xiàn)單詞排序并運(yùn)用于PostgreSQL(實現(xiàn)代碼)
  • PostgreSQL將數(shù)據(jù)加載到buffer cache中操作方法
  • 在PostgreSQL中使用ltree處理層次結(jié)構(gòu)數(shù)據(jù)的方法
  • postgresql 中的時間處理小技巧(推薦)
  • Postgresql限制用戶登錄錯誤次數(shù)的實例代碼
  • PostgreSQL用戶登錄失敗自動鎖定的處理方案
  • postgresql影子用戶實踐場景分析

標(biāo)簽:昭通 海西 濮陽 杭州 辛集 寶雞 溫州 榆林

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《如何使用PostgreSQL進(jìn)行中文全文檢索》,本文關(guān)鍵詞  如何,使用,PostgreSQL,進(jìn)行,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《如何使用PostgreSQL進(jìn)行中文全文檢索》相關(guān)的同類信息!
  • 本頁收集關(guān)于如何使用PostgreSQL進(jìn)行中文全文檢索的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    欧美大白屁股肥臀xxxxxx| 欧美一区二区三区人| 亚洲色图一区二区| 国产无遮挡一区二区三区毛片日本| 亚洲婷婷在线视频| 欧美吞精做爰啪啪高潮| av不卡免费在线观看| 欧美日韩免费高清一区色橹橹 | 久久久电影一区二区三区| 国产精品夫妻自拍| 日韩高清在线不卡| 99re这里都是精品| 亚洲欧美偷拍另类a∨色屁股| 色94色欧美sute亚洲13| 97超碰欧美中文字幕| 日韩午夜电影av| 中文字幕中文在线不卡住| 日韩电影免费一区| 91女厕偷拍女厕偷拍高清| wwwwww.欧美系列| 亚洲不卡在线观看| 欧美在线制服丝袜| 欧美xxxxx牲另类人与| 亚洲精选一二三| 韩国毛片一区二区三区| 欧美人伦禁忌dvd放荡欲情| 综合久久久久久| 国产剧情一区二区| 精品少妇一区二区三区| 亚洲成人激情av| 91美女在线看| 国产精品久久久久久福利一牛影视| 久久草av在线| 91麻豆精品国产91久久久更新时间 | 欧美最猛性xxxxx直播| 国产欧美日韩三级| 精品综合久久久久久8888| 欧美日韩久久一区二区| 亚洲欧美韩国综合色| av动漫一区二区| 国产精品色一区二区三区| 国产一区二区三区四| 日韩精品自拍偷拍| 日本v片在线高清不卡在线观看| 欧美综合一区二区三区| 亚洲欧美成aⅴ人在线观看| jiyouzz国产精品久久| 国产精品水嫩水嫩| 国产成人一区在线| 欧美激情综合五月色丁香| 国产精品66部| 国产精品无人区| 成人精品免费看| 亚洲国产精品精华液ab| 国产成a人亚洲| 中国色在线观看另类| 国产91综合网| 亚洲欧美日韩中文字幕一区二区三区| 成人h动漫精品| 中国色在线观看另类| 99麻豆久久久国产精品免费| 中文字幕亚洲一区二区av在线| 91在线精品一区二区| 亚洲另类春色国产| 欧美精品国产精品| 国内精品不卡在线| 国产精品久久久久久久久动漫| 成人91在线观看| 一区二区高清视频在线观看| 欧美亚洲国产一区在线观看网站| 日韩精品一二三区| 亚洲精品在线观看网站| 国产成人精品亚洲日本在线桃色| 中文字幕亚洲不卡| 欧美日韩精品高清| 国产麻豆日韩欧美久久| 樱花影视一区二区| 欧美成人a视频| 99国产精品视频免费观看| 亚洲一级电影视频| 日韩欧美国产三级| 91麻豆精品在线观看| 日本aⅴ亚洲精品中文乱码| 久久精品欧美日韩精品 | 国产精品色眯眯| 欧美日韩在线直播| 国产精品香蕉一区二区三区| 一区在线播放视频| 7777精品伊人久久久大香线蕉最新版 | 欧美一区二区在线看| 国产精品主播直播| 一区二区三区欧美| 日韩精品一区国产麻豆| 99re视频这里只有精品| 波多野结衣亚洲| 日韩福利电影在线| 国产精品久久久久影院色老大| 在线观看免费成人| 国产精品一区在线观看你懂的| 亚洲免费视频成人| 久久嫩草精品久久久精品| 欧美日本在线视频| 91免费在线播放| 国内成+人亚洲+欧美+综合在线| 亚洲人妖av一区二区| 精品国产三级a在线观看| 91搞黄在线观看| 成人精品国产一区二区4080| 蜜桃精品视频在线观看| 亚洲综合一区在线| 欧美激情一区二区三区蜜桃视频| 91精品欧美综合在线观看最新| 一本大道久久精品懂色aⅴ| 紧缚奴在线一区二区三区| 亚洲一级二级在线| 国产精品久久一级| 精品福利在线导航| 欧美日韩国产一级二级| 成人av小说网| 国产成人精品免费| 美女国产一区二区三区| 亚洲福利电影网| 最新日韩在线视频| 久久综合九色欧美综合狠狠| 欧美一二三四在线| 欧美丰满美乳xxx高潮www| 欧美亚洲自拍偷拍| 色狠狠桃花综合| 91丨九色porny丨蝌蚪| 国产91精品一区二区麻豆亚洲| 国产一区二区三区四区五区入口 | 3d动漫精品啪啪1区2区免费| 一本到不卡免费一区二区| 91网站视频在线观看| 99国产精品久久久| 北岛玲一区二区三区四区| 国产乱人伦偷精品视频免下载| 久久成人免费电影| 免费人成在线不卡| 麻豆中文一区二区| 美女视频黄频大全不卡视频在线播放| 日韩激情视频网站| 天天免费综合色| 免费在线观看视频一区| 精品无人区卡一卡二卡三乱码免费卡| 久久精品国内一区二区三区| 久久国产精品一区二区| 日本aⅴ精品一区二区三区| 久久精品国产精品亚洲综合| 国产自产v一区二区三区c| 国产91在线|亚洲| 99久久精品国产毛片| 99久久精品久久久久久清纯| 在线观看不卡视频| 欧美一区二区在线看| 日韩精品一区二区三区在线观看 | 欧美日韩国产一级片| 4438成人网| 国产亚洲综合色| 亚洲天堂a在线| 亚洲成人一二三| 国产伦精品一区二区三区免费迷| 国产成人综合亚洲网站| 91女厕偷拍女厕偷拍高清| 欧美日韩免费观看一区二区三区| 欧美日韩大陆在线| 久久精品欧美日韩精品| 一级女性全黄久久生活片免费| 无码av免费一区二区三区试看| 日韩影院精彩在线| 韩国午夜理伦三级不卡影院| 一本大道综合伊人精品热热| 91精品婷婷国产综合久久性色 | 波多野结衣的一区二区三区| 欧美日韩在线观看一区二区| 2017欧美狠狠色| 成人欧美一区二区三区在线播放| 视频一区在线视频| aa级大片欧美| 337p日本欧洲亚洲大胆精品 | 在线观看av不卡| 国产日韩欧美电影| 调教+趴+乳夹+国产+精品| 国产九色精品成人porny | 国产精品免费丝袜| 亚洲欧美色图小说| 国产一区三区三区| 欧美吻胸吃奶大尺度电影 | 中文一区在线播放| 天天色天天操综合| 91在线视频观看| 国产视频一区在线观看| 日韩精品免费视频人成| 99国产欧美久久久精品| 国产亚洲一区二区在线观看| 亚洲一二三级电影| 91在线云播放| 久久亚区不卡日本| 亚洲国产一区二区a毛片| 成人黄色免费短视频|