亚洲色图视频网,久久69成人,玖玖玖国产精品

主頁 > 知識庫 > python jieba庫的基本使用

python jieba庫的基本使用

一、jieba庫概述

jieba是優秀的中文分詞第三方庫

中文文本需要通過分詞獲得單個的詞語
jieba是優秀的中文分詞第三方庫，需要額外安裝
jieba庫提供三種分詞模式，最簡單只需要掌握一個函數

二、jieba庫安裝

pip install jieba

三、jieba分詞的原理

jieba分詞依靠中文詞庫

利用一個中文詞庫，確定漢字之間的關聯概率
漢字間概率大的組成詞組，形成分詞結果

四、jieba分詞的3種模式

精確模式：把文本精確地切分開，不存在冗余單詞（最常用）
全模式：把文本中所有可能的詞語都掃描出來，有冗余
搜索引擎模式：在精確模式的基礎上，對長詞再次切分

五、jieba庫常用函數

函數	描述
jieba.lcut(s)	精確模式，返回一個列表類型的分詞結果
jieba.lcut(s,cut_all=True)	全模式，返回一個列表類型的分詞結果，存在冗余
jieba.lcut_for_search(s)	搜索引擎模式，返回一個列表類型的分詞結果，存在冗余
jieba.lcut(s)	精確模式，返回一個列表類型的分詞結果
jieba.add_word(s)	向分詞詞典增加新詞w

例子：

>>> jieba.lcut("中國是一個偉大的國家")
['中國', '是', '一個', '偉大', '的', '國家']

>>> jieba.lcut("中國是一個偉大的國家", cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

六、文本詞頻示例

問題分析

英文文本： Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

中文文本：《三國演義》分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下：

def getText():
 # 打開 hamlet.txt 這個文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小寫對詞頻統計的干擾，將所有單詞轉換為小寫
 txt = txt.lower()
 # 將文中出現的所有特殊字符替換為空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一個所以后單詞都是小寫的，單詞間以空格間隔的文本
 return txt

hamletTxt = getText()
# split() 默認使用空格作為分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據單詞出現的次數進行排序，其中使用了 lambda 函數。更多解釋請看：
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統計《三國演義》中任務出場的次數：

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果：

曹操  953
孔明  836
將軍  772
卻說  656
玄德  585
關公  510
丞相  491
二人  469
不可  440
荊州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
張飛  358

我們可以看到得出的結果與我們想象的有些差異，比如

“卻說”、“二人”等與人名無關
“諸葛亮”、“孔明”都是同一個人
“孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優化，在詞頻統計的基礎上，面向問題改造我們的程序。

下面是《三國演義》人物數量統計代碼的升級版，升級版中對于某些確定不是人名的詞，即使做了詞頻統計，也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "諸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "關公" or word == "云長":
 rword == "關羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "劉備"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果：

曹操  963
孔明  847
張飛  366
商議  359
如何  352
主公  340
軍士  320
呂布  303
左右  298
軍馬  297
趙云  283
劉備  282
引兵  279
次日  278
大喜  274

可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果，我們將這些詞加入到 excludes 中，多次運行程序后最后得到《三國演義》任務出場順序前20：

七、文本詞頻統計問題舉一反三

應用問題擴展

《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統計它的任務出場次數
政府工作報告、科研論文、新聞報道...中出現的大量的詞頻進行分析，進而找到每篇文章的重點內容
進一步，對文本的詞語或詞匯繪制成詞云，使其展示的效果更加直觀

以上內容資料均來源于中國大學MOOC網-北京理工大學Python語言程序設計課程
課程地址：https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內容，更多關于python jieba庫的資料請關注腳本之家其它相關文章！

您可能感興趣的文章:

Python jieba庫分詞模式實例用法
Python jieba庫用法及實例解析
Python基于jieba庫進行簡單分詞及詞云功能實現方法
Python中jieba庫的使用方法

標簽：錫林郭勒盟梅州文山石家莊西寧懷化浙江昆明

巨人網絡通訊聲明：本文標題《python jieba庫的基本使用》，本文關鍵詞 python,jieba,庫,的,基本,使用,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《python jieba庫的基本使用》相關的同類信息！

python jieba庫的基本使用

目錄一、jieba庫概述二、jieba庫安裝三、jieba分詞的原理四、jieba分詞的3種模式五、jieba庫常用函數六、文本詞頻示例七、文本詞頻統計問題舉一反三一、jieba庫概述 jieba是優秀的中...

10-18

北京電話銷售公司

5、客服在電話銷售中會遇到這些困難：【北京電話銷售公司】智能語音電話系統，可以主動外呼的電話機器人，可以自然人...

10-24

上?？狗怆娫捦夂艟€路一企嗨,呼叫系統商家-解讀

一企嗨電話營銷系統 1．當前的電銷場景有哪些困擾？ 1）手機.卡頻繁被封，電銷業務難以啟動； 2）銷售人員號碼被標注，...

12-17

鄭州不標記電話群呼軟件特價-?今日推薦

鄭州不標記電話群呼軟件特價了解客戶，洞察市場，優化產品、服務、營銷方式：電銷機器人不僅擁有高效客戶的資料整理，...

01-15

400電話的申請流程及注意事項-400電話的申請

400電話的申請流程及注意事項-400電話的申請在商業領域，一個品牌能否為廣大用戶提供優質的售后服務，直接關系到其未來...

08-14

電銷外呼系統uk（電銷外呼系統怎么安裝）

今天給各位分享電銷外呼系統uk的知識，其中也會對電銷外呼系統怎么安裝進行解釋，如果能碰巧解決你現在面臨的問題，別...

08-28

四川防封電銷卡購買

本公司經歷多年的運營管理優化，秉持“服務鍥而不舍，品質力臻卓越”的服務理念，為每一位客戶提供專業、優質的服務。...

12-04

小米電話自動機器人(小米電話自動機器人怎么關

未來| 展望前沿新技術5700 字 / 15 分鐘本文首發于航通社小米電話自動機器人，原創文章未經授權請勿轉載。航通社(ID:lifeis...

11-29

選擇正規的400電話代理商400電話申請如何尋找正規代理商？這些方面要考慮!

一個好的400號碼可以讓你的客戶和潛在客戶更容易記住，讓企業的品牌價值不流失，提升企業形象，讓你的公司節省大量的宣...

01-13

新興產業遇人才瓶頸外包“第一?！绷ρa人才缺口

人才緊缺正成為新興的服務外包產業發展的最大瓶頸。中國第一所專門的服務外包學院——園區軟件與服務外包職業學院今年...

10-22

連云港ai電銷機器人價格（ai電銷機器人哪家好）

本文目錄一覽： 1、電銷機器人多少錢？2、關于AI人工智能電銷機器人怎樣收費？3、電銷機器人多少錢一臺，詳細是怎樣收費...

04-23

泰州客服外呼系統開發（客服外呼系統南牛網絡）

本文目錄一覽： 1、外呼體系若何措置賞罰？ 2、電銷外呼體系哪個好了？市道上的太多了！有可能推薦的嗎？ 3、外呼體系若...

11-26

信陽語音外呼系統供應商（中信銀行電話）

本文目次一覽： 1、智能德律風外呼體系哪家的對照好用？ 2、而今外呼體系哪家公司做的對照好？ 3、外呼體系靠不靠譜，哪...

11-25

WhatsApp成印度最受歡迎的安卓應用用戶達到900萬

【TechWeb報道】6月26日消息，據國外媒體報道，按照瑪麗·米克爾（Mary Meeker）上月發布的年度互聯網趨勢陳訴，WhatsApp是印度...

10-16

外呼系統：更換成SSD后安裝了系統，開機后總是出現下圖中這個東西，誰懂？

關于這個問題，其實和外呼更換的SSD固態硬盤沒有太大關系，而是您自己在進行系統重裝時沒有正確的進行系統版本設置，最...

12-14

Docker部署springboot項目實例解析

這篇文章主要介紹了docker部署springboot項目實例解析,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參...

10-16

從奧運冠軍名字頻遭商標搶注說起

中國運動健兒在東京奧運會取得了許多優異成績，可大家在欣喜之余發現，全紅嬋、楊倩、汪順等多位奧運冠軍的姓名被搶注...

10-23

智客電銷機器人（電銷智能機器人代理）

本篇文章給大家談談智客電銷機器人，以及電銷智能機器人代理對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。...

11-06

怎樣安裝400電話400電話怎樣安裝更便宜？怎樣安裝更方便？

400電話是一個虛擬號碼，需要綁定手機或固定電話，所以不需要安裝設備。如果廣西企業想辦理400電話，可以選擇巨人科技...

01-12

移動互聯網環境下App商標商品類似的侵權認定

在移動互聯網環境下，一款App所涉的商品類別較為廣泛，其不再局限于傳統行業商品或服務所指向的單一類別，而必然涉及有...

10-23

Oracle 18c新特性-PDB快照輪播(Snapshot Carousel)

Oracle 18c推出的一個新功能就是PDB快照輪播，最多可以創建8個pdb的快照，而這8個構成的一組快照就被稱作快照輪播。當達到第...

10-18

雷石客服呼叫中心4007-766-667正式啟用

8月4日報道 2011年8月1日起，雷石公司call centre客服呼叫中心（4007-766-667）正式啟用！為了進一步節省客戶的呼叫費用，打造從...

10-19

400電話后臺密碼忘記了怎么辦？

【400電話后臺密碼忘記了怎么辦？】密碼設置時間太久，或是修改太多次，導致400電話后臺密碼忘記，無法登入后臺怎么辦？...

11-07

深圳防封電銷機器人批發網,電話營銷系統辦理商家-信譽保障

深圳防封電銷機器人批發網,電話營銷系統辦理商家外呼數據進行篩選;誰來呼是指，按照一定的規則將電話分配到某個坐席進...

12-17

廣州防封網絡電話怎么樣？

與傳統電話相比，廣州防封網絡電話對硬件設備和線路的要求低，可以明顯降低企業電話安裝與維修的成本。當企業的部署...

10-26

上海電銷卡辦理-三五電銷卡價格

上海電銷卡辦理-三五電銷卡價格巨人網絡通訊主營電銷卡、企業電銷卡、不封號電話卡、電銷系統、電銷軟件、高頻防封軟...

06-24

辦理400客服電話400電話申請要選擇什么樣的服務商

400電話已成為企業的獨家客戶服務電話。它沒有線路優勢和多功能性，受到許多企業的青睞。目前，90%以上的企業將向在線...

01-13

廠址位置地圖怎么申請？百度怎樣申請廠址定位？

騰訊地圖怎么申請自己的位置？您好，請說明詳細地點名稱，地址信息，聯系電話(很重要)，標記準確位置并上傳照片及相關...

11-26

襄陽全自動外呼系統運營商（襄陽全自動外呼系統運營商電話）

本篇文章給咱們談談襄陽全主動外呼體系運營商，以及襄陽全主動外呼體系運營商電話對應的知識點，期望對各位有所幫忙，...

11-06

400電話如何辦理？全面解析辦理步驟和常見問題

400電話已經成為了很多企業的必備通訊方式，通過一個以“400”開頭的專屬號碼，可以方便快捷地實現企業與客戶之間的溝通...

07-21

企友通外呼系統服務（通信外呼系統）

本文目錄一覽： 1、企友通功用有哪些？2、企友通外呼體系報價多少？3、企友通怎么樣，好用嗎?4、企友通外呼體系包含哪些...

11-28

電話機器人輪胎漏氣（2016機器人輪胎為什么不動）

*** 本文目錄一覽：1、輪胎經常漏氣怎么回事?2、輪胎漏氣怎么辦3、今天連續接到好幾個騷擾電話,一個機器人語音一直在說什...

07-15

網上營銷方式

2.銷售難找，離職率居高不下【網上營銷方式】除此之外還有一些O2O服務類通知等，智能外呼也可以代替人工進行通知?！揪W...

10-24

電銷團隊機制有哪些特點（電銷團隊架構）

本文目錄一覽： 1、團隊的特色？2、怎么辦理電銷團隊3、怎么做好電銷團隊建造4、什么是團隊機制？5、電銷團隊建造與辦理...

04-22

ai機器人外呼系統代理加盟（ai外呼機器人不好用）

本文目錄一覽： 1、有沒有哪種電話機器人可以做招商項目的??？需求聯絡的合作方太多了，想要可以智能高效和客戶溝通的...

04-22

簡單介紹Python虛擬環境及使用方法

目錄一、為什么需要虛擬環境？二、virtualenv 三、venv 四、pipenv 一、為什么需要虛擬環境？這里的環境，指的就是 Python 代...

10-18

邯鄲三亞電銷卡的簡單介紹

本篇文章給大家談談邯鄲三亞電銷卡，以及對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。本文目錄一覽：1、...

08-28

廣州電話機器人效果（廣州女性機器人體驗店）

本文目錄一覽： 1、電話機器人有什么用?2、電話機器人效果好嗎？3、電話機器人使用效果怎么樣電話機器人有什么用? 電話...

11-27

工信部公示國家中小企業公共服務示范平臺名單 174家平臺入選

根據《國家中小企業公共服務示范平臺認定管理辦法》（工信部企業〔2017〕156號）、《關于推薦2017年度國家中小企業公共服...

10-13

除了比爾蓋茨和貝索斯這些人也曾經成為全球首富

【騰訊編者按】比來，亞馬遜創始人杰夫·貝索斯(Jeff Bezos)在《福布斯》實時富豪排行榜上一度超過比爾·蓋茨(Bill Gates)成為...

10-16

路燈安裝了物聯網卡，從此不僅僅只是照明（基于物聯網的智能路燈系統）

隨著社會的不斷發展，以及城市建設步伐的不斷加快，城市面積和城市人口不斷增加，這對于城市基礎設施提出了更高的要求...

11-07

室內空氣污染也需要物聯網技術

污染問題在外太空更嚴重，但在地球上也是相當糟糕。室內空氣中無色無味的毒素和化學物質容易患病。美國過敏專家估計，...

10-13

品牌質量塑造是在品牌形成的全過程

品牌質量的優勢似乎是在產品進入消費環節才顯現出來的。但是品牌質量優勢的塑造卻在此之前早已經在設計．生產．銷售．...

10-23

400電話辦理流程是怎樣的？給企業帶來什么便利？

400電話現在已經得到了企業和客戶的高度認同，因為400電話不僅方便企業改善服務流程，提高客戶留存率。而且對于客戶而言...

04-06

寧波外呼系統單價（外呼系統收費標準）

本篇文章給大家談談寧波外呼系統單價，以及外呼系統收費標準對應的知識點，希望對各位有所幫助，不要忘了收藏本站喔。...

11-07

中國聯通400電話官網聯通400電話暫停的原因

由于中國聯通的資費優勢和受眾群體相對全面，；電信的市場份額約為22%，因為資費相對昂貴。因此，相對而言，想要申請...

01-13

中科院：讓創新的第一動力作用更加強勁

來源：人民日報創新是引領發展的第一動力。當前，新一輪科技革命和產業變革深入發展，我們必須堅持創新在我國現代化...

10-23

企業內部的SEO培訓如何才更有效果

對于一個組建不久的SEO團隊來說，日常的公司內部培訓自然少不了，然而有不少新人對這個行業了解甚少。再加上SEO工作的內...

10-19

河南營銷電話機器人（智能營銷電話機器人）

本文目錄一覽： 1、什么是電話機器人?2、最近聽說電話機器人能幫助電話銷售，誰知道怎么樣？3、電話營銷機器人如何打電...

11-27

電腦外呼系統沒有錄音（電腦外呼系統沒有錄音

本文目錄一覽：1、電腦沒有錄音設備怎么辦。在線等，急求2、windows7體系電腦沒有錄音設備怎么辦3、電銷體系網絡電話撥打...

11-29

5G登陸世界舞臺這么久，表現到底如何，來看看各國5G網絡實測

韓國韓國一直是推廣5G網絡最為積極的國家之一，先前對于5G網絡的基礎設施的建設及也是在全球范圍內尋求合作，華為的...

10-13

python jieba庫的基本使用

10-18

本頁收集關于python jieba庫的基本使用的相關信息資訊供網民參考！

推薦文章

上一篇：python中的bool數組取反案例

下一篇：Python多進程與多線程的使用場景詳解

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

python jieba庫的基本使用

目錄

一、jieba庫概述

二、jieba庫安裝

三、jieba分詞的原理

四、jieba分詞的3種模式

五、jieba庫常用函數

六、文本詞頻示例

七、文本詞頻統計問題舉一反三

一、jieba庫概述

三、jieba分詞的原理

四、jieba分詞的3種模式

六、文本詞頻示例