婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > python jieba庫的基本使用

python jieba庫的基本使用

熱門標簽:400電話 申請 條件 南京crm外呼系統排名 crm電銷機器人 賓館能在百度地圖標注嗎 電銷機器人 金倫通信 鄭州智能外呼系統中心 汕頭電商外呼系統供應商 云南地圖標注 北京外呼電銷機器人招商

一、jieba庫概述

jieba是優秀的中文分詞第三方庫

  • 中文文本需要通過分詞獲得單個的詞語
  • jieba是優秀的中文分詞第三方庫,需要額外安裝
  • jieba庫提供三種分詞模式,最簡單只需要掌握一個函數

二、jieba庫安裝

pip install jieba

三、jieba分詞的原理

jieba分詞依靠中文詞庫

  • 利用一個中文詞庫,確定漢字之間的關聯概率
  • 漢字間概率大的組成詞組,形成分詞結果

四、jieba分詞的3種模式

  • 精確模式:把文本精確地切分開,不存在冗余單詞(最常用)
  • 全模式:把文本中所有可能的詞語都掃描出來,有冗余
  • 搜索引擎模式:在精確模式的基礎上,對長詞再次切分

五、jieba庫常用函數

函數 描述
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.lcut(s,cut_all=True) 全模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut_for_search(s) 搜索引擎模式,返回一個列表類型的分詞結果,存在冗余
jieba.lcut(s) 精確模式,返回一個列表類型的分詞結果
jieba.add_word(s) 向分詞詞典增加新詞w

例子:

>>> jieba.lcut("中國是一個偉大的國家")
['中國', '是', '一個', '偉大', '的', '國家']

>>> jieba.lcut("中國是一個偉大的國家", cut_all=True)
['中國', '國是', '一個', '偉大', '的', '國家']

>>> jieba.lcut_for_search("中華人民共和國是偉大的")
['中華', '華人', '人民', '共和', '共和國', '中華人民共和國', '是', '偉大', '的']

六、文本詞頻示例

問題分析

  • 英文文本: Hamlet 分析詞頻

https://python123.io/resources/pye/hamlet.txt

  • 中文文本: 《三國演義》 分析人物

https://python123.io/resources/pye/threekingdoms.txt

代碼如下:

def getText():
 # 打開 hamlet.txt 這個文件
 txt = open("hamlet.txt", "r").read()
 # 避免大小寫對詞頻統計的干擾,將所有單詞轉換為小寫
 txt = txt.lower()
 # 將文中出現的所有特殊字符替換為空格
 for ch in '|"#$%^*()_+-=\\`~{}[];:>?/':
 txt = txt.replace(ch, " ")
 # 返回一個所以后單詞都是小寫的,單詞間以空格間隔的文本
 return txt

hamletTxt = getText()
# split() 默認使用空格作為分隔符
words = hamletTxt.split()
counts = {}
for word in words:
 counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(10):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

上面代碼中的

items.sort(key=lambda x:x[1], reverse=True)

是根據單詞出現的次數進行排序,其中使用了 lambda 函數。更多解釋請看:
https://www.runoob.com/python/att-list-sort.html

下面使用 jieba 庫來統計《三國演義》中任務出場的次數:

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 else:
 counts[word] = counts.get(word, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  953
孔明  836
將軍  772
卻說  656
玄德  585
關公  510
丞相  491
二人  469
不可  440
荊州  425
玄德曰  390
孔明曰  390
不能  384
如此  378
張飛  358

我們可以看到得出的結果與我們想象的有些差異,比如

  • “卻說”、“二人”等與人名無關
  • “諸葛亮”、“孔明”都是同一個人
  • “孔明”和“孔明曰”分詞不符合我們的需求

所以我們需要對上面代碼進行優化,在詞頻統計的基礎上,面向問題改造我們的程序。

下面是《三國演義》人物數量統計代碼的升級版,升級版中對于某些確定不是人名的詞,即使做了詞頻統計,也要將它刪除掉。使用寄一個集合excludes來接收一些確定不是人名但是又排序比較靠前的單詞列進去。

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
excludes = {"將軍","卻說","荊州","二人","不可","不能","如此"}
words = jieba.lcut(txt)
counts = {}
for word in words:
 if len(word) == 1:
 continue
 elif word == "諸葛亮" or word == "孔明曰":
 rword == "孔明"
 elif word == "關公" or word == "云長":
 rword == "關羽"
 elif word == "玄德" or word == "玄德曰":
 rword == "劉備"
 elif word == "孟德" or word == "丞相":
 rword == "曹操"
 else:
 rword = word
 counts[rword] = counts.get(rword, 0) + 1

items = list(counts.items())
items.sort(key=lambda x:x[1], reverse=True)
for i in range(15):
 word, count = items[i]
 print("{0:10}{1:>5}".format(word,count))

運行結果:

曹操  963
孔明  847
張飛  366
商議  359
如何  352
主公  340
軍士  320
呂布  303
左右  298
軍馬  297
趙云  283
劉備  282
引兵  279
次日  278
大喜  274

可以看出還是有像“商議”、“如何”等不是人物的詞出現在統計結果,我們將這些詞加入到 excludes 中,多次運行程序后最后得到《三國演義》任務出場順序前20:

七、文本詞頻統計問題舉一反三

應用問題擴展

  • 《紅樓夢》、《西游記》、《水滸傳》...等名著都可以統計它的任務出場次數
  • 政府工作報告、科研論文、新聞報道...中出現的大量的詞頻進行分析,進而找到每篇文章的重點內容
  • 進一步,對文本的詞語或詞匯繪制成詞云,使其展示的效果更加直觀

以上內容資料均來源于中國大學MOOC網-北京理工大學Python語言程序設計課程
課程地址:https://www.icourse163.org/course/BIT-268001

以上就是python jieba庫的基本使用的詳細內容,更多關于python jieba庫的資料請關注腳本之家其它相關文章!

您可能感興趣的文章:
  • Python jieba庫分詞模式實例用法
  • Python jieba庫用法及實例解析
  • Python基于jieba庫進行簡單分詞及詞云功能實現方法
  • Python中jieba庫的使用方法

標簽:錫林郭勒盟 梅州 文山 石家莊 西寧 懷化 浙江 昆明

巨人網絡通訊聲明:本文標題《python jieba庫的基本使用》,本文關鍵詞  python,jieba,庫,的,基本,使用,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《python jieba庫的基本使用》相關的同類信息!
  • 本頁收集關于python jieba庫的基本使用的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    26uuu亚洲| 欧美午夜电影网| 久久综合久久综合久久| 国产午夜精品在线观看| 亚洲成av人片一区二区三区| 尤物av一区二区| 亚洲日本va午夜在线影院| 国产精品福利一区二区| 6080国产精品一区二区| 久久久久久久性| 日韩理论片在线| 性久久久久久久久久久久| 乱一区二区av| 91浏览器打开| 久久亚洲一区二区三区四区| 亚洲三级电影全部在线观看高清| 免费欧美高清视频| 成人的网站免费观看| 欧美丝袜丝交足nylons| 91天堂素人约啪| www久久久久| 亚洲五码中文字幕| 国产suv一区二区三区88区| 日韩一区二区三区视频在线观看| 亚洲视频一二区| 色吊一区二区三区| 中文字幕一区二区在线播放| 精品一区二区三区香蕉蜜桃| 欧美色手机在线观看| 国产欧美一区二区精品婷婷| 奇米影视一区二区三区| 在线免费亚洲电影| 亚洲乱码精品一二三四区日韩在线| 久久99国产乱子伦精品免费| 欧美日韩成人综合在线一区二区| 亚洲午夜精品在线| 欧美日韩中文字幕一区| 亚洲视频资源在线| 91社区在线播放| 国产精品国产自产拍高清av王其| 国产一区在线观看麻豆| 久久一区二区三区国产精品| 蜜臀久久久久久久| 欧美一区日韩一区| 久久av资源网| 欧美一区二区免费观在线| 制服.丝袜.亚洲.中文.综合 | 久久99在线观看| 午夜亚洲国产au精品一区二区| 欧美日韩国产中文| 婷婷激情综合网| 精品视频1区2区3区| 首页欧美精品中文字幕| www.欧美日韩| 亚洲综合另类小说| 日韩一区二区三区视频在线| 蜜桃久久久久久| 亚洲国产成人自拍| 欧美综合一区二区三区| 蓝色福利精品导航| 中文字幕一区不卡| 日韩欧美成人午夜| 91影院在线观看| 全国精品久久少妇| 亚洲欧洲韩国日本视频| 日韩一区二区中文字幕| 成人av高清在线| 日韩国产精品久久| 国产精品女上位| 91精品久久久久久久久99蜜臂 | 亚洲成人av资源| 久久嫩草精品久久久久| 日本道在线观看一区二区| 一区二区三区产品免费精品久久75| 91精品国产91久久久久久最新毛片| 国产成人精品一区二区三区四区| 亚洲国产欧美日韩另类综合| 欧美激情艳妇裸体舞| 欧美片网站yy| 欧美一级一区二区| 精品视频一区二区不卡| 国产黄色精品网站| 日本成人在线网站| 亚洲不卡在线观看| 亚洲精品一二三| 在线成人免费观看| 亚洲欧洲一区二区三区| 欧美三级乱人伦电影| 国模一区二区三区白浆| 亚洲人xxxx| 精品国产乱码久久| 在线免费观看日韩欧美| 韩国v欧美v日本v亚洲v| 一区二区三区在线播| 亚洲va欧美va天堂v国产综合| 亚洲天天做日日做天天谢日日欢 | 亚洲va天堂va国产va久| 欧美aⅴ一区二区三区视频| 国产一区视频导航| 91伊人久久大香线蕉| 日韩免费一区二区| 亚洲激情五月婷婷| 国产伦精品一区二区三区视频青涩| 色婷婷综合中文久久一本| 欧美日韩免费不卡视频一区二区三区| 欧美日韩免费视频| 欧美mv日韩mv亚洲| 亚洲va欧美va国产va天堂影院| 高清国产一区二区三区| 一区二区三区国产精品| 亚洲成人在线网站| 亚洲h精品动漫在线观看| 高清日韩电视剧大全免费| 精品一区二区三区欧美| 老汉av免费一区二区三区 | 亚洲午夜电影在线观看| 亚洲国产成人av| 国产精品综合久久| 美女网站在线免费欧美精品| 天天操天天干天天综合网| 亚洲国产成人tv| 国产在线精品国自产拍免费| 国产精品传媒在线| 国产精品麻豆网站| 亚洲精品一区二区三区在线观看 | 亚洲超碰精品一区二区| 91精选在线观看| 亚洲一区二区精品视频| 欧美国产激情一区二区三区蜜月| 蜜乳av一区二区| 91在线视频免费观看| 亚洲欧美成人一区二区三区| 欧美久久久久久久久中文字幕| 国产黄色精品视频| 亚洲精品免费一二三区| 色欧美片视频在线观看| 91免费看`日韩一区二区| 蜜臀久久99精品久久久久久9| 欧美少妇bbb| 亚洲第一成年网| 精品捆绑美女sm三区| 久久精品999| 国内精品写真在线观看| 日韩伦理电影网| www.av亚洲| 91在线一区二区三区| 国内精品免费**视频| 久久久青草青青国产亚洲免观| 亚洲精品成a人| 蜜臀av性久久久久蜜臀aⅴ流畅| 亚洲大片免费看| 欧美一级专区免费大片| 国产精品情趣视频| 久久66热偷产精品| 不卡视频免费播放| 91精品欧美综合在线观看最新| 日韩国产精品久久久久久亚洲| 有码一区二区三区| 国产aⅴ综合色| 日韩成人一区二区| 精品裸体舞一区二区三区| 亚洲一卡二卡三卡四卡无卡久久| 国产成人高清在线| 91国偷自产一区二区使用方法| 久久日韩精品一区二区五区| 午夜不卡av免费| 欧美又粗又大又爽| 久久精品av麻豆的观看方式| 欧美日韩视频在线第一区 | 欧美日韩一区二区三区视频| 国产欧美一区二区精品性色| 麻豆成人免费电影| 欧美日韩国产在线播放网站| 欧美一区二区视频在线观看| 亚洲精品国产品国语在线app| 国产黄色精品网站| 欧美极品aⅴ影院| 国产麻豆视频精品| 欧美午夜一区二区三区| 国产曰批免费观看久久久| 7777精品伊人久久久大香线蕉超级流畅| 亚洲黄色小视频| 麻豆91在线播放| 99riav一区二区三区| 91搞黄在线观看| 不卡一二三区首页| 欧美成人一区二区三区在线观看| 欧美一级日韩不卡播放免费| 欧美一区二区三区视频免费| 1区2区3区国产精品| 亚洲欧美日韩一区二区三区在线观看| 色呦呦国产精品| 欧美xxxxxxxx| 日韩情涩欧美日韩视频| 亚洲另类色综合网站| 亚洲成a人片综合在线| 青青草伊人久久| 精品视频1区2区| 蜜臀精品一区二区三区在线观看 | 一区二区不卡在线视频 午夜欧美不卡在|