婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python中文糾錯的簡單實現

Python中文糾錯的簡單實現

熱門標簽:預覽式外呼系統 銀川電話機器人電話 電銷機器人錄音要學習什么 外賣地址有什么地圖標注 企業彩鈴地圖標注 上海正規的外呼系統最新報價 如何地圖標注公司 煙臺電話外呼營銷系統 長春極信防封電銷卡批發

介紹

這篇文章主要是用 Python 實現了簡單的中文分詞的同音字糾錯,目前的案例中只允許錯一個字,自己如果有興趣可以繼續優化下去。具體步驟如下所示:

  • 先準備一個文件,里面每一行中放一個中文分詞,我這里的文件是下面代碼中的 /Users/wys/Desktop/token.txt ,你們可以改成自己,再運行代碼
  • 將構建一個前綴樹類,實現插入功能,將所有的標準分詞都插入到前綴樹中,另外實現一個搜索功能,用來搜索分詞
  • 將輸入的錯誤分詞中的每個字都找出 10 個同音字,將每個字都用 10 個同音字替換,結果可以最多得到 n*10 個分詞,n 為分詞的長度,因為有的音可能沒有 10 個同音字。
  • 將這些分詞都經過前綴樹的查找,如果能搜到,將其作為正確糾正就過返回

代碼

import re,pinyin
from Pinyin2Hanzi import DefaultDagParams
from Pinyin2Hanzi import dag

class corrector():
    def __init__(self):
        self.re_compile = re.compile(r'[\u4e00-\u9fff]')
        self.DAG = DefaultDagParams()

    # 將文件中的詞讀取
    def getData(self):
        words = []
        with open("/Users/wys/Desktop/token.txt") as f:
            for line in f.readlines():
                word = line.split(" ")[0]
                if word and len(word) > 2:
                    res = self.re_compile.findall(word)
                    if len(res) == len(word): ## 保證都是漢字組成的分詞
                        words.append(word)
        return words

    # 將每個拼音轉換成同音的 10 個候選漢字,
    def pinyin_2_hanzi(self, pinyinList):
        result = []
        words = dag(self.DAG, pinyinList, path_num=10)
        for item in words:
            res = item.path  # 轉換結果
            result.append(res[0])
        return result

    # 獲得詞經過轉換的候選結結果
    def getCandidates(self, phrase):
        chars = {}
        for c in phrase:
            chars[c] = self.pinyin_2_hanzi(pinyin.get(c, format='strip', delimiter=',').split(','))
        replaces = []
        for c in phrase:
            for x in chars[c]:
                replaces.append(phrase.replace(c, x))
        return set(replaces)

    # 獲得糾錯之后的正確結果
    def getCorrection(self, words):
        result = []
        for word in words:
            for word in self.getCandidates(word):
                if Tree.search(word):
                    result.append(word)
                    break
        return result

class Node:
    def __init__(self):
        self.word = False
        self.child = {}


class Trie(object):
    def __init__(self):
        self.root = Node()

    def insert(self, words):
        for word in words:
            cur = self.root
            for w in word:
                if w not in cur.child:
                    cur.child[w] = Node()
                cur = cur.child[w]

            cur.word = True

    def search(self, word):
        cur = self.root
        for w in word:
            if w not in cur.child:
                return False
            cur = cur.child[w]

        if cur.word == False:
            return False
        return True

if __name__ == '__main__':
    # 初始化糾正器
    c = corrector()
    # 獲得單詞
    words = c.getData()
    # 初始化前綴樹
    Tree = Trie()
    # 將所有的單詞都插入到前綴樹中
    Tree.insert(words)
    # 測試
    print(c.getCorrection(['專塘街道','轉塘姐道','轉塘街到']))

結果

打印結果為:
['轉塘街道', '轉塘街道', '轉塘街道']

可以看出都糾正成功了,有一定的效果 ,之后會繼續優化。

到此這篇關于Python中文糾錯的簡單實現的文章就介紹到這了,更多相關Python中文糾錯內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python容錯的前綴樹實現中文糾錯

標簽:盤錦 珠海 西寧 湖北 上饒 宜昌 潮州 佳木斯

巨人網絡通訊聲明:本文標題《Python中文糾錯的簡單實現》,本文關鍵詞  Python,中文,糾,錯的,簡單,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python中文糾錯的簡單實現》相關的同類信息!
  • 本頁收集關于Python中文糾錯的簡單實現的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    久久丁香综合五月国产三级网站| 99国产精品久久久久久久久久| 精品一区二区免费| 亚洲欧美在线aaa| 欧美亚洲国产一区二区三区 | 色久优优欧美色久优优| 国产女人18毛片水真多成人如厕| 国产一区二区三区黄视频 | 欧美r级在线观看| 中文字幕乱码日本亚洲一区二区| 亚洲欧洲www| 美女视频一区二区| 成人高清在线视频| 欧美色欧美亚洲另类二区| 日韩一区二区三区视频| 亚洲视频一二三| 亚洲国产裸拍裸体视频在线观看乱了| 蜜臀av亚洲一区中文字幕| 99re这里只有精品6| 日韩欧美在线综合网| 中文字幕五月欧美| 国产做a爰片久久毛片| 欧美体内she精视频| 国产欧美日韩不卡| 午夜欧美一区二区三区在线播放| 狠狠色丁香久久婷婷综| 国产白丝精品91爽爽久久| 欧美高清精品3d| 一区二区三区日本| 久久精品国内一区二区三区| 国产麻豆午夜三级精品| 91麻豆精品国产91久久久久久久久| 欧美一级日韩不卡播放免费| 国产精品区一区二区三区| 日韩毛片在线免费观看| 国产精品自拍在线| 精品久久国产字幕高潮| 日本欧美大码aⅴ在线播放| 91视频在线观看免费| 国产999精品久久久久久| 欧美日韩国产bt| 日韩一级免费一区| 日产国产高清一区二区三区| 一区二区三区在线视频免费 | 成人在线一区二区三区| 91亚洲永久精品| 国产精品欧美久久久久一区二区| 成人一区二区三区视频| 裸体一区二区三区| 亚洲欧洲另类国产综合| 精品久久人人做人人爰| 日日噜噜夜夜狠狠视频欧美人| 亚洲一区中文在线| 91精品福利视频| 亚洲综合色在线| 欧美日韩在线播放三区| 亚洲一级二级三级在线免费观看| 日本电影欧美片| 亚洲国产成人一区二区三区| 国产成人免费在线视频| 精品成人免费观看| 麻豆精品在线看| 精品三级av在线| 九一九一国产精品| 久久久久久亚洲综合影院红桃| 久久国产三级精品| 欧美高清精品3d| 视频一区二区三区入口| 日韩午夜激情电影| 国产精品1024| 久久精品一区二区三区四区| 韩国女主播一区| 国产亚洲综合在线| 91麻豆免费看| 亚洲国产精品久久人人爱| 欧美一区欧美二区| 蜜臀国产一区二区三区在线播放| 欧美日韩一区二区欧美激情| 日韩经典一区二区| 日韩精品一区二区三区中文不卡 | 亚洲精品一区二区三区四区高清 | 视频一区二区不卡| 三级亚洲高清视频| 午夜久久久久久久久久一区二区| 亚洲成人综合在线| 久草这里只有精品视频| 成人在线一区二区三区| 91色porny| 69av一区二区三区| 国产精品性做久久久久久| 日韩精品一区二区三区四区 | 一区二区在线观看不卡| 欧美一区二区三区四区五区| 国产一区二区美女诱惑| 夜色激情一区二区| 国产色产综合产在线视频| 在线精品视频免费播放| 精品影院一区二区久久久| 日韩毛片在线免费观看| 欧美va在线播放| 欧美亚洲图片小说| 国产不卡高清在线观看视频| 亚洲一区二区在线播放相泽| 色综合天天性综合| 欧美日韩激情在线| 男人的天堂亚洲一区| 日韩一级片网址| 国产精一品亚洲二区在线视频| 国产日韩欧美高清| 成人成人成人在线视频| 亚洲精品va在线观看| 色综合天天综合网天天看片| 亚洲高清免费观看高清完整版在线观看| 精品一区二区三区免费视频| 精品久久久网站| 成人高清免费观看| 亚洲综合免费观看高清完整版| 欧美精品在线视频| 国产一区久久久| 亚洲精品久久久蜜桃| 欧美一级片免费看| 国产精品伦理一区二区| 成人app在线| 国产精品福利影院| 日本道在线观看一区二区| 丝袜美腿成人在线| 久久久不卡网国产精品二区| 欧美日本高清视频在线观看| 久久久久久电影| 日韩激情av在线| 色综合色狠狠天天综合色| 中文字幕一区二区三| 国产乱码精品一区二区三区av| 日韩一区二区视频在线观看| 午夜精品久久久久久久| aa级大片欧美| 中文字幕一区二区三区不卡| 成人av影视在线观看| 91精品国产综合久久香蕉麻豆| 亚洲一区二区视频在线| 99视频一区二区三区| 日韩美女久久久| 91福利小视频| 亚洲电影中文字幕在线观看| 在线免费观看日本一区| 亚洲天堂av老司机| 在线观看中文字幕不卡| 中文字幕一区在线观看视频| 国产精品99久久久| 国产欧美日本一区视频| 国产精品久久精品日日| 91精品国产乱码| 国产精品69久久久久水密桃| 亚洲成人激情自拍| 亚洲欧美偷拍卡通变态| 久久免费看少妇高潮| 97se亚洲国产综合自在线观| 狠狠色伊人亚洲综合成人| 亚洲一区二区三区激情| 国产亚洲精品aa午夜观看| 日韩欧美激情一区| 欧美精选一区二区| 欧美亚洲一区二区三区四区| 99精品热视频| 成人国产精品免费观看视频| 国产精品小仙女| 久久狠狠亚洲综合| 九九国产精品视频| 蜜臀av一区二区三区| 亚洲国产精品一区二区www| 亚洲三级小视频| 国产精品初高中害羞小美女文| 美女视频第一区二区三区免费观看网站| 一区二区三区久久| 亚洲视频在线观看三级| 国产精品福利av| 久久蜜臀中文字幕| 久久久久国产免费免费| 久久九九全国免费| 国产欧美日韩精品一区| 欧美国产日韩亚洲一区| 中文字幕免费一区| 国产精品蜜臀av| 中文字幕亚洲区| 亚洲欧美怡红院| 亚洲欧美乱综合| 亚洲va韩国va欧美va| 亚洲一区二区三区在线播放| 有坂深雪av一区二区精品| 国产精品一区二区久久不卡 | 激情av综合网| 亚洲精品老司机| 中文字幕av一区二区三区免费看| 在线亚洲+欧美+日本专区| 国产偷国产偷精品高清尤物| 久久影音资源网| 国产精品不卡一区| 亚洲图片有声小说| 日韩中文字幕不卡| 国产福利视频一区二区三区|