精品国产一区二区三区久久久蜜臀 ,国产精品久久久一区二区三区,yiren22亚洲综合

主頁 > 知識庫 > 詳解python中文編碼問題

詳解python中文編碼問題

1. 在Python中使用中文

在Python中有兩種默認的字符串：str和unicode。在Python中一定要注意區分“Unicode字符串”和“unicode對象”的區別。后面所有的“unicode字符串”指的都是python里的“unicode對象”。

事實上在Python中并沒有“Unicode字符串”這樣的東西，只有“unicode”對象。一個傳統意義上的unicode字符串完全可以用str對象表示。只是這時候它僅僅是一個字節流，除非解碼為unicode對象，沒有任何實際的意義。

我們用“哈哈”在多個平臺上測試，其中“哈”對應的不同編碼是：

1． UNICODE (UTF8-16)， C854；

2． UTF-8， E59388；

3． GBK， B9FE。

1.1 Windows控制臺

下面是在windows控制臺的運行結果：

可以看出在控制臺，中文字符的編碼是GBK而不是UTF-16。將字符串s（GBK編碼）使用decode進行解碼后，可以得到同等的unicode對象。

注意：可以在控制臺打印ss并不代表它可以直接被序列化，比如：

向文件直接輸出ss會拋出同樣的異常。在處理unicode中文字符串的時候，必須首先對它調用encode函數，轉換成其它編碼輸出。這一點對各個環境都一樣。

總結：在Python中，“str”對象就是一個字節數組，至于里面的內容是不是一個合法的字符串，以及這個字符串采用什么編碼（gbk, utf-8, unicode）都不重要。這些內容需要用戶自己記錄和判斷。這些的限制也同樣適用于“unicode”對象。要記住“unicode”對象中的內容可絕對不一定就是合法的unicode字符串，我們很快就會看到這種情況。

總結：在windows的控制臺上，支持gbk編碼的str對象和unicode編碼的unicode對象。

1.2 Windows IDLE（在Shell上運行）

在windows下的IDLE中，運行效果和windows控制臺不完全一致：

可以看出，對于不使用“u”作標識的字符串，IDLE把其中的中文字符進行GBK編碼。但是對于使用“u”的unicode字符串，IDLE居然一樣是用了GBK編碼，不同的是，這時候每一個字符都是unicode（對象）字符??！此時len(ss) = 4。

這樣產生了一個神奇的問題，現在的ss無法在IDLE中正常顯示。而且我也沒有辦法把ss轉換成正常的編碼！比如采用下面的方法：

這有可能是因為IDLE本地化做得不夠好，對中文的支持有問題。建議在IDLE的SHELL中，不要使用u“中文”這種方式，因為這樣得到的并不是你想要的東西。

這同時說明IDLE的Shell支持兩種格式的中文字符串：GBK編碼的“str”對象，和UNICODE編碼的unicode對象。

1.3 在IDLE上運行代碼

在IDLE的SHELL上運行文件，得到的又是不同的結果。文件的內容是：

直接運行的結果是：

毫無瑕疵，相當令人滿意。我沒有試過其它編碼的文件是否能正常運行，但想來應該是不錯的。

同樣的代碼在windows的控制臺試演過，也沒有任何問題。

1.4 Windows Eclipse

在Eclipse中處理中文更加困難，因為在Eclipse中，編寫代碼和運行代碼屬于不同的窗口，而且他們可以有不同的默認編碼。對于如下代碼：

#!/usr/bin/python
# -*- coding: utf-8 -*-
 
s = "哈哈"
ss = u'哈哈'
 
print repr(s)
print repr(ss)
 
print s.decode('utf-8').encode('gbk')
print ss.encode('gbk')
 
print s.decode('utf-8')
print ss

前四個print運行正常，最后兩個print都會拋出異常：
'/xe5/x93/x88/xe5/x93/x88'
u'/u54c8/u54c8'
哈哈
哈哈
Traceback (most recent call last):
File "E:/Workspace/Eclipse/TestPython/Test/test_encoding_2.py", line 13, in module>
print s.decode('utf-8')
UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

也就是說，GBK編碼的str對象可以正常打印，但是不能打印UNICODE編碼的unicode對象。在源文件上點擊“Run as”“Run”，然后在彈出對話框中選擇“Common”：

可以看出Eclipse控制臺的缺省編碼方式是GBK；所以不支持UNICODE也在情理之中。如果把文件中的coding修改成GBK，則可以直接打印GBK編碼的str對象，比如s。

如果把源文件的編碼設置成“UTF-8”，把控制臺的編碼也設置成“UTF-8”，按道理說打印的時候應該沒有問題。但是實驗表明，在打印UTF-8編碼的str對象時，中文的最后一個字符會顯示成亂碼，無法正常閱讀。不過我已經很滿足了，至少人家沒有拋異常不是:)

BTW: 使用的Eclipse版本是3.2.1。

1.5 從文件讀取中文

在window下面用記事本編輯文件的時候，如果保存為UNICODE或UTF-8，分別會在文件的開頭加上兩個字節 “/xFF/xFE” 和三個字節“/xEF/xBB/xBF”。在讀取的時候就可能會遇到問題，但是不同的環境對這幾個多于字符的處理也不一樣。

以windows下的控制臺為例，用記事本保存三個不同版本的“哈哈”。

打開utf-8格式的文件并讀取utf-8字符串后，解碼變成unicode對象。但是會把附加的三個字符同樣進行轉換，變成一個unicode字符，字符的數據值為“/xFF/xFE”。這個字符不能被打印。編碼的時候需要跳過這個字符。

打開unicode格式的文件后，得到的字符串正確。這時候適用utf-16解碼，能得到正確的unicdoe對象，可以直接使用。多余的那個填充字符在進行轉換時會被過濾掉。

打開ansi格式的文件后，沒有填充字符，可以直接使用。
結論：讀寫使用python生成的文件沒有任何問題，但是在處理由notepad生成的文本文件時，如果該文件可能是非ansi編碼，需要考慮如何處理填充字符。

1.6 在數據庫中使用中文

剛剛接觸Python，我用的數據庫是mysql。在執行插入、查找等操作時，如果運行環境使用的字符編碼和mysql不一致，就可能導致運行時的錯誤。當然，和上面看到的情況一樣，運行環境并不是關鍵因素，關鍵是查詢語句的編碼方式。如果在每次執行查詢操作時都把查詢字符串做一次編碼轉換，轉變成mysql的默認字符編碼，一樣不會遇到問題。但是這樣寫代碼也太痛苦了吧。

使用如下代碼連接數據庫：

self.conn = MySQLdb.connect(use_unicode = 1, charset='utf8', **server)

我不能理解的是既然數據庫用的默認編碼是UTF-8，我連接的時候也用的是UTF-8，為什么查詢得到的文本內容卻是UNICODE編碼（unicode對象）？這是MySQLdb庫的設置么？

1.7 在XML中使用中文

使用xml.dom.minidom和MySQLdb類似，對生成的dom對象調用toxml方法得到的是unicode對象。如果希望輸出utf-8文本，有兩種方法：

1．使用系統函數
在輸出xml文檔的時候進行編碼，這是我覺得最好的方法。

xmldoc.toxml(encoding='utf-8')
xmldoc.writexml(outfile, encoding = ‘utf-8')

2．自己編碼生成

在使用toxml之后可以調用encode方法對文檔進行編碼。但這種方法無法得到合適的xml declaration（xml文檔第一行中的encoding部分）。
不要嘗試通過xmldoc.createProcessingInstruction來創建一個processing instraction：

?xml version='1.0' encoding='utf-8'?>

xml declaration雖然看起來像是，但是事實上并不是一個processing instraction?？梢酝ㄏ旅娴姆椒ǖ玫揭粋€滿意的xml文件：

print >> outfile, “?xml version='1.0' encoding='utf-8'?>”
print >> outfile, xmldoc.toxml().encode(‘utf-8')[22:]

其中第二行需要過濾掉在調用xmldoc.toxml時生成的“?xml version='1.0' ?>”，它的長度是22。

相面是兩種方法的用法比較：

另外，在IDLE的shell中，不要用 u'中文' 對屬性進行賦值。上面討論過，這樣得到的unicode字符串不正確。

到此這篇關于python中文編碼問題的文章就介紹到這了,更多相關中文編碼內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

用基于python的appium爬取b站直播消費記錄
女友半夜加班發自拍 python男友用30行代碼發現驚天秘密
前女友發來加密的"520快樂.pdf",我用python破解開之后,卻發現...
在前女友婚禮上用python把婚禮現場的WIFI名稱改成了

標簽：泉州岳陽長春安慶怒江清遠洛陽吉林

巨人網絡通訊聲明：本文標題《詳解python中文編碼問題》，本文關鍵詞詳解,python,中文,編碼,問題,；如發現本文內容存在版權問題，煩請提供相關信息告之我們，我們將及時溝通與處理。本站內容系統采集于網絡，涉及言論、版權與本站無關。

下面列出與本文章《詳解python中文編碼問題》相關的同類信息！

詳解python中文編碼問題

目錄 1. 在Python中使用中文 1.1 Windows控制臺 1.2 Windows IDLE（在Shell上運行） 1.3 在IDLE上運行代碼 1.4 Windows Eclipse 1.5 從文件讀取中文 1.6 在數據庫中使用中文 1.7 在XML中使用中文 1. 在Python中...

10-18

安裝ghost win7系統時藍屏提示錯誤代碼0x0000007E的故障原因及解決方法

電腦藍屏問題是Windows系統中常見的問題，安裝系統時也不常會遇到系統藍屏的問題。比如有一用戶安裝win7 純凈版系統出現藍...

10-19

南江免費的電銷外呼系統（電銷外呼系統南牛網絡）

本篇文章給咱們談談南江免費的電銷外呼體系，以及電銷外呼體系南牛網絡對應的知識點，期望對各位有所協助，不要忘了...

05-17

400號碼接聽要錢嗎400電話辦理費用會受哪些因素影響

作為企業的專屬客戶服務電話，400電話采用主被稱分享的方式。無論是用戶打電話還是企業接聽，都需要支付電話費，但雙...

01-12

得到XML文檔大小的方法

XML文檔從格式到大小都是不是確定的。有的可能只有幾行，而有的卻有好幾兆字節。你也許會懷疑是不是需要了解XML文檔的大...

10-18

win8系統連網就藍屏提示unexpected kernel mode trap錯誤怎么辦?

win8一連上網，不久便藍屏，顯示unexpected kernel mode trap,怎么辦呢？ 1、同時按下 win鍵和x鍵，呼出快捷菜單。 2、按下M鍵，啟...

10-20

打電銷不封號的手機卡

不封號的手機卡，電銷不封卡，電銷手機卡為什么要用電銷卡？對于電銷公司來說，電銷封卡是給不容忽視的問題！如果沒...

11-15

Linux使用文本瀏覽器lynx并顯示中文的方法

使用Fedora，當然需要玩一些酷的東東，lynx是在文本環境下不錯的網頁瀏覽工具，在網速不好的時候使用lynx可以減少網頁下載...

10-20

物聯卡應用_遠特通信卡盟不僅為合作伙伴賦能還可增強變現能....

2022年，物聯網領域突破萬億市場，各種工業級和民用級智能設備層出不窮。物聯網卡在物聯網設備中起著重要作用，需求也...

11-07

巨人科技有很多400開頭的電話供企業選擇

05-15

400開頭的電話能接嗎400開頭電話可以接聽嗎

(400開頭的電話能接嗎)(400開頭電話可以接聽嗎)以下內容由巨人小編整理發布。 400電話只是一個轉接來電的服務，沒有線路，...

01-12

汕尾企業電銷卡（汕尾企業電銷卡怎么辦理）

本文目錄一覽：1、電銷卡如何避免封卡?2、電銷卡是什么卡?3、電銷卡為什么要留公司名4、電銷卡是否真的不封號?卡總被停...

07-10

天潤融通助力梵客家居優化呼叫中心體系

在當今社會，傾聽用戶的每一個聲音，確保服務渠道的方便和順暢，及時響應服務人員，是企業與用戶進行良性溝通、建立信...

07-12

移動撥打400電話怎么收費移動，靈活，可擴展和可靠的400電話系統解決方案

目前，通信工具越來越發展，固定電話逐漸淡出人們的視野。人們越來越喜歡日常交流的移動通信工具。我們可以隨時隨地...

01-13

“叔同”商標被認無效申請人不服訴至法院

來源：中國法院網近日，北京知識產權法院受理了“叔同”商標無效宣告請求行政糾紛一案。訴爭商標由牧馬人公司于201...

10-23

最全Windows 10高清鎖屏壁紙下載附網盤下載地址

為了增加Windows 10的美觀性，微軟為自己的新一代操作系統新增了一個鎖屏壁紙更換功能Windows聚焦（Windows spotlight）。 Window...

10-20

抖音短視頻代運營中有哪些流量池引薦規律？

抖音是一個關于夸姣的短視頻APP，不同于快手的略微低俗的流量和受眾，抖音是一個記載“夸姣”的產品，夸姣是什么？每個...

03-01

400電話語音導航內容內蒙古400電話有哪些功能

內蒙古赤峰400電話語音導航功能：通過語音提示選擇按鈕，將電話直接轉到相關部門。 “歡迎致電***公司，咨詢請按1，售后...

01-12

400電話辦理的費用是多少呢400電話辦理如何選擇一家靠譜的服務商

說到客戶服務電話的使用，我相信很多企業不會感到奇怪。隨著科學技術的不斷發展，也有許多高質量的工具可以使用，這...

01-13

在全球外包100名中，RR Donnelley是領先的外包服務提供商

R. R. Donnelley & Sons 公司今天宣布：在全球外包 100 名中，其全球外包服務已連續第四年被公眾認可。全球外包 100 強名單，每年...

10-22

400電話是免費嗎400電話的免費與不免費

400電話是代理400電話主要的分攤支付業務，也就是說需要支付一定的電話費，但是這個費用很低，只是一個本地的城市電話費...

01-12

使用電銷卡是不是不會被封號？電銷卡會被封號嗎？

使用電銷卡是不是不會被封號？電銷卡會被封號嗎？由于電銷卡越來越容易出現封號的問題，所以不少的電銷人員把目光...

10-26

服務外包行業上QQ開會

本報訊從區外經貿局了解到，蕭山區服務外包第一次網絡工作會議已于近日召開，全區有30多家服務外包企業在網上以QQ群聊...

10-22

多功能客服帶動400電話辦理

400電話從通常意義上來講就是一種主被叫分攤業務，就是說主叫承擔市話接入費，而被叫承擔所有來電接聽費用。400電話具有...

05-15

專利權限制的立法完善

專利權的內容立法始終關系專利權個人利益與國家、社會利益之間的平衡問題。在各國立法實踐中。它們大都規定了專利權的...

10-23

麗水防封外呼機器人辦理價格,外呼機器人-原來是這樣

麗水防封外呼機器人辦理價格,外呼機器人不變則亡”的抉擇。據有關預測，在未來銷售行業，越早接觸人工智能的企業，就...

12-16

宜春外呼系統價格（外呼系統哪家線路比較好）

本篇文章給大家談談宜春外呼系統價格，以及外呼系統哪家線路比較好對應的知識點，希望對各位有所幫助，不要忘了收藏本...

05-17

電銷卡辦理難嗎（辦電銷卡有什么影響）

本文目錄一覽： 1、電銷卡在哪里處理多少錢2、平頂山電銷卡怎樣處理3、電信電銷改套餐好做嗎?4、本年電銷卡真的太難了，...

04-22

湖州crm外呼系統多少錢（crm外呼工作的弊端）

本文目錄一覽： 1、外呼體系一個多少錢，有哪些功用？2、外呼體系多少錢一個月？3、外呼體系多少錢一套？怎樣裝置？4、...

04-22

《世界版權公約》

《世界版權公約》由聯合國教科文組織發起簽訂，于1952年9月6日在瑞士日內瓦獲得通過，1955年生效。1971年7月在巴黎曾作補充...

10-23

隨時隨地新浪網看病，東華互聯網醫院藥品處方

盡管現在優先選擇電話銷售服務中心BizTalk的民營企業有許多，但也并非所有民營企業的電話銷售服務中心都有必要BizTalk出去...

11-29

河北電話外呼系統有效果嗎（電話外呼人員是干什么的）

今天給各位分享河北電話外呼系統有效果嗎的知識，其中也會對電話外呼人員是干什么的進行解釋，如果能碰巧解決你現在面...

06-09

阿朗或15億美元出售企業電信設備部門正尋買家

4月14日消息，據國外媒體報道，知情人士稱，阿爾卡特-朗訊正在探索出售其向企業銷售電話和其它電信設備的業務部門。這...

10-19

青島將認定技術先進型服務企業

人民網青島視窗1月11日消息: 青島將在今年開展技術先進型服務企業的認定工作,以促進企業技術創新和技術服務能力的提升。...

10-22

濟南三網電銷軟件批發,電話銷售系統辦理-點擊查看

濟南三網電銷軟件批發,電話銷售系統辦理實際上，言通智能營銷系統作為一站式智能營銷解決方案服務平臺，本質上就是為...

12-16

海航通信卡正規嗎?（海航通信電話卡正規么）

近些年虛擬運營商慢慢走進大家的日常生活中，但是有很多人并不了解虛擬運營商，甚至對虛擬運營商存在誤解，虛擬運營商...

09-19

呼叫中心職業生涯目標制訂的基本步驟方法與目標制定的具體方法

(一) 呼叫中心職業生涯目標制訂的基本步驟: 職業生涯目標的制訂一般需要經過6個步驟。 (1)自我分析，認識自我，找出自己...

10-20

python 實現多線程的三種方法總結

1._thread.start_new_thread(了解) import threadingimport timeimport _threaddef job(): print("這是一個需要執行的任務。。。。。") print("當前線程...

10-18

移動400資費包括什么移動業務400是什么意思

移動400資費包括什么移動業務400是什么意思以下內容由巨人小編整理發布。座機撥打400電話是收費的按照市話費收取。手機...

02-07

徐州人工智能電話機器人（徐州人工智能電話機器人招聘）

本文目錄一覽： 1、人工智能電話機器人到底值不值得應用?2、人工智能電話營銷機器人到底能做什么？3、人工智能電話機器...

11-28

電銷客戶軟件使用介紹

導入編號【電銷客戶軟件使用介紹】外呼模板【電銷客戶軟件使用介紹】 4、設定編號說明規則【電銷客戶軟件使用介紹】...

10-30

未來農業報告：物聯網和新零售是主要力量

35斗對這份名為《食物革命：糧食的未來和我們面臨的挑戰》的報告進行了編譯，將陸續刊出。這是該系列的第四篇文章，主...

10-13

菏澤市機器人電銷外包招聘（菏澤市機器人電銷

本文目錄一覽：1、有了電銷機器人是不是就不需求招電銷職工了？2、沒有用的比較好的電銷機器人??？求介紹！現在的招...

11-29

長治自動電銷卡大全（長治電信營業廳電話號碼）

本文目錄一覽：1、有什么適合做電銷的手機卡2、什么是電銷卡3、哪些電銷卡?4、智慧加油站系統公司找哪家比較好？5、防封...

07-10

寧波房產專用語音電銷機器人多少一臺-誠信優惠

寧波房產專用語音電銷機器人多少一臺機器人都要等到這通轉接人工通話結束后才會進行下一通的呼出，這就降低了機器人的...

05-18

內蒙古電銷機器人（電銷機器人外呼）

今天給各位共享內蒙古電銷機器人的常識，其間也會對電銷機器人外呼進行解說，假如能可巧處理你現在面臨的問題，別忘...

11-06

現代企業是否有必要開通400電話？

在發展競爭中，企業希望與潛在客戶溝通，改善客戶服務體驗，優化品牌形象，提高競爭力。很難使用網絡平臺或其他社交軟...

04-03

商標品牌俗稱、簡稱、昵稱法律保護的典型案例

來源：福建質量管理作者：紀翔 “索尼愛立信”是日本索尼公司和瑞典愛立信公司的合資企業，成立于2001年，在中國市場上...

10-23

上海ai外呼電話機器人哪家強（ai機器人運營商外呼線路）

本文目錄一覽：1、ai智能電話銷售機器人哪家的靠譜?2、選擇智能電話機器人的話,哪家的比較好?3、人工電話機器人選哪家實...

07-15

在線客服系統選擇要點，用戶滿意度調查顯示明確結果

企業發展需要挖掘和維護客戶關系，找到適合的在線客服系統至關重要。選擇在線客服系統關鍵點在于接入全渠道客戶資源，...

07-12

蘭州電銷卡外呼系統線路

蘭州電銷卡外呼系統線路現在工信部對高頻段呼出嚴打的環境下，電銷公司只能依靠外呼系統線路來避免因高頻外呼而封號...

11-15

詳解python中文編碼問題

10-18

本頁收集關于詳解python中文編碼問題的相關信息資訊供網民參考！

推薦文章

上一篇：python異常的捕捉和補救實例詳解

下一篇：這3個Python實時可視化工具包來幫你了解性能瓶頸

一起分享吧

婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

詳解python中文編碼問題

目錄

1. 在Python中使用中文

1.1 Windows控制臺

1.2 Windows IDLE（在Shell上運行）

1.3 在IDLE上運行代碼

1.4 Windows Eclipse

1.5 從文件讀取中文

1.6 在數據庫中使用中文

1.7 在XML中使用中文