婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python 如何實現文件自動去重

Python 如何實現文件自動去重

熱門標簽:所得系統電梯怎樣主板設置外呼 北瀚ai電銷機器人官網手機版 儋州電話機器人 地圖標注面積 小蘇云呼電話機器人 市場上的電銷機器人 佛山400電話辦理 北京電銷外呼系統加盟 朝陽手機外呼系統

Python 文件自動去重

平日里一來無聊,二來手巧,果然下載了好多無(luan)比(qi)珍(ba)貴(zao)的資料,搞得我小小的硬盤(已經擴到6T了)捉襟見肘,

有次無意間,發現有兩個居然長得一毛一樣,在房子這么小的情況下,我怎能忍兩個一毛一樣的東西不要臉皮的躺在我的硬盤里,果斷搞掉一個,整理一下,本來想文件名一樣的就保留一份,但問題出現了,居然有名字一樣,內容卻完全不一樣的文件,想我背朝黃土面朝天吹著空調吃著西瓜下載下來的東西,刪除是不可能的,這輩子都是不可能刪除的。可是我也又不能把這數以億計的文件挨個打開看看里面一樣不一樣吧,這個工程我大概夠我做了好久好久了,有沒有辦法搞個軟件幫幫我呢,答案是肯定的,要不然我也不用在這里寫這個博客了(應該是苦逼的一個一個打開比較吧),說正題,Python提供了一個比較文件內容的東西,那就是。。。。。。。。。。哈希算法

MD5消息摘要算法(英語:MD5 Message-Digest Algorithm),一種被廣泛使用的密碼散列函數,可以產生出一個128位(16字節)的散列值(hash value),用于確保信息傳輸完整一致。MD5由美國密碼學家羅納德·李維斯特(Ronald Linn Rivest)設計,于1992年公開,用以取代MD4算法。

說了這么長,總結出來就一句,這玩意就是文件的指紋,幾乎每個文件是唯一的(碰到重復的,恭喜你,可以去買彩票了),那我們就把這個指紋拿出來,一個一個比對,肯定不能會有漏網的文件,既不會錯殺三千,也不使一文件漏網,原理上通了,那么我們就要去搞個代碼來幫我完成這個工作,作為最好用的語言,Python就這樣被我翻了牌子

# -*- coding:utf-8 -*-
import os
import hashlib
import time
import sys
#搞到文件的MD5
def get_ms5(filename):
    m = hashlib.md5()
    mfile = open(filename , "rb")
    m.update(mfile.read())
    mfile.close()
    md5_value = m.hexdigest()
    return md5_value
#搞到文件的列表
def get_urllist():
    base = ("D:\\lwj\\spider\\pic\\")#這里就是你要清繳的文件們了
    list = os.listdir(base)
    urllist = []
    for i in list:
        url = base + i
        urllist.append(url)
 
    return urllist
#主函數
if __name__ == '__main__':
    md5list = []
    urllist = get_urllist()
    print("test1")
    for a in urllist:
        md5 = get_ms5(a)
        if(md5 in md5list):
            os.remove(a)
            print("重復:%s" % a)
        else:
            md5list.append(md5)
            print("一共%s張照片" % len(md5list))

效果

python3 大文件去重

一、生成待去重數據

每行是固定位數的數字串

import os
from random import randint
#-- from u_工具 import *
print("———— 開始 ————")
#-- 打點()
 
# 用來配置的變量
位數 = 13
行數 = 500 * 10000
 
輸出目錄 = "./a_輸入"
輸出文件 = f"{輸出目錄}/隨機數.txt"
 
# 預處理
_00 = "".join(["0" for i in range(位數 - 1)])
_100 = "1" + _00
最小值 = int(_100)
_1000 = _100 + "0"
最大值 = int(_1000)
 
if not os.path.exists(輸出目錄):
    os.makedirs(輸出目錄)
#-- 輸出文件 = 文件名防重_追加數字(輸出文件)
 
# 實際處理
with open(輸出文件,"a") as f:
    for i in range(行數):
 
        f.write(f"{randint(最小值, 最大值)}\n")
 
        百分比 = (i+1) / 行數 * 100
        if 百分比 == int(百分比):
            print(f"已完成{int(百分比)}%")
#-- 打點()
#-- print(f"\n總耗時:{計時(0)}")
print("———— 結束 ————")

二、通過set按行去重

1. 按原值比較

(1)讀取全部數據

(2)用split來分行

(3)通過set數據結構來去除重復數據

(4)將set的數據寫入文件

import os
#-- from u_工具 import *
print("———— 開始 ————")
#-- 打點()
 
# 用來配置的變量
輸入目錄 = "./a_輸入"
輸出目錄 = "./b_輸出"
輸出文件 = f"{輸出目錄}/去重結果.txt"
# 預處理
# 目錄不存在就手動建立
if not os.path.exists(輸出目錄):
    os.makedirs(輸出目錄)
if not os.path.exists(輸入目錄):
    os.makedirs(輸入目錄)
#-- 輸出文件 = 文件名防重_追加數字(輸出文件)
 
# 獲取待去重文件
待去重文件列表 = []
待去重文件列表 = [f"{輸入目錄}/{i}" for i in os.listdir(輸入目錄)]
#-- getDeepFilePaths(待去重文件列表,輸入目錄,"txt")
print(f"\n總共{len(待去重文件列表)}個文件")
 
換行符 = b"\n"
if platform.system().lower() == 'windows':
    換行符 = b"\r\n"
 
# 實際處理
all_lines = []
文件個數 = 0
for 文件 in 待去重文件列表:
    文件個數 += 1
    print(f"\n處理第{文件個數}個文件")
 
    #-- 打點()
    # (1)讀全部
    with open(文件, "rb") as f:
        data = f.read()
 
    # (2)split分行
    lines = data.split(換行符)
    all_lines.extend(lines)
    #-- 打點()
    #-- print(f"分行完畢,耗時:{計時()}")
 
# (3)集合去重
all_lines_set = set(all_lines)
all_lines_set.remove(b"")
#-- 打點()
#-- print(f"\n\n去重完畢,耗時:{計時()}")
 
# (4)循環寫入
with open(輸出文件,"ab") as f_rst:
    for line in all_lines_set:
        f_rst.write(line + 換行符)
#-- 打點()
#-- print(f"\n寫入完畢,耗時:{計時()}")
print(f"\n輸出文件:{輸出文件}")
 
#-- 打點()
#-- print(f"\n\n總耗時:{計時(0)}")
print("———— 結束 ————")

附:

(2)用正則表達式來分行

import re
 
# (2)正則分行 二進制的話要加b, b''' '''
regx = '''[\w\~`\!\@\#\$\%\^\\*\(\)\_\-\+\=\[\]\{\}\:\;\,\.\/\\>\&;]+'''
lines = re.findall(regx, data)

2. 按md5比較

import hashlib
import os
#-- from u_工具 import *
print("———— 開始 ————")
#-- 打點()
 
# 用來配置的變量
輸入目錄 = "./a_輸入"
輸出目錄 = "./b_輸出"
輸出文件 = f"{輸出目錄}/去重結果.txt"
 
# 預處理
# 目錄不存在就手動建立
if not os.path.exists(輸出目錄):
    os.makedirs(輸出目錄)
if not os.path.exists(輸入目錄):
    os.makedirs(輸入目錄)
#-- 輸出文件 = 文件名防重_追加數字(輸出文件)
 
# 獲取待去重文件
待去重文件列表 = [f"{輸入目錄}/{i}" for i in os.listdir(輸入目錄)]
#-- 待去重文件列表 = []
#-- getDeepFilePaths(待去重文件列表,輸入目錄,"txt")
print(f"\n總共{len(待去重文件列表)}個文件")
 
def gen_md5(data):
    md5 = hashlib.md5()
    if repr(type(data)) == "class 'str'>":
        data = data.encode('utf-8')
    md5.update(data)
    return md5.hexdigest()
 
# 實際處理
md5集 = set()
with open(輸出文件, "a") as f_rst:
    文件個數 = 0
    for 文件 in 待去重文件列表:
        文件個數 += 1
        print(f"\n處理第{文件個數}個文件")
 
        # 計算總行數
        with open(文件, 'rb') as f:
            行數 = 0
            buf_size = 1024 * 1024
            buf = f.read(buf_size)
            while buf:
                行數 += buf.count(b'\n')
                buf = f.read(buf_size)
 
        # 讀取、分行、去重、寫入
        #-- 打點()
        i = 0
        for line_帶換行 in open(文件):
            i += 1
            line = line_帶換行.strip()
            md5值 = gen_md5(line)
            if md5值 not in md5集:
                md5集.add(md5值)
                f_rst.write(line_帶換行)
 
            百分比 = i / 行數 * 10
            if 百分比 == int(百分比):
                print(f"已完成{int(百分比)*10}%")
                #-- 打點()
                #-- print(f"耗時:{計時()}")
 
print(f"\n輸出文件:{輸出文件}")
 
#-- 打點()
#-- print(f"\n\n總耗時:{計時(0)}")
print("———— 結束 ————")

三、二路歸并

import hashlib
import os
import platform
import queue
import shutil
from uuid import uuid1
from u_工具 import *
 
print("———— 開始 ————")
打點()
 
# 1.用來配置的變量
輸入目錄 = "./a_輸入"
輸出目錄 = "./b_輸出"
輸出文件 = f"{輸出目錄}/去重結果.txt"
臨時目錄 = "./c_臨時"
小文件大小 = 50 * 1024 * 1024  # 50M
 
# 2.預處理
# 目錄不存在就手動建立
if not os.path.exists(輸出目錄):
    os.makedirs(輸出目錄)
if not os.path.exists(輸入目錄):
    os.makedirs(輸入目錄)
if not os.path.exists(臨時目錄):
    os.makedirs(臨時目錄)
shutil.rmtree(臨時目錄)
os.makedirs(臨時目錄)
輸出文件 = 文件名防重_追加數字(輸出文件)
 
# 獲取待去重文件
# 待去重文件列表 = [f"{輸入目錄}/{i}" for i in os.listdir(輸入目錄)]
待去重文件列表 = []
getDeepFilePaths(待去重文件列表,輸入目錄,"txt")
print(f"總共{len(待去重文件列表)}個文件")
 
換行符 = b"\n"
if platform.system().lower() == 'windows':
    換行符 = b"\r\n"
 
# 3.實際處理
 
# (1)分割大文件
打點()
待排序文件列表 = []
待補全數據 = b""
for 文件 in 待去重文件列表:
    with open(文件, 'rb') as f:
        buf = f.read(小文件大小)
        while buf:
            data = buf.split(換行符,1)
            新路徑 = f"{臨時目錄}/無序_{序號(1)}_{uuid1()}.txt"
            with open(新路徑, 'ab') as ff:
                ff.write(待補全數據 + data[0])
            待排序文件列表.append(新路徑)
            try:
                待補全數據 = data[1]
            except:
                待補全數據 = b""
            buf = f.read(小文件大小)
    新路徑 = f"{臨時目錄}/無序_{序號(1)}_{uuid1()}.txt"
    with open(新路徑, 'ab') as ff:
            ff.write(待補全數據 + 換行符)
            待排序文件列表.append(新路徑)
    待補全數據 = b""
del buf,data,待補全數據
打點()
print(f"\n分割大文件完成,共耗時:{計時()}")
 
# (2)排序小文件
打點()
序號_重置(1)
待歸并文件隊列 = queue.Queue()
for 文件 in 待排序文件列表:
    with open(文件, "rb") as f:
        data = f.read()
    data = set(data.split(換行符))
    if b"" in data:
        data.remove(b"")
    if 換行符 in data:
        data.remove(換行符)
    data = sorted(data)
 
    新路徑 = f"{臨時目錄}/有序_{序號(1)}_{uuid1()}.txt"
    with open(新路徑, 'ab') as ff:
        for line in data:
            ff.write(line + 換行符)
    待歸并文件隊列.put(新路徑)
    os.remove(文件)
del data
打點()
print(f"\n排序小文件完成,共耗時:{計時()}")
 
# (3)歸并小文件
打點("歸并前")
序號_重置(1)
個數 = 待歸并文件隊列.qsize()
歸并次數 = 個數 - 1
print(f"\n\n歸并共{歸并次數}次")
當前次數 = 0
while 個數 > 1:
    當前次數 += 1
    print(f"\n執行第{當前次數}次歸并")
    文件路徑a = 待歸并文件隊列.get()
    文件路徑b = 待歸并文件隊列.get()
    新文件路徑 = f"{臨時目錄}/{序號(1)}_{uuid1()}.txt"
    if 當前次數 == 歸并次數:
        新文件路徑 = 輸出文件
    with open(文件路徑a,"rb") as 文件a, open(文件路徑b,"rb") as 文件b, open(新文件路徑,"wb") as ff:
        # region 歸并操作
        is_a_over = False
        is_b_over = False
 
        a = 文件a.readline().strip()
        b = 文件b.readline().strip()
        last = None
 
        while not (is_a_over and is_b_over):
 
            if is_a_over:
                b = 文件b.readline()
                if not b:
                    is_b_over = True
                else:
                    ff.write(b)
 
            elif is_b_over:
                a = 文件a.readline()
                if not a:
                    is_a_over = True
                else:
                    ff.write(a)
 
            else:
                # region 處理初始賦值
                if not a:
                    is_a_over = True
                    if not b:
                        is_b_over = True
                        continue
                    else:
                        ff.write(b + 換行符)
                        continue
 
                if not b:
                    is_b_over = True
                    ff.write(a + 換行符)
                    continue
                # endregion
 
                if a = b:
                    if a == b or a == last:
                        a = 文件a.readline().strip()
                        if not a:
                            is_a_over = True
                            ff.write(b + 換行符)
                        continue
                    else:
                        last = a
                        ff.write(last + 換行符)
                        a = 文件a.readline().strip()
                        if not a:
                            is_a_over = True
                            ff.write(b + 換行符)
                        continue
                else:
                    if b == last:
                        b = 文件b.readline().strip()
                        if not b:
                            is_b_over = True
                            ff.write(a + 換行符)
                        continue
                    else:
                        last = b
                        ff.write(last + 換行符)
                        b = 文件b.readline().strip()
                        if not b:
                            is_b_over = True
                            ff.write(a + 換行符)
                        continue
        # endregion
 
    待歸并文件隊列.put(新文件路徑)
    os.remove(文件路徑a)
    os.remove(文件路徑b)
    個數 = 待歸并文件隊列.qsize()
    打點()
    print(f"耗時:{計時()}")
 
打點("歸并后")
print(f"\n\n歸并小文件完成,共耗時:{計時('歸并前','歸并后')}")
print(f"\n輸出文件:{輸出文件}")
 
打點()
print(f"\n\n總耗時:{計時(0)}")
print("———— 結束 ————")

以上為個人經驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

您可能感興趣的文章:
  • Python腳本實現自動登錄校園網
  • python自動化運維之Telnetlib的具體使用
  • 還在手動蓋樓抽獎?教你用Python實現自動評論蓋樓抽獎(一)
  • Python爬蟲之自動爬取某車之家各車銷售數據
  • python趣味挑戰之爬取天氣與微博熱搜并自動發給微信好友
  • python 利用PyAutoGUI快速構建自動化操作腳本
  • Python實現智慧校園自動評教全新版

標簽:商丘 龍巖 酒泉 定西 江蘇 寧夏 金融催收 云南

巨人網絡通訊聲明:本文標題《Python 如何實現文件自動去重》,本文關鍵詞  Python,如何,實現,文件,自動,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python 如何實現文件自動去重》相關的同類信息!
  • 本頁收集關于Python 如何實現文件自動去重的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    欧美私人免费视频| 91色porny蝌蚪| 欧美精品一区二区蜜臀亚洲| 欧美r级在线观看| 91久久线看在观草草青青| 国产精品亚洲一区二区三区妖精| 亚洲一区二三区| 亚洲欧洲无码一区二区三区| www激情久久| 26uuu亚洲| 精品国产三级电影在线观看| 欧美肥妇毛茸茸| 欧美日韩国产综合视频在线观看| 一本大道久久a久久精品综合| 岛国av在线一区| 国产主播一区二区三区| 捆绑变态av一区二区三区| 免费人成黄页网站在线一区二区| 水蜜桃久久夜色精品一区的特点| 亚洲成人在线免费| 日韩精品久久久久久| 日本免费新一区视频| 日韩高清电影一区| 美女视频黄 久久| 麻豆国产一区二区| 蜜桃av噜噜一区| 国产主播一区二区| 国产乱码精品一区二区三| 国产一区视频网站| 国产aⅴ综合色| 91丨国产丨九色丨pron| 欧美色精品在线视频| 69久久99精品久久久久婷婷 | 色婷婷久久久综合中文字幕| 99久久精品国产毛片| 色狠狠综合天天综合综合| 在线精品视频一区二区三四| 欧美午夜在线观看| 欧美刺激午夜性久久久久久久| 欧美精品一区二区三| 欧美—级在线免费片| 伊人夜夜躁av伊人久久| 琪琪久久久久日韩精品| 国产精品自在欧美一区| 91亚洲永久精品| 日韩午夜在线影院| 国产精品网站一区| 亚洲国产精品人人做人人爽| 欧美日韩国产另类不卡| 欧美电影免费观看高清完整版在线观看| 日韩精品一区二区三区三区免费| 国产欧美一区二区三区在线老狼| 一区二区中文字幕在线| 日韩高清不卡在线| 99久久国产综合精品麻豆| 欧美精品久久久久久久久老牛影院| 欧美一级日韩不卡播放免费| 国产亚洲欧美激情| 亚洲小少妇裸体bbw| 国产成人免费av在线| 欧美精品v国产精品v日韩精品| 国产拍揄自揄精品视频麻豆| 日一区二区三区| 成人激情电影免费在线观看| 欧美性极品少妇| 日本一区二区视频在线| 日韩成人一区二区三区在线观看| 99久久精品国产网站| 久久久久久亚洲综合影院红桃| 一区二区三区日本| 国产91丝袜在线播放0| 欧美精品v日韩精品v韩国精品v| 欧美激情一区三区| 国产一区二区免费在线| 欧美一区二区视频免费观看| 成人欧美一区二区三区| 国产成人免费在线| 91麻豆精品国产91| 亚洲一区在线视频观看| 成人午夜碰碰视频| 久久久久久免费| 麻豆91在线观看| 欧美日韩一区二区三区免费看| 国产精品成人一区二区艾草| 国产一区二区三区美女| 欧美成人bangbros| 久久国产精品99精品国产| 欧美精品一卡二卡| 丝袜诱惑制服诱惑色一区在线观看 | 色综合天天天天做夜夜夜夜做| 26uuu国产在线精品一区二区| 另类中文字幕网| 日韩精品一区在线| 久久狠狠亚洲综合| 久久综合色之久久综合| 国产一区二区三区国产| 久久久久久久久免费| 国产综合色精品一区二区三区| 蜜臀av在线播放一区二区三区| 欧美日韩国产精品自在自线| 亚洲综合清纯丝袜自拍| 欧美日韩在线一区二区| 日本不卡一二三区黄网| 91精品国产色综合久久不卡蜜臀| 日一区二区三区| 日韩欧美国产午夜精品| 日韩1区2区日韩1区2区| 欧美成人在线直播| 韩国三级中文字幕hd久久精品| 久久只精品国产| 91日韩一区二区三区| 一区二区三区国产精品| 在线观看91av| 国产精品一卡二卡在线观看| 中文字幕av一区二区三区免费看| 91在线观看美女| 日韩综合在线视频| 国产欧美视频在线观看| 91美女视频网站| 日本欧美一区二区| 久久久精品一品道一区| 91在线你懂得| 日日摸夜夜添夜夜添精品视频| 欧美精品一区男女天堂| 99久久精品99国产精品| 日韩专区中文字幕一区二区| 国产午夜精品一区二区| 欧美日韩在线观看一区二区| 国产精品亚洲专一区二区三区 | 成人h动漫精品| 午夜婷婷国产麻豆精品| 国产亚洲精品福利| 在线亚洲精品福利网址导航| 久久99最新地址| 中文字幕在线一区二区三区| 欧美群妇大交群的观看方式| 国产成人精品www牛牛影视| 亚洲一区二区免费视频| 精品国产免费人成电影在线观看四季| 99久久国产免费看| 精品制服美女丁香| 亚洲一区二区三区激情| 中文字幕第一区综合| 欧美一区二区三区免费观看视频| 成人免费视频免费观看| 午夜av区久久| 亚洲天堂中文字幕| xnxx国产精品| 777xxx欧美| 欧美亚洲免费在线一区| 成人97人人超碰人人99| 国内欧美视频一区二区| 日本色综合中文字幕| 樱花影视一区二区| 国产精品午夜电影| 日本在线播放一区二区三区| 国产农村妇女精品| 亚洲精品一区二区精华| 欧美精品tushy高清| 在线中文字幕不卡| 成人av片在线观看| 国产一区二区91| 黄色成人免费在线| 日韩av一区二区三区四区| 亚洲午夜一区二区三区| 亚洲色图在线看| 中文字幕一区二区三区不卡 | 日本午夜一本久久久综合| 亚洲欧美日韩一区二区| 国产精品欧美一级免费| 国产亚洲一本大道中文在线| 欧美tk—视频vk| 精品少妇一区二区| 日韩手机在线导航| 欧美一级专区免费大片| 欧美理论片在线| 欧美日韩一区二区在线观看| 91黄色激情网站| 欧美色综合影院| 911精品国产一区二区在线| 欧美日韩国产中文| 欧美日韩精品系列| 欧美日韩精品三区| 日韩欧美一级精品久久| 精品三级av在线| 亚洲国产精品精华液2区45| 中文字幕第一页久久| 亚洲欧美激情一区二区| 亚洲第一福利视频在线| 日韩电影一区二区三区| 日韩电影一区二区三区| 国内精品久久久久影院薰衣草 | 日本一区二区三区在线不卡| 国产午夜精品一区二区三区四区| 国产精品福利一区二区| 亚洲国产一区在线观看| 久久精品国产亚洲一区二区三区| 国产美女久久久久| 色94色欧美sute亚洲13| 3d成人动漫网站|