婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python 爬取淘寶商品信息欄目的實現

Python 爬取淘寶商品信息欄目的實現

熱門標簽:千呼ai電話機器人免費 400電話辦理費用收費 柳州正規電銷機器人收費 鎮江人工外呼系統供應商 深圳網絡外呼系統代理商 申請辦個400電話號碼 高德地圖標注字母 騰訊地圖標注有什么版本 外呼系統前面有錄音播放嗎

一、相關知識點

1.1、Selenium

Selenium是一個強大的開源Web功能測試工具系列,可進行讀入測試套件、執行測試和記錄測試結果,模擬真實用戶操作,包括瀏覽頁面、點擊鏈接、輸入文字、提交表單、觸發鼠標事件等操作,并且能夠對頁面結果進行種種驗證。也就是說,只要在測試用例中把預期的用戶行為與結果都描述出來,我們就得到了一個可以自動化運行的功能測試套件。

1.2、ActionChains
Actionchains是selenium里面專門處理鼠標相關的操作如:鼠標移動,鼠標按鈕操作,按鍵和上下文菜單(鼠標右鍵)交互。這對于做更復雜的動作非常有用,比如懸停和拖放。

1.3、time
返回當前時間的時間戳

1.4、lxml
lxml是一個Python庫,使用它可以輕松處理XML和HTML文件,還可以用于web爬取。市面上有很多現成的XML解析器,但是為了獲得更好的結果,開發人員有時更愿意編寫自己的XML和HTML解析器。這時lxml庫就派上用場了。這個庫的主要優點是易于使用,在解析大型文檔時速度非常快,歸檔的也非常好,并且提供了簡單的轉換方法來將數據轉換為Python數據類型,從而使文件操作更容易。

1.5、csv
csv文件格式是一種通用的電子表格和數據庫導入導出格式。最近我調用RPC處理服務器數據時,經常需要將數據做個存檔便使用了這一方便的格式。

1.6、requests
Requests 庫是一個優雅而簡單的 Python HTTP 庫,主要用于發送和處理 HTTP 請求

二、部分代碼解析

加載Chrome驅動,動態解析爬取的網址

 #提取公共的爬取信息的api
 def commonsdk(self,url):
 browser = webdriver.Chrome('D:/chromedriver.exe')
 try:
 browser.get(url)
 except Exception as e:
 browser.execute_script('window.stop()') # 超出時間則不加載
 print(e, 'dynamic web load timeout')
 return browser;

實現模擬登錄

通過定位淘寶登陸界面的url的表單框,然后輸入自己的用戶名及密碼,再模擬鼠標點擊事件,繼而提交表單信息實現用戶登錄。

#模擬登錄
 def logon(self,url,a_href_list_next):
 username = "淘寶賬戶名"
 password = "密碼"
 browser1 = self.commonsdk(url)
 #登錄賬號
 browser1.find_element_by_id('fm-login-id').send_keys(username)
 browser1.find_element_by_id('fm-login-password').send_keys(password)
 #模擬用戶點擊登錄
 browser1.find_element_by_xpath('//*[@id="login-form"]/div[4]/button').click()
 #解析商品信息
 self.Buy_information(a_href_list_next,browser1)

爬取側邊欄目錄
1、首先定位到目錄分類欄,鼠標光標移動到需要選中的那一欄,繼而會出現隱藏的div,(這里需要實現鼠標懸停事件)action.move_to_element(li_list).perform()實現了這一功能。
2、然后定位自己所需要爬取的側邊欄的那一行或多行,通過實現鼠標懸停事件后獲取其中內容。
3、獲取其超鏈接進入下一界面

#爬取目錄
 def List(self,url):
 browser = self.commonsdk(url)
 #ActionChains類實現鼠標的單擊、雙擊、拖拽等功能
 action = ActionChains(browser)
 li_list = browser.find_elements_by_css_selector('.service-bd li')[1]
 #實現執行鼠標懸停,便于爬取懸停內容
 action.move_to_element(li_list).perform()
 time.sleep(5)

 #爬取整個目錄的div
 div_list = browser.find_element_by_css_selector('.service-fi-links')
 #爬取其中的總的名稱
 h5_list = div_list.find_elements_by_css_selector('h5')
 #爬取小標題的名稱
 p_list = div_list.find_elements_by_css_selector('p')
 #獲取a標簽
 a_href_list = div_list.find_elements_by_css_selector('a')
 #獲取a標簽的超鏈接
 a_href_list_next = div_list.find_elements_by_css_selector('a')[1].get_attribute('href')

 print(li_list.text)
 for j in range(len(p_list)):
 if jlen(p_list):
 print(h5_list[j].text)
 print(p_list[j].text)
 for i in range(len(a_href_list)):
 print(a_href_list[i].get_attribute('href'))

 #獲取登錄框
 logon = browser.find_element_by_id('J_SiteNavBd')
 #獲取登錄框的超鏈接
 logon_url = logon.find_element_by_css_selector('a').get_attribute('href')
 #先關閉第一個網頁
 browser.close()
 self.logon(logon_url,a_href_list_next)

獲取商品信息

1、這里使用的定位方式是Xpath方式,使用了絕對定位來獲取標簽的位置。

#爬取商品信息
 def Buy_information(self,url,browser):
 browser.get(url)
 div_list = browser.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]')
 img = div_list.find_element_by_css_selector('img')
 img_url = "https:"+img.get_attribute('data-src')
 price = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[1]').text
 number = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[1]/div[2]').text
 shoping_information = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[2]').text
 shop = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[1]/a').text
 adress = div_list.find_element_by_xpath('//*[@id="mainsrp-itemlist"]/div/div/div[1]/div[1]/div[2]/div[3]/div[2]').text
 path = self.img_baocun(img_url)
 data={
 '圖片路徑':path,
 '價格':price,
 '購買人數':number,
 '商品信息':shoping_information,
 '商家':shop,
 '籍貫':adress
 }
 self.write_dictionary_to_csv(data,'information')

下載圖片

通過獲取到的圖片的url,然后將圖片下載到指定的文件夾內

#下載照片
 def img_baocun(self,url):
 root = "文件夾下載的路徑"http://電腦上的絕對路徑
 path = root + url.split('?')[0].split('/')[-1].strip('')#獲取jpg的名稱
 #判斷是否存在該路徑,不存在則創建
 if not os.path.exists(root):
 os.mkdir(root)
 #判斷是否存在該圖片,存在則不下載
 if not os.path.exists(path):
 r = requests.get(url)
 r.raise_for_status()
 with open(path,'wb') as f:
 f.write(r.content)
 return path

將需要爬取的信息寫入到csv文件中,便于查看
1、商品信息以字典的形式寫入csv文件中方便查看。

#將解析得到的內容(字典格式)逐行寫入csv文件
 def write_dictionary_to_csv(self,dict,filename):
 #格式化文件名
 file_name='{}.csv'.format(filename)
 with open(file_name, 'a',encoding='utf-8') as f: 
 file_exists = os.path.isfile(filename)
 #delimiter(定界符) 
 w =csv.DictWriter(f, dict.keys(),delimiter=',', quotechar='"', lineterminator='\n',quoting=csv.QUOTE_ALL, skipinitialspace=True)
 if not file_exists :
 w.writeheader()
 w.writerow(dict)
 print('當前行寫入csv成功!')

三、程序思路

1、首先定位到側邊欄的位置,然后使用action.move_to_element(li_list).perform()的方法實現鼠標的動態懸停,讓隱藏的div顯示出來,再獲取其中的信息。
2、然后再實現模擬登錄的功能,登錄賬號,獲取其中的商品信息(由于淘寶的反扒機制,多次登錄會讓用戶掃碼登錄,此功能暫未實現)
3、商品信息的獲取使用Xpath的絕對定位方式來獲取。

Xpath的使用方式:
 右鍵需要定位的標簽->選中Copy選項->Copy Xpath

四、發展空間

1、解決淘寶反扒機制的問題。傳送門,解決問題
2、文件的寫入換用其他方式。

到此這篇關于Python 爬取淘寶商品信息欄目的實現的文章就介紹到這了,更多相關Python 爬取淘寶商品信息內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Unity打開淘寶app并跳轉到商品頁面功能的實現方法
  • 備戰618!用Python腳本幫你實現淘寶秒殺
  • python淘寶準點秒殺搶單的實現示例
  • python 利用百度API進行淘寶評論關鍵詞提取
  • Python實現淘寶秒殺功能的示例代碼
  • 用python爬取分析淘寶商品信息詳解技術篇

標簽:烏蘭察布 平頂山 合肥 大慶 海南 哈爾濱 烏蘭察布 郴州

巨人網絡通訊聲明:本文標題《Python 爬取淘寶商品信息欄目的實現》,本文關鍵詞  Python,爬取,淘寶,商品,信息,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python 爬取淘寶商品信息欄目的實現》相關的同類信息!
  • 本頁收集關于Python 爬取淘寶商品信息欄目的實現的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    韩国av一区二区三区四区| 亚洲国产综合91精品麻豆| 午夜精品福利在线| 国产人成一区二区三区影院| 91精品国产全国免费观看 | 亚洲午夜免费福利视频| www亚洲一区| 欧美一级在线观看| 欧美一区二区三区精品| 欧美色综合久久| 国产91丝袜在线播放0| 蜜臀久久99精品久久久画质超高清 | 国产成a人亚洲精品| 91精品国产色综合久久不卡电影 | 亚洲美女偷拍久久| 日韩电影在线免费观看| 国产盗摄一区二区三区| 色婷婷精品大视频在线蜜桃视频| 欧美电影一区二区三区| 久久免费电影网| 国产精品天天看| 亚洲精品综合在线| 国产毛片精品国产一区二区三区| 久久国内精品视频| 国产乱码精品一区二区三区忘忧草 | 亚洲图片激情小说| 中文字幕在线不卡| 日本亚洲三级在线| 99久久精品久久久久久清纯| 91精品国产综合久久久蜜臀图片 | 日韩成人伦理电影在线观看| 国产不卡在线视频| 欧美日韩亚洲综合在线| 中文字幕一区二区三区四区不卡| 老司机一区二区| 欧美视频在线一区二区三区| 中文字幕免费观看一区| 韩国欧美国产一区| 日韩一卡二卡三卡国产欧美| 玉米视频成人免费看| 国产成人福利片| 欧美成人一区二区三区在线观看| 亚洲影院久久精品| 91丨porny丨蝌蚪视频| 精品精品国产高清一毛片一天堂| 亚洲制服丝袜av| 99国产精品99久久久久久| 久久久99久久| 国产一区欧美一区| 亚洲精品一区二区三区福利| 日韩成人一级大片| 欧美一区二区福利在线| 亚洲一区二区三区精品在线| 色婷婷综合久久久| 亚洲蜜臀av乱码久久精品| a美女胸又www黄视频久久| 国产亚洲一区字幕| 国产一区二区精品久久| 欧美精品一区二区三区很污很色的 | 日韩精品在线一区| 蜜桃视频在线观看一区| 日韩精品中文字幕在线一区| 麻豆国产欧美日韩综合精品二区 | 欧美性猛交xxxx黑人交| 亚洲国产精品视频| 91精品国产一区二区三区香蕉| 五月婷婷综合网| 欧美老年两性高潮| 午夜电影一区二区三区| 欧美一二区视频| 精品一区二区在线免费观看| 久久亚洲精品小早川怜子| 国产精品一区二区你懂的| 国产欧美日韩另类一区| 丰满放荡岳乱妇91ww| 亚洲视频一区二区免费在线观看| 91丨porny丨国产入口| 午夜激情一区二区| 亚洲精品一线二线三线无人区| 成人自拍视频在线观看| 亚洲免费观看视频| 日韩一区二区三区电影| 亚洲国产一二三| 欧美久久久一区| 久久国产成人午夜av影院| 久久婷婷色综合| 99久久综合精品| 亚洲成av人影院| 26uuu欧美| 成+人+亚洲+综合天堂| 亚洲电影一级片| 久久这里只有精品首页| 一本大道久久a久久精二百| 日韩国产一二三区| 国产精品美女久久久久av爽李琼| 欧美中文字幕一区二区三区亚洲| 亚洲成人免费电影| 久久蜜臀中文字幕| 欧美三级一区二区| 国产精品亚洲专一区二区三区| 亚洲精品视频在线观看网站| 欧美丝袜丝交足nylons图片| 国产综合久久久久影院| 亚洲在线观看免费| 久久精品亚洲一区二区三区浴池| aaa亚洲精品| 久久99精品一区二区三区| 国产女同性恋一区二区| 日韩一区二区在线免费观看| 成人动漫视频在线| 麻豆国产精品一区二区三区| 亚洲精品大片www| 337p粉嫩大胆噜噜噜噜噜91av| 色天天综合久久久久综合片| 韩国成人在线视频| 亚洲色图丝袜美腿| wwwwxxxxx欧美| 91麻豆精品国产91久久久久| 91影院在线观看| 国产精品一区二区三区99| 青青草成人在线观看| 亚洲美女在线国产| 国产精品久久久久影院老司| 日韩三级视频在线看| 欧美羞羞免费网站| 97se亚洲国产综合自在线观| 国产在线精品免费| 视频一区二区三区入口| 国产精品入口麻豆原神| 精品电影一区二区| 日韩美女天天操| 欧美精品丝袜中出| 欧美日韩亚洲综合在线| 欧美天天综合网| 欧美亚洲国产怡红院影院| 91视频.com| 北条麻妃国产九九精品视频| 国模娜娜一区二区三区| 久久国产精品色| 蜜臀精品一区二区三区在线观看 | av毛片久久久久**hd| 国产精品一品视频| 国产精品系列在线播放| 国产一区不卡视频| 国产一区二区三区在线观看免费 | 麻豆91精品视频| 免费不卡在线观看| 免费日本视频一区| 强制捆绑调教一区二区| 日本午夜一区二区| 久久不见久久见免费视频1| 日本亚洲三级在线| 国产综合色在线| 成人激情开心网| av日韩在线网站| 欧美日韩视频第一区| 9191国产精品| 久久夜色精品国产噜噜av | 久久精品一区蜜桃臀影院| 国产精品美女久久久久久2018| 日韩一区欧美小说| 亚洲激情自拍视频| 亚洲一区在线观看视频| 亚洲国产中文字幕| 久久超碰97中文字幕| 国产99一区视频免费| 成人av资源在线观看| 在线中文字幕一区| 7777精品久久久大香线蕉 | 亚洲成在线观看| 精品在线播放免费| 91婷婷韩国欧美一区二区| 9i看片成人免费高清| 欧美日韩在线不卡| 亚洲v日本v欧美v久久精品| 午夜视频在线观看一区二区 | 婷婷亚洲久悠悠色悠在线播放| 日韩主播视频在线| 精品亚洲国产成人av制服丝袜| 成人黄动漫网站免费app| 色综合天天综合| 精品少妇一区二区三区免费观看 | 国产成人精品亚洲午夜麻豆| 色综合久久综合网欧美综合网| 欧美精品日日鲁夜夜添| 国产精品无遮挡| 秋霞成人午夜伦在线观看| jiyouzz国产精品久久| 9191成人精品久久| 亚洲精品综合在线| 国产精品1区二区.| 91精品国产综合久久精品图片 | 亚洲资源中文字幕| 国产成人精品免费看| 欧美一区2区视频在线观看| 国产精品久久久久一区二区三区| 婷婷成人激情在线网| 色综合久久综合网欧美综合网 | 成人精品国产一区二区4080| 欧美日韩激情一区二区三区|