婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > Python scrapy爬取蘇州二手房交易數據

Python scrapy爬取蘇州二手房交易數據

熱門標簽:洪澤縣地圖標注 大連crm外呼系統 北京電信外呼系統靠譜嗎 百度地圖標注位置怎么修改 無錫客服外呼系統一般多少錢 地圖標注視頻廣告 老人電話機器人 高德地圖標注是免費的嗎 梅州外呼業務系統

一、項目需求

使用Scrapy爬取鏈家網中蘇州市二手房交易數據并保存于CSV文件中
要求:
房屋面積、總價和單價只需要具體的數字,不需要單位名稱。
刪除字段不全的房屋數據,如有的房屋朝向會顯示“暫無數據”,應該剔除。
保存到CSV文件中的數據,字段要按照如下順序排列:房屋名稱,房屋戶型,建筑面積,房屋朝向,裝修情況,有無電梯,房屋總價,房屋單價,房屋產權。

二、項目分析

流程圖


通過控制臺發現所有房屋信息都在一個ul中其中每一個li里存儲一個房屋的信息。

找了到需要的字段,這里以房屋名稱為例,博主用linux截圖,沒法對圖片進行標注,這一段就是最中間的“景山玫瑰園” 。
其他字段類似不再一一列舉。
獲取了需要的數據后發現沒有電梯的配備情況,所以需要到詳細頁也就是點擊標題后進入的頁面,
點擊標題

可以看到里面有下需要的信息。

抓取詳細頁url

進行詳細頁數據分析

找到相應的位置,進行抓取數據。

三、編寫程序

創建項目,不說了。

1.編寫item(數據存儲)

import scrapy
class LianjiaHomeItem(scrapy.Item):
     name = scrapy.Field() # 名稱
     type = scrapy.Field()  # 戶型
     area = scrapy.Field()  # 面積
     direction = scrapy.Field()  #朝向
     fitment = scrapy.Field()  # 裝修情況
     elevator = scrapy.Field()  # 有無電梯
     total_price = scrapy.Field()  # 總價
     unit_price = scrapy.Field()  # 單價

2.編寫spider(數據抓取)

from scrapy import Request
from scrapy.spiders import Spider
from lianjia_home.items import LianjiaHomeItem

class HomeSpider(Spider):
    name = "home"
    current_page=1 #起始頁

    def start_requests(self): #初始請求
        url="https://su.lianjia.com/ershoufang/"
        yield Request(url=url)

    def parse(self, response): #解析函數
        list_selctor=response.xpath("http://li/div[@class='info clear']")
        for one_selector in list_selctor:
            try:
                #房屋名稱
                name=one_selector.xpath("http://div[@class='flood']/div[@class='positionInfo']/a/text()").extract_first()
                #其他信息
                other=one_selector.xpath("http://div[@class='address']/div[@class='houseInfo']/text()").extract_first()
                other_list=other.split("|")
                type=other_list[0].strip(" ")#戶型
                area = other_list[1].strip(" ") #面積
                direction=other_list[2].strip(" ") #朝向
                fitment=other_list[3].strip(" ") #裝修
                price_list=one_selector.xpath("div[@class='priceInfo']//span/text()")
                # 總價
                total_price=price_list[0].extract()
                # 單價
                unit_price=price_list[1].extract()

                item=LianjiaHomeItem()
                item["name"]=name.strip(" ")
                item["type"]=type
                item["area"] = area
                item["direction"] = direction
                item["fitment"] = fitment
                item["total_price"] = total_price
                item["unit_price"] = unit_price

            #生成詳細頁
                url = one_selector.xpath("div[@class='title']/a/@href").extract_first()
                yield Request(url=url,
                              meta={"item":item}, #把item作為數據v傳遞
                              callback=self.property_parse) #爬取詳細頁
            except:
                print("error")

        #獲取下一頁
            self.current_page+=1
            if self.current_page=100:
                next_url="https://su.lianjia.com/ershoufang/pg%d"%self.current_page
                yield Request(url=next_url)


    def property_parse(self,response):#詳細頁
        #配備電梯
        elevator=response.xpath("http://div[@class='base']/div[@class='content']/ul/li[last()]/text()").extract_first()
        item=response.meta["item"]
        item["elevator"]=elevator
        yield item

3.編寫pipelines(數據處理)

import re
from scrapy.exceptions import DropItem
class LianjiaHomePipeline:#數據的清洗
    def process_item(self, item, spider):
        #面積
        item["area"]=re.findall("\d+\.?\d*",item["area"])[0] #提取數字并存儲
        #單價
        item["unit_price"] = re.findall("\d+\.?\d*", item["unit_price"])[0] #提取數字并存儲

        #如果有不完全的數據,則拋棄
        if item["direction"] =="暫無數據":
            raise DropItem("無數據,拋棄:%s"%item)

        return item

class CSVPipeline(object):
    file=None
    index=0 #csv文件行數判斷
    def open_spider(self,spider): #爬蟲開始前,打開csv文件
        self.file=open("home.csv","a",encoding="utf=8")

    def process_item(self, item, spider):#按要求存儲文件。
        if self.index ==0:
            column_name="name,type,area,direction,fitment,elevator,total_price,unit_price\n"
            self.file.write(column_name)#插入第一行的索引信息
            self.index=1

        home_str=item["name"]+","+item["type"]+","+item["area"]+","+item["direction"]+","+item["fitment"]+","+item["elevator"]+","+item["total_price"]+","+item["unit_price"]+"\n"
        self.file.write(home_str) #插入獲取的信息

        return item

    def close_soider(self,spider):#爬蟲結束后關閉csv
        self.file.close()

4.編寫settings(爬蟲設置)

這里只寫下需要修改的地方

USER_AGENT = 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36'
#為裝成瀏覽器
ROBOTSTXT_OBEY = False #不遵循robots協議
ITEM_PIPELINES = {
    'lianjia_home.pipelines.LianjiaHomePipeline': 300,
    #先進行數字提取
    'lianjia_home.pipelines.CSVPipeline': 400
    #在進行數據的儲存
    #執行順序由后邊的數字決定
}

這些內容在settings有些是默認關閉的,把用來注釋的 # 去掉即可開啟。

5.編寫start(代替命令行)

from scrapy import cmdline

cmdline.execute("scrapy crawl home" .split())

附上兩張結果圖。

總結

此次項目新增了簡單的數據清洗,在整體的數據抓取上沒有增加新的難度。

到此這篇關于Python scrapy爬取蘇州二手房交易數據的文章就介紹到這了,更多相關scrapy爬取二手房交易數據內容請搜索腳本之家以前的文章或繼續瀏覽下面的相關文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:
  • Python手拉手教你爬取貝殼房源數據的實戰教程
  • Python爬蟲之爬取我愛我家二手房數據
  • python爬取鏈家二手房的數據
  • Python爬蟲之爬取二手房信息
  • 基于python爬取鏈家二手房信息代碼示例
  • python爬蟲 爬取58同城上所有城市的租房信息詳解
  • Python爬蟲入門案例之爬取二手房源數據

標簽:泉州 怒江 安慶 清遠 長春 洛陽 吉林 岳陽

巨人網絡通訊聲明:本文標題《Python scrapy爬取蘇州二手房交易數據》,本文關鍵詞  Python,scrapy,爬取,蘇州,二手房,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《Python scrapy爬取蘇州二手房交易數據》相關的同類信息!
  • 本頁收集關于Python scrapy爬取蘇州二手房交易數據的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    国产乱国产乱300精品| 欧美日韩激情一区二区三区| 国产福利一区二区三区视频在线 | 天天色综合天天| 99久久久无码国产精品| 国产亚洲福利社区一区| 国内国产精品久久| 久久久精品影视| 国产精品99精品久久免费| 久久你懂得1024| 国产福利一区在线| 中文字幕精品一区二区精品绿巨人| 蜜桃av噜噜一区二区三区小说| 欧美视频在线不卡| 日本不卡一区二区三区| 色哟哟在线观看一区二区三区| 久久久高清一区二区三区| 国产福利91精品| 亚洲男人天堂av| 56国语精品自产拍在线观看| 久久精品999| 久久久精品日韩欧美| 国产精品1区2区3区在线观看| 91精品国产欧美一区二区成人| 蜜臀久久99精品久久久久久9| 日韩一区二区影院| 国产九九视频一区二区三区| 国产精品视频你懂的| 91福利资源站| 日本va欧美va瓶| 欧美国产精品一区| 在线不卡的av| 成人app网站| 一区二区三区日韩欧美精品| 制服丝袜亚洲网站| 国产精品18久久久久| 中文字幕一区在线观看| 欧美精品18+| 五月综合激情婷婷六月色窝| 亚洲激情中文1区| 在线视频欧美精品| 精品在线播放免费| 亚洲综合图片区| 国产亚洲综合在线| 欧美日韩一卡二卡三卡| 丰满少妇久久久久久久| 日韩福利电影在线观看| 亚洲欧洲在线观看av| 精品福利一二区| 欧美另类z0zxhd电影| hitomi一区二区三区精品| 婷婷开心激情综合| 亚洲乱码国产乱码精品精可以看| 欧美大度的电影原声| 欧美三级电影网| 99精品黄色片免费大全| 韩国av一区二区三区四区| 午夜国产精品影院在线观看| 日本一区二区免费在线| 日韩一区二区三区在线视频| 欧美日韩一二区| 一本色道久久综合亚洲精品按摩 | 一区视频在线播放| 国产日韩欧美a| 精品国产乱码久久| 欧美一级高清大全免费观看| 欧美视频在线一区| 欧美在线制服丝袜| 91一区在线观看| 国产精品一区二区久激情瑜伽| 美女视频第一区二区三区免费观看网站| 一区二区三区在线观看视频| 久久精品日韩一区二区三区| 337p粉嫩大胆噜噜噜噜噜91av| 91国内精品野花午夜精品 | 国产成人免费av在线| 国产一区二区精品久久99| 久久精品72免费观看| 狠狠色丁香久久婷婷综| 九九九精品视频| 日韩一级欧美一级| 日韩视频在线你懂得| 日韩欧美专区在线| 日韩欧美123| 欧美一区二区在线免费观看| 91精品国产综合久久香蕉麻豆| 欧美日本一区二区三区| 欧美日韩在线播| 日韩欧美一区二区免费| 久久久亚洲午夜电影| 3d成人h动漫网站入口| 制服丝袜在线91| 欧美r级电影在线观看| 成人免费av网站| av日韩在线网站| 色综合视频一区二区三区高清| av毛片久久久久**hd| 91麻豆免费视频| 欧美色图片你懂的| 91精品国产综合久久精品性色| 7777精品伊人久久久大香线蕉的| 日韩欧美第一区| 国产精品视频观看| 香蕉乱码成人久久天堂爱免费| 黄色精品一二区| 欧美日韩国产中文| 日韩午夜av电影| 国产女同互慰高潮91漫画| 中文字幕亚洲在| 日韩高清一级片| 国产精品一区二区无线| 色噜噜狠狠色综合欧洲selulu| 制服丝袜一区二区三区| 国产精品久久久久久久岛一牛影视| 亚洲国产wwwccc36天堂| 国产风韵犹存在线视精品| 色999日韩国产欧美一区二区| 日韩午夜在线观看视频| 亚洲男人的天堂在线观看| 丝袜美腿成人在线| 成人福利视频网站| 亚洲精品一区二区三区福利| 一二三四区精品视频| 国产成人午夜电影网| 精品久久人人做人人爽| 婷婷综合另类小说色区| 91视频com| 国产日韩欧美一区二区三区乱码 | 在线不卡的av| 一区二区在线免费| 成人美女视频在线观看18| 精品成人免费观看| 日韩极品在线观看| 欧美日韩激情在线| 亚洲成人免费在线| 91麻豆免费观看| 国产精品卡一卡二| 久久精品99国产国产精| 日韩欧美在线一区二区三区| 一区二区高清在线| 色94色欧美sute亚洲13| 亚洲欧洲在线观看av| 丰满岳乱妇一区二区三区| 久久久夜色精品亚洲| 久久se精品一区精品二区| 欧美顶级少妇做爰| 一区二区三区精品视频| 91久久精品一区二区| 亚洲欧美在线视频| 菠萝蜜视频在线观看一区| 国产农村妇女毛片精品久久麻豆| 美美哒免费高清在线观看视频一区二区 | 日韩成人午夜精品| 成人免费高清在线观看| 国产精品成人午夜| 99久久国产免费看| 亚洲综合网站在线观看| 欧美一区2区视频在线观看| 首页国产欧美久久| www欧美成人18+| 91丨porny丨户外露出| 亚洲va中文字幕| 久久久久久久综合色一本| 91婷婷韩国欧美一区二区| 亚洲无人区一区| 日韩精品一区二区三区在线观看 | 本田岬高潮一区二区三区| 综合久久综合久久| 欧美日韩一级大片网址| 石原莉奈在线亚洲三区| 久久久久久免费网| 色欧美片视频在线观看| 综合av第一页| 欧美日韩一区三区| 日韩成人精品在线观看| 国产欧美日韩在线观看| 成人的网站免费观看| 亚洲欧美一区二区三区久本道91| 亚洲免费av在线| 精品国产伦一区二区三区观看体验| 欧美激情一区二区三区蜜桃视频| 亚洲3atv精品一区二区三区| 国产成人精品aa毛片| 7777精品伊人久久久大香线蕉| 欧美自拍偷拍一区| 美国毛片一区二区| 欧美日韩一区二区电影| 亚洲另类一区二区| 成人性生交大片免费看中文| 欧美大片日本大片免费观看| 精品免费一区二区三区| 成av人片一区二区| 久久综合九色综合97婷婷| 日韩高清电影一区| 9191成人精品久久| 欧美一二三在线| 一本久久a久久精品亚洲| 久久精品欧美一区二区三区不卡| 精品亚洲国产成人av制服丝袜| 欧美日韩另类国产亚洲欧美一级|