婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁(yè) > 知識(shí)庫(kù) > 淺談搜索引擎蜘蛛抓取網(wǎng)頁(yè)規(guī)則

淺談搜索引擎蜘蛛抓取網(wǎng)頁(yè)規(guī)則

熱門(mén)標(biāo)簽:雜么在地圖標(biāo)注 河北人工外呼系統(tǒng)排名 騰訊地圖標(biāo)注服務(wù)中心電話(huà) 湖南ai電話(huà)電銷(xiāo)機(jī)器人怎么樣 一通電話(huà)機(jī)器人 地圖標(biāo)注商家半個(gè)月不顯示 廣州防封電銷(xiāo)機(jī)器人價(jià)格 2d地圖標(biāo)注怎么賺錢(qián) 貴州房產(chǎn)智能外呼系統(tǒng)品牌

一,爬蟲(chóng)框架

上圖是一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲(chóng)框架圖。種子URL入手,如圖所示,經(jīng)過(guò)一步步的工作,最后將網(wǎng)頁(yè)入庫(kù)保存。當(dāng)然,勤勞的蜘蛛可能需要做更多的工作,比如:網(wǎng)頁(yè)去重以及網(wǎng)頁(yè)反作弊等。

也許,我們可以將網(wǎng)頁(yè)當(dāng)作是蜘蛛的晚餐,晚餐包括:

已下載的網(wǎng)頁(yè)。已經(jīng)被蜘蛛抓取到的網(wǎng)頁(yè)內(nèi)容,放在肚子里了。

已過(guò)期網(wǎng)頁(yè)。蜘蛛每次抓取的網(wǎng)頁(yè)很多,有一些已經(jīng)壞在肚子里了。

待下載網(wǎng)頁(yè)。看到了食物,蜘蛛就要去抓取它。

可知網(wǎng)頁(yè)。還沒(méi)被下載和發(fā)現(xiàn),但蜘蛛能夠感覺(jué)到他們,早晚會(huì)去抓取它。

不可知網(wǎng)頁(yè)。互聯(lián)網(wǎng)太大,很多頁(yè)面蜘蛛無(wú)法發(fā)現(xiàn),可能永遠(yuǎn)也找不到,這部份占比很高。

通過(guò)以上劃分,我們可以很清楚的理解搜索引擎蜘蛛的工作及面臨的挑戰(zhàn)。大多數(shù)蜘蛛是按照這樣的框架去爬行。但也不完全一定,凡事總有特殊,根據(jù)職能的不同,蜘蛛系統(tǒng)存在一些差異。

二,爬蟲(chóng)類(lèi)型

1,批量型蜘蛛。

這類(lèi)蜘蛛有明確的抓取范圍和目標(biāo),當(dāng)蜘蛛完成目標(biāo)和任務(wù)后就停止抓取。具體目標(biāo)是什么?可能是抓取網(wǎng)頁(yè)數(shù)量,網(wǎng)頁(yè)大小,抓取時(shí)間等。

2,增量型蜘蛛

這類(lèi)蜘蛛和批量型蜘蛛不同,他們會(huì)持續(xù)不斷的抓取,對(duì)于抓取到的網(wǎng)頁(yè)會(huì)定期抓取更新。因?yàn)榛ヂ?lián)網(wǎng)中的網(wǎng)頁(yè)是隨時(shí)處于更新?tīng)顟B(tài)中,增量型蜘蛛需要能夠反映出這種更新。

3,垂直性蜘蛛

這種蜘蛛只關(guān)注特定主題或者特定的行業(yè)網(wǎng)頁(yè)。以健康網(wǎng)站為例子,這類(lèi)專(zhuān)門(mén)的蜘蛛會(huì)只抓取健康相關(guān)主題,其它主題內(nèi)容的網(wǎng)頁(yè)則不抓取。考驗(yàn)這只蜘蛛的難點(diǎn)是如何去更精準(zhǔn)的識(shí)別內(nèi)容所屬于行業(yè)。目前來(lái)看,很多垂直類(lèi)行業(yè)網(wǎng)站是需要這種蜘蛛去抓取的。

三,抓取策略

蜘蛛通過(guò)種子URL進(jìn)行爬行拓展,列出大量待抓取URL。但是待抓取URL數(shù)量龐大,蜘蛛如何確定抓取順序先后呢?蜘蛛抓取的策略有很多種,但最終目的是一 個(gè):優(yōu)先抓取重要的網(wǎng)頁(yè)。評(píng)價(jià)頁(yè)面是否重要,蜘蛛會(huì)根據(jù)頁(yè)面內(nèi)容原創(chuàng)程度,鏈接權(quán)重分析等眾多方式來(lái)進(jìn)行計(jì)算。比較有代表性的抓取策略如下:

1,寬度優(yōu)先策略

寬度優(yōu)先是指:蜘蛛在抓取一個(gè)網(wǎng)頁(yè)后,繼續(xù)將該網(wǎng)頁(yè)所包含的其它頁(yè)面按順序進(jìn)行進(jìn)一步抓取。這種思想看似簡(jiǎn)單,其實(shí)卻很實(shí)用。因?yàn)榇蠖鄶?shù)網(wǎng)頁(yè)都是按優(yōu)先級(jí)進(jìn)行排序,重要的頁(yè)面會(huì)優(yōu)先在頁(yè)面上進(jìn)行推薦。

2,PageRank策略

PageRank是一種非常著名的鏈接分析方法,主要是用來(lái)衡量網(wǎng)頁(yè)權(quán)重。如谷歌的PR,就是典型的PageRank算法。通過(guò)PageRank算法我們可以找出哪些頁(yè)面是更重要的,然后蜘蛛優(yōu)先去抓取這些重要性的頁(yè)面。

3,大站優(yōu)先策略

這個(gè)很容易理解,大網(wǎng)站通常擁有更多的內(nèi)容頁(yè)面,并且質(zhì)量也會(huì)更高。蜘蛛會(huì)先分析網(wǎng)站歸類(lèi)與屬性。如果這個(gè)網(wǎng)站已經(jīng)收錄很多,或者在搜索引擎系統(tǒng)中權(quán)重很高,則優(yōu)先考慮收錄。

四,網(wǎng)頁(yè)更新

互聯(lián)網(wǎng)中的頁(yè)面大多會(huì)保持更新,這樣就要求蜘蛛所存儲(chǔ)的頁(yè)面也能及時(shí)更新,保持一致性。打個(gè)比喻:一個(gè)網(wǎng)頁(yè)之前排名很好,如果頁(yè)面已經(jīng)被刪,卻還有排名,那 體驗(yàn)就很不好。因此搜索引擎需要隨時(shí)了解這些并更新頁(yè)面,將最新的頁(yè)面提供給用戶(hù)。常用的網(wǎng)頁(yè)更新策略在三種:歷史參考策略,用戶(hù)體驗(yàn)策略。聚類(lèi)抽樣策 略。

1,歷史參考策略

這是建立在一種假設(shè)基礎(chǔ)上的更新策略。比如,若你的網(wǎng)頁(yè)之前按規(guī)律一直更新,那搜索引擎也認(rèn)為你的頁(yè)面將來(lái)也會(huì)經(jīng)常更新,蜘蛛也會(huì)按這個(gè)規(guī)律定期來(lái)網(wǎng)站進(jìn)行抓取網(wǎng)頁(yè)。這也是為什么點(diǎn)水一直強(qiáng)調(diào)網(wǎng)站內(nèi)容需要有規(guī)律更新的原因。

2,用戶(hù)體驗(yàn)策略

一般來(lái)說(shuō),用戶(hù)只會(huì)查看搜索結(jié)果前三頁(yè)的內(nèi)容,后面的頁(yè)面很少有人去看。用戶(hù)體驗(yàn)策略就是搜索引擎根據(jù)用戶(hù)的這個(gè)特點(diǎn)來(lái)進(jìn)行更新。例如,一個(gè)網(wǎng)頁(yè)可能發(fā)布時(shí) 間較早,一段時(shí)間沒(méi)更新,但是用戶(hù)依然覺(jué)得有用,點(diǎn)擊瀏覽它,那么搜索引擎先不去更新這些過(guò)時(shí)的網(wǎng)頁(yè)也是可以的。這就是為什么搜索結(jié)果中,并不一定最新的 頁(yè)面排名一定靠前的原因。排名更多的是取決于這個(gè)頁(yè)面的質(zhì)量,而完全不是更新時(shí)間先后。

3,聚類(lèi)抽樣策略

上兩種更新策略主要是參考了網(wǎng)頁(yè)的歷史信息。但存儲(chǔ)大量歷史信息對(duì)搜索引擎來(lái)說(shuō)是一種負(fù)擔(dān),另外如果收錄的是新網(wǎng)頁(yè)則是沒(méi)有歷史信息可以參考的,那怎么辦? 聚類(lèi)抽樣策略是指:根據(jù)網(wǎng)頁(yè)所展現(xiàn)出來(lái)的一些屬性,來(lái)將很多相似網(wǎng)頁(yè)進(jìn)行歸類(lèi),被歸類(lèi)的頁(yè)面按照相同的規(guī)律去進(jìn)行更新。

從了解搜索引擎蜘 蛛工作原理的過(guò)程中,我們會(huì)知道:網(wǎng)站內(nèi)容之間的相關(guān)性,網(wǎng)站與網(wǎng)頁(yè)內(nèi)容更新規(guī)律,網(wǎng)頁(yè)上鏈接分布以及網(wǎng)站權(quán)重高低等因素都會(huì)影響到蜘蛛的抓取效率。知已 知彼,讓蜘蛛來(lái)得更猛烈些吧!

標(biāo)簽:韶關(guān) 營(yíng)口 南陽(yáng) 和田 臨沂 阜陽(yáng) 湖南 安康

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《淺談搜索引擎蜘蛛抓取網(wǎng)頁(yè)規(guī)則》,本文關(guān)鍵詞  淺談,搜索引擎,蜘蛛,抓取,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問(wèn)題,煩請(qǐng)?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無(wú)關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《淺談搜索引擎蜘蛛抓取網(wǎng)頁(yè)規(guī)則》相關(guān)的同類(lèi)信息!
  • 本頁(yè)收集關(guān)于淺談搜索引擎蜘蛛抓取網(wǎng)頁(yè)規(guī)則的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    主站蜘蛛池模板: 西丰县| 汉源县| 洪江市| 广德县| 汉源县| 丘北县| 连云港市| 安多县| 巴林右旗| 石林| 昌宁县| 河源市| 白河县| 临武县| 德昌县| 织金县| 仁布县| 合山市| 琼海市| 大石桥市| 石棉县| 江永县| 桑植县| 宁城县| 永清县| 罗平县| 铜鼓县| 新田县| 屏东市| 灵山县| 长白| 正镶白旗| 曲阳县| 通辽市| 阿拉善右旗| 印江| 巫溪县| 会理县| 广饶县| 徐州市| 西吉县|