很多站長(zhǎng)都會(huì)遇到這個(gè)問(wèn)題,網(wǎng)站開(kāi)發(fā)完成上線后,百度一直不收錄。
即使收錄也只是收錄個(gè)首頁(yè),內(nèi)頁(yè)很難快速被收錄。這樣網(wǎng)站優(yōu)化工作是難以開(kāi)展的,如何解決這個(gè)問(wèn)題?
搜索引擎的進(jìn)化
互聯(lián)網(wǎng)早期,網(wǎng)站數(shù)量有限,所以人工整理是可行的,比如就有DMOZ這樣的人工編輯的網(wǎng)站數(shù)據(jù)庫(kù),分門別類的整理好各種網(wǎng)址。
后來(lái)全球網(wǎng)站數(shù)量爆炸性增長(zhǎng),人工整理就不現(xiàn)實(shí)了,于是有了網(wǎng)絡(luò)爬蟲(chóng)(也叫蜘蛛)代替人工去訪問(wèn)抓取網(wǎng)站,這就是最原始的搜索引擎。
雖然互聯(lián)網(wǎng)是一個(gè)網(wǎng)狀結(jié)構(gòu),但是抓取整個(gè)互聯(lián)網(wǎng)上的所有網(wǎng)站還是有難度的,首先要解決的問(wèn)題就是如何發(fā)現(xiàn)這些網(wǎng)站。
為了解決這個(gè)問(wèn)題,搜索引擎都會(huì)有一個(gè)基礎(chǔ)的網(wǎng)站數(shù)據(jù)庫(kù),從這里的網(wǎng)站開(kāi)始爬取,希望能抓取整個(gè)互聯(lián)網(wǎng)上的信息。而且依靠鏈接之間的引用關(guān)系和使用的鏈接文本來(lái)計(jì)算網(wǎng)頁(yè)的權(quán)重,從而能對(duì)搜索結(jié)果排序。比如Google的PageRank算法。
Yahoo算是非常早的搜索引擎,它就使用DMOZ的網(wǎng)站作為爬蟲(chóng)的抓取起點(diǎn),而且我懷疑Google也使用DMOZ數(shù)據(jù),因?yàn)?0多年前做網(wǎng)站時(shí),大家都希望自己的網(wǎng)站能被DMOZ收錄,甚至賄賂DMOZ的編輯人員。
還有那時(shí)候大家都拼命交換友情鏈接,PR值高的網(wǎng)站就是大爺。這背后對(duì)應(yīng)著網(wǎng)站的收錄速度和排名高低。
一個(gè)新網(wǎng)站,如果有PR值高的網(wǎng)站給你加友情鏈接,很快網(wǎng)站就可以被抓取收錄。
早期互聯(lián)網(wǎng)內(nèi)容貧乏,隨便做個(gè)網(wǎng)站,找有權(quán)重的網(wǎng)站交換友情鏈接,這些搜索引擎爬蟲(chóng)都如饑似渴的抓取收錄。
可現(xiàn)在互聯(lián)網(wǎng)上的內(nèi)容太多了(Google的總索引頁(yè)面數(shù)477億左右)),搜索引擎也變得越來(lái)越挑剔,所以新站起流量越來(lái)越難了。
標(biāo)簽:東營(yíng)
烏魯木齊
林芝
鹽城
九江