關鍵字描述:教程 簡易 采集 我們 內容 網址   如果 作者 V5.3
DedeCms V5.3 采集基礎教程。
首先說明一下的是,第一次寫這種教程,有不當的地方請大家包涵。
進入正文:
采集過程其實就是copy的過程,只不過,我們copy的是顯示結果,而采集主要針對源碼進行。
第1步,建立節點
我們以圖片中的網址為例,目標頁面編碼一定要選對,不然采集回來的內容會亂碼,如果你采集回來的內容有亂碼,首先要考慮的是編碼問題,這里我們選utf-8,怎么知道別人的編碼是什么呢?看看源碼<content="text/html; charset=utf-8" />就會明白了。
“區域匹配模式”我選擇是的正則表達式,因為如果選“字符串”,將有一些廣告代碼過濾不掉。
第2步:文章網址匹配規則。 生活Tips歡迎您(http://ez4life.cn)
這個就要看采集網站的源代碼(圖2)了,找到一個包含所有要采集內容網址的代碼(要唯一,建議多使用Ctrl F),這樣我們就確定了要采集區域的網址,不放心就測試一下。
圖2
最后結果如圖3
圖3
第3步:在前面2步的基礎上我們已經找到了需要采集的網址,下面來看具體的采集內容。
在內容配置選項中,如果你比較懶,可以象我一樣不要選那么多的選項,只選擇你感興趣的部分,如文章標題,作者及來源等,在dede cmsV5.3中已經把dede V5.1的規則進行了改造,易于初學者使用了,其基本形式是標簽和內容放在一塊的,V5.1要分開始標簽和結束標簽,其實原理都是一樣的。
這里講講自定義作者的問題。V5.3以前的版本采集時可以用@me="作者“的形式自定義作者,而v5.3只能用替換的方法實現了,當然也有不便之處,這樣我們就確定了基本的東西了。
第4步:便是我們要的內容核心了,這里會用到比較多的過濾規則,幸好dede V5.3給我們準備了一些常用的,不過,如果你想采集比較復雜的網頁那還得學會一些常用的正則表達式了。這樣我們就基本學會了dedecms V5.3的采集,是不是有點簡單?
俠客站長站 (www. )
第5步:導出內容,這個我就不多講了。