婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 網站建設 > 建站知識 > Dedecms采集功能的使用方法 --- 含有分頁的普通文章的采集(三)

Dedecms采集功能的使用方法 --- 含有分頁的普通文章的采集(三)

POST TIME:2021-05-24 02:40

前言:本文是“含有分頁的普通文章的采集方法“的第三節,在前兩節的基礎上,將會對“如何采集指定節點”和“如何導出采集內容”做詳細的介紹。為了與前文保持一致,本文將延續使用前文的章節標記。

上接第二節。

 

3.1采集指定節點

單擊“保存并開始采集“后,將會進入”采集指定節點“界面,如(圖29)所示,

圖29-采集指定節點

 

每頁采集:這是設置每頁所需采集的條數,并可根據網站是否有防刷新功能,設置采集間隔時間。

 

特殊選項:設置是否檢測重復圖片,默認為“檢測”。

 

附加選項:此選項一共有3種采集模式可供選擇:第一種為“監控采集模式(檢測當前或所有節點是否有新內容)”,選取后,系統只會采集指定節點中更新的內容;第二種為“重新下載全部內容”,選取后,系統會采集指定節點中的全部內容;第三種為“下載種子網站的未下載內容”,選取后,系統只會采集指定節點中未下載過的內容,包括以前沒下載的和更新的內容。

 

設置完成并確定無誤后,可單擊“開始采集網頁”或者“查看種子網址”。此時,如果單擊“查看種子網址”會看到列表是空的,這是因為新建立的采集節點從未采集過,如(圖30)所示,

圖30-查看節點的種子網址

 

單擊“開始采集網頁”后,系統便會開始采集節點中設置的網址,并出現相關提示,如(圖31)所示,

圖31-采集進程中提示信息

 

采集結束后,再次單擊“查看種子網址”或者單擊頁面右上角的“查看已下載”,便可看到已采集到的網址信息,如(圖32)所示,

圖32-查看節點的種子網址

 

成功采集以后,可以根據實際需要選擇頁面右上角的單擊“采集節點管理”或者“導出數據”。單擊“導出數據“后,便可進入” 采集管理> 采集內容導出“界面,如(圖33)所示,

圖33-采集內容導出

 

“默認導出欄目“:設置要把采集到的內容導入到的欄目

 

“批量采集選項”:如果在采集規則中已指定欄目ID,則可使用此功能,若指定的欄目ID為0,系統會把采集內容導入到“默認導出欄目”所選擇的欄目中。

 

“發布選項“:有發布成“普通文檔”和“保存為草稿”可供選擇。

 

“每批導入“:設置每批導入的條數,此數不宜過大。

 

“附帶選項“:此處為多選。如果不希望采集到重復的文章標題,可選中“排除重復標題”;如果希望被采集到的內容直接生成HTML的話,可選中“完成后自動生成導入內容HTML”;如果希望系統在采集列表頁時自動識別標題名,可選中“使用列表索引的標題”,一般不建議勾選。

 

“隨機推薦”:填入一個數字,代表文檔篇數。在所填入的文檔篇數內隨機出現一篇推薦文檔,若填入“0”,則表示為不推薦。

 

設置完成后,可單擊“確定”,就可以把下載的導入到所選的欄目中了,如(圖34)所示,

圖34-設置完成后的采集內容導出頁面

 

同時,系統將會有導出進程提示,如(圖35)所示,

圖35-采集內容導出中的提示信息

 

導出采集內容提示“完成所有欄目列表更新”后,單擊“瀏覽欄目”,便可進入網站的相關頁面查看到采集到的文章列表及其具體內容。也可在后臺管理界面的主菜單中單擊“核心”,然后單擊“普通文章”,進入“文檔列表”頁面,查看所采集到的文章列表,如(圖36)所示,

圖36-文檔列表

 

在文檔列表中,單擊“用最簡單網絡 學習IP和ARP協議”的預覽按鈕,可打開文章內容頁面,找到頁面的換頁部分,如(圖37)所示,

圖37-分頁

 

由此可知,含有分頁文章內容已經被成功采集到了。

總結,本文詳細地敘述了如何采集一個含有分頁的普通文章類型的頁面,并簡單地涉及到了過濾規則。對于采集更為復雜的普通文章類型的頁面和使用過濾規則,將會在今后文章中介紹。

 

本文的采集規則:

{dede:listconfig}
{dede:noteinfo notename="采集測試(二)" channelid="1" macthtype="string"
    refurl="http://www.bitscn.com/network/protocol/201105/193110.html" sourcelang="gb2312" cosort="asc"
  isref="no" exptime="10" usemore="0" /}
{dede:listrule sourcetype="batch" rssurl="http://" regxurl="http://www.bitscn.com/network/protocol/list_(*).html"
startid="1" endid="1" addv="1" urlrule="area" musthas=""
 nothas="" listpic="1" usemore="0"}
    {dede:addurls}{/dede:addurls}
    {dede:batchrule}{/dede:batchrule}
    {dede:regxrule}{/dede:regxrule}
    {dede:areastart}<div class="list-cc">{/dede:areastart}
    {dede:areaend}</div>{/dede:areaend}
{/dede:listrule}

{/dede:listconfig}

{dede:itemconfig}
{dede:sppage sptype='full' srul='1' erul='5'}<div class="page next-page">[內容]</div>{/dede:sppage}
{dede:previewurl}http://www.bitscn.com/network/protocol/201105/193110.html{/dede:previewurl}
{dede:keywordtrim}{/dede:keywordtrim}
{dede:descriptiontrim}{/dede:descriptiontrim}
{dede:item field='title' value='' isunit='' isdown=''}
   {dede:match}<h1 class="title">[內容]</h1>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='writer' value='' isunit='' isdown=''}
   {dede:match}{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='source' value='' isunit='' isdown=''}
   {dede:match}<span>來源:[內容]</span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='pubdate' value='' isunit='' isdown=''}
   {dede:match}時間:[內容]  <span>{/dede:match}
   
   {dede:function}{/dede:function}
{/dede:item}{dede:item field='body' value='' isunit='1' isdown='1'}
   {dede:match}<!--文章塊開始-->[內容]<!--文章內分頁結束-->{/dede:match}
   {dede:trim replace=""}<div class="contentgg">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div align="center" style="padding-top:20px;">(.*)</div>{/dede:trim}
{dede:trim replace=""}<div class="page next-page">(.*)</div>{/dede:trim}
   {dede:function}{/dede:function}
{/dede:item}
{/dede:itemconfig}



收縮
  • 微信客服
  • 微信二維碼
  • 電話咨詢

  • 400-1100-266
主站蜘蛛池模板: 五常市| 黄浦区| 阿坝县| 南乐县| 襄汾县| 天津市| 宜州市| 寻乌县| 江达县| 定结县| 拉孜县| 丽江市| 苏尼特右旗| 无极县| 昌邑市| 都兰县| 建昌县| 利辛县| 禄劝| 阳高县| 巴林左旗| 图木舒克市| 玉田县| 鸡西市| 封开县| 乌恰县| 车险| 崇州市| 盐池县| 宜都市| 白玉县| 瑞安市| 航空| 新昌县| 洛南县| 乌拉特中旗| 安丘市| 扬州市| 义乌市| 密山市| 高淳县|