婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > PHP寫微信公眾號文章頁采集方法

PHP寫微信公眾號文章頁采集方法

熱門標簽:商丘外呼系統好處 百度地圖標注類型是酒店 400電話申請辦理 隨州銷售電銷機器人公司 網絡電話400申請 全國各省地圖標注點 周口網絡回撥外呼系統 外呼系統人工客服 福建高頻外呼防封系統哪家好

通過搜狗搜索采集公眾號歷史消息有幾個問題:

1、有驗證碼;

2、歷史消息列表只有最近10條群發內容;

3、文章地址是有有效期的;

4、據說批量采集還要換ip;

通過我前面文章的方法就沒有這些問題,雖然采集系統搭建不如傳統采集器寫個規則去爬就可以了那么簡單。但是一次搭建好之后批量采集的效率還是可以的。而且采集的文章地址是永久有效的,并且可以采集到一個公眾號所有的歷史消息。
我們還是從一個公眾號文章的鏈接地址開始看:

1、從微信右上角菜單復制到的鏈接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、歷史消息列表中獲取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==mid=2695729619idx=1sn=8be0b6bd0210cee0d492ebdf20f7371fchksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85scene=4#wechat_redirect

3、完整的真實地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==mid=2695729619idx=1sn=8be0b6bd0210cee0d492ebdf20f7371fchksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85scene=37key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400ascene=3uin=MzUyOTIyNQ%3D%3Ddevicetype=iOS10.1.1version=16050120nettype=WIFIfontScale=100pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3Dwx_header=1

以上這3個地址是同一篇文章的地址,在不同位置獲取到就得到了完全不同的3個結果。

和歷史消息頁一樣,微信有一套自動補充參數的機制。第一個地址是復制鏈接得到的,看起來是一個偽裝的編碼。其實沒什么用我們不做考慮了。第二個地址是通過前面文章介紹的方法,從歷史消息的json文章列表中獲得到的鏈接地址,我們就是可以將這個地址保存到數據庫中。之后就可以通過這個地址從服務器獲取到文章內容。而第三個鏈接補充了參數之后,目的是為了讓文章頁面中的閱讀量js可以獲取到閱讀量點贊量的json結果而加上的參數。我們前面文章的方法中因為文章頁面被客戶端打開顯示了出來,因為有了這些參數,文章頁面中的js就去自動獲取閱讀量了,所以我們才能通過代理服務獲取到這篇文章的閱讀量。

這篇文章的內容就是以通過本專欄前面文章介紹的方法已經獲取到了大量微信文章的基礎上,詳細研究如何獲取到文章內容和其它一些有用的信息的方法。

(我的數據庫中保存的文章列表,一部分字段)

1、獲取文章源代碼:

通過php的函數file_get_content()就可以將文章源代碼讀取到變量中。微信文章的源代碼因為可以從瀏覽器中打開所以我就不在這里粘貼了,以免浪費頁面空間。

?
//$content_url 變量的值為文章地址
$html = file_get_contents($content_url);
?>

2、源代碼中有用的信息:

1)原文內容:

原文內容是包含在一個div id='js_content'>/div>標簽中的,通過php代碼獲取:

?
preg_match_all("/id=\"js_content\">(.*)script/iUs",$html,$content,PREG_PATTERN_ORDER);
$content = "div id='js_content'>".$content[1][0];
?>

正則的開頭識別div id='js_content'>,結尾識別script/iUs,匹配到之后前面再補充一個div id='js_content'>;我的正則匹配水平有限,只能寫成這樣的了。希望有高人能指點更好的正則匹配方法。

另外注意:這個匹配規則會可能在一段時間之后有變化。這篇文章會盡量保持更新。如果你根據我的文章制作了采集系統之后,當某一天失效了,別忘了回來再看看文章是否有更新。

2)內容處理:

通過上面的方法我們獲得了文章內容的html,但是你將文章內容顯示出來之后就會發現,圖片和視頻不能正常顯示。因為這個html還需要一些加工:

首先是圖片,微信文章中的img>標簽中的src屬性全部都用了data-src屬性代替。只有在顯示的時候才會被替換過來。所以我們也有兩個方案,將源代碼直接替換過來,或者用js在顯示時候再替換。下面我先介紹直接替換html的方法:

?
//$content變量的值是前面獲取到的文章內容html
$content = str_replace("data-src","src",$content);
?>

然后是視頻,視頻的顯示不正常,經過長期測試后發現只要替換一個頁面地址就能解決,過程就不說了,直接說結果:

?
//$content變量的值是前面獲取到的文章內容html
$content = str_replace("preview.html","player.html",$content);
?>

通過這兩個替換之后,文章內容html中的圖片和視頻就都正常了。

3) 公眾號相關信息:

通過本專欄之前的文章,介紹了我們使用微信客戶端,任意打開一個公眾號的歷史消息頁之后。系統從數據庫中識別biz的值,發現數據庫中沒有記錄,就會插入一條新的紀錄。之后的采集隊列就會定期根據這個biz來獲取這個公眾號的歷史消息列表。

但是我們只獲得了這個公眾號的biz,公眾號的名稱,頭像這兩個重要信息還是沒有獲取到。主要原因是歷史消息頁面中沒有這兩個信息。但是我們可以從文章頁面中獲取到。

在微信文章頁面html的底部,有一些js的變量賦值的代碼,通過正則匹配之后我們就可以獲得這兩個公眾號的信息:

?
//$html變量的值是前面獲取到的文章全部html
preg_match_all('/var nickname = \"(.*?)\";/si',$html,$m);
$nickname = $m[1][0];//公眾號昵稱
preg_match_all('/var round_head_img = \"(.*?)\";/si',$html,$m);
$head_img = $m[1][0];//公眾號頭像
?>

通過這兩個正則匹配,我們就能獲取到公眾號的頭像和昵稱,然后根據文章地址中的biz,可以保存到對應的微信號數據表中。

3、文章的保存和處理

前面的代碼已經將文章內容獲取到變量中了。如何保存其實每個人也許都有自己的想法。我這里介紹一下我的保存內容的方法:

將文章內容的html以數據庫id為文件名保存成html文件,以biz字段為目錄。

?
$dir = "./".$biz."/";
$filename = $dir.$id.".html";
if(!is_dir($dir)) {
  mkdir($cache_dir);
  chmod($cache_dir,0777);
}
$file = fopen($filename, "w");
fwrite($file, $content);
fclose($file);
?>

以上代碼是一個標準的php建立文件夾保存文件的代碼,大家可以根據自己的實際情況安排保存方法。

在這之后我們就可以在自己的服務器上得到一個html文件,內容就是公眾號的文章內容。我們可以從瀏覽器中打開看一下。這時你也許會發現圖片防盜鏈了!無法正常顯示!包括數據庫中保存的文章封面圖,公眾號的頭像都是防盜鏈的。

別急,這個問題很好解決,只需要將圖片也保存到自己的服務器,無非是將來會占用自己的服務器空間和帶寬。

圖片防盜鏈的原理是當圖片在網頁中顯示的時候,圖片服務器會檢測到引用這張圖片的服務器域名,當發現服務器域名不包含http://qq.com或http://qpic.cn的時候就會被替換成防盜鏈圖片。

但是如果檢測不到引用頁面的域名就會正常顯示,所以我們通過php的函數file_get_content()就可以將圖片的二進制代碼獲取過來,然后根據自己的想法起個文件名保存到自己的服務器上。在這里再介紹一個保存圖片的方法,我目前使用了騰訊云的“萬象優圖”,通過它們提供的api將圖片保存到云空間,這樣的好處是讀取圖片時直接在圖片的鏈接地址加上希望得到的圖片尺寸大小參數,就可以直接得到一張縮略圖。比存在自己的服務器方便得多。阿里云也應該有同樣的產品,好像名叫對象存儲。

另外,我采集公眾號內容的目的是制作成一個新聞app,在app中將html代碼顯示出來之后,因為app同樣沒有域名,防盜鏈服務器也同樣不會認為圖片被盜鏈了。這樣就可以直接顯示圖片出來。

以上就是我總結的公眾號文章內容的采集與存儲方法,希望能夠幫到你。

標簽:佛山 迪慶 海南 南寧 十堰 六安 定西 樂山

巨人網絡通訊聲明:本文標題《PHP寫微信公眾號文章頁采集方法》,本文關鍵詞  PHP,寫微,信,公眾,號,文章,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《PHP寫微信公眾號文章頁采集方法》相關的同類信息!
  • 本頁收集關于PHP寫微信公眾號文章頁采集方法的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    色综合视频在线观看| 国产精品毛片a∨一区二区三区 | 日韩一级片网址| 亚洲精品久久嫩草网站秘色| 成人性视频免费网站| 欧美日韩成人一区二区| 日韩国产欧美在线视频| 一区二区三区四区蜜桃| 成人一区二区三区中文字幕| 日韩午夜激情电影| 精品一区二区三区蜜桃| 欧美一区二区二区| 极品少妇xxxx偷拍精品少妇| 欧美精品在线观看播放| 日韩国产欧美三级| 日韩免费在线观看| 东方aⅴ免费观看久久av| 国产欧美精品一区aⅴ影院| 国产馆精品极品| 亚洲欧美电影一区二区| 777欧美精品| 成人av网址在线| 日本麻豆一区二区三区视频| 欧美va在线播放| 91在线视频在线| 毛片av一区二区| 亚洲婷婷综合久久一本伊一区 | 中文字幕一区二区在线观看| 成人a区在线观看| 麻豆91精品视频| 国产精品久久久久久久裸模| 欧美三级日本三级少妇99| 麻豆国产精品官网| 亚洲成人www| 国产精品亲子伦对白| 日韩一级片网址| 日韩三区在线观看| 国产精品一区二区黑丝| 成人不卡免费av| 5566中文字幕一区二区电影| 欧美一区二区三区四区视频| 欧美裸体一区二区三区| 精品国产91亚洲一区二区三区婷婷| 国产日产精品一区| 亚洲午夜视频在线| 成人激情黄色小说| 欧美一二三四区在线| 亚洲欧美在线aaa| 韩国在线一区二区| 欧美日韩黄色影视| 日韩电影免费一区| 91免费看片在线观看| 中文字幕第一区综合| 欧美精品一区二区精品网| 欧美成人性福生活免费看| 久久久高清一区二区三区| 国产亚洲综合性久久久影院| 欧美精品99久久久**| 欧美日韩国产一区| 91麻豆精品国产91久久久资源速度 | 国产精品美女久久久久aⅴ国产馆| 国产精品久久久久久久午夜片| 欧美日韩一区视频| 91精品国产aⅴ一区二区| 久久女同互慰一区二区三区| 一区精品在线播放| 国产乱码精品一区二区三区五月婷 | 蜜臀国产一区二区三区在线播放| 欧美日韩精品一区视频| 欧美日韩久久久| 99久久久久久99| 国产日本一区二区| 欧美综合亚洲图片综合区| 亚洲一区二区三区不卡国产欧美 | 六月丁香综合在线视频| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 国产精品嫩草影院com| 久久免费美女视频| 精品国产亚洲一区二区三区在线观看 | 亚洲精品一二三四区| 亚洲国产精品成人久久综合一区| 亚洲成人综合网站| 免费观看在线综合| 欧美午夜理伦三级在线观看| 精品欧美一区二区在线观看| 亚洲午夜私人影院| 91视频国产观看| 久久一二三国产| 久久精品国产**网站演员| 99久久er热在这里只有精品15| 久久久精品蜜桃| 国产高清不卡二三区| 欧美精品九九99久久| 亚洲va天堂va国产va久| 欧美亚日韩国产aⅴ精品中极品| 亚洲激情在线激情| 色天使久久综合网天天| 亚洲永久精品国产| 欧美一区二区三区白人| 国产一区二区三区日韩| 欧美激情在线观看视频免费| 国产夫妻精品视频| 国产精品美女久久久久久久| 99re在线精品| 美女视频网站黄色亚洲| 国产欧美一区二区三区在线看蜜臀| 成人综合在线观看| 亚洲成人777| 中文无字幕一区二区三区| 99riav久久精品riav| 91在线porny国产在线看| 成人欧美一区二区三区小说| 欧美日韩一区二区三区在线看| 久久99久久99| 日韩高清不卡在线| 国产三级一区二区三区| 欧洲亚洲精品在线| 国产在线一区二区| 亚洲免费在线播放| 欧美xxxx老人做受| 日本免费新一区视频| 亚洲国产激情av| 欧美日韩一级黄| 国产成人av影院| 天堂影院一区二区| 夜夜精品视频一区二区| 精品999在线播放| 91蜜桃婷婷狠狠久久综合9色| 麻豆精品视频在线观看免费| 亚洲午夜久久久久久久久久久| 中文字幕一区二区三| 国产91富婆露脸刺激对白| 国内精品伊人久久久久av影院| 亚洲国产日韩一区二区| 亚洲精选视频免费看| 亚洲欧美激情小说另类| 久久人人超碰精品| 欧美一二三在线| 日韩欧美第一区| 精品精品欲导航| 中文字幕高清不卡| 一区二区欧美在线观看| 丝袜美腿亚洲一区二区图片| 偷窥少妇高潮呻吟av久久免费| 51精品国自产在线| 2021国产精品久久精品| 精品女同一区二区| 日本一区二区成人| 日韩理论片在线| 亚洲超碰精品一区二区| 天天av天天翘天天综合网色鬼国产| 亚洲最新在线观看| 污片在线观看一区二区| 日本不卡免费在线视频| 成人av片在线观看| 99riav久久精品riav| 欧美日韩国产大片| 国产欧美精品一区aⅴ影院| 免费在线观看一区二区三区| 国产精品一区二区视频| 色天使久久综合网天天| 日韩一区和二区| 国产精品久久久久久久久搜平片| **欧美大码日韩| 国产高清不卡一区二区| 91香蕉视频污在线| 久久午夜电影网| 亚洲1区2区3区视频| 欧洲人成人精品| 国产精品欧美综合在线| 国产乱人伦偷精品视频免下载| 日韩一区二区高清| 日韩高清不卡在线| 日韩午夜av一区| 日韩国产欧美一区二区三区| 色成人在线视频| 亚洲免费在线观看| 在线亚洲一区二区| 亚洲精品免费视频| 欧美日本一区二区| 日韩中文字幕一区二区三区| 91精品在线免费| 激情综合网最新| 久久亚洲精品国产精品紫薇| 成人综合在线观看| 亚洲人吸女人奶水| 欧美亚州韩日在线看免费版国语版| 国产精品人成在线观看免费| 91年精品国产| 奇米综合一区二区三区精品视频 | 精品视频免费在线| 午夜免费久久看| 欧美精品一区二区久久久| 国产二区国产一区在线观看| 国产精品乱子久久久久| 精品婷婷伊人一区三区三| 久久不见久久见免费视频1| 日本一区二区三区dvd视频在线| 色婷婷久久综合| 国产一区二区毛片|