婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av

主頁 > 知識庫 > c# 正則表達式對網頁進行有效內容抽取

c# 正則表達式對網頁進行有效內容抽取

熱門標簽:RO地圖標注app 高德地圖標注短信簽約 自制電銷機器人 湖南企業智能外呼系統供應商 福州工作銷售電話機器人 電銷機器人公司簡介 百音電話機器人 知名的電話機器人 錫林郭勒盟地圖標注位置
搜索引擎中一個比較重要的環節就是從網頁中抽取出有效內容。簡單來說,就是吧HTML文本中的HTML標記去掉,留下我們用IE等瀏覽器打開HTML文檔看到的部分(我們這里不考慮圖片).
將HTML文本中的標記分為:注釋,script ,style,以及其他標記分別去掉:
1.去注釋,正則為:
output = Regex.Replace(input, @"!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase);
2.去script,正則為:
ouput = Regex.Replace(input, @"script[^>]*?>.*?/script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
output2 = Regex.Replace(ouput , @"noscript[^>]*?>.*?/noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
3.去style,正則為:
output = Regex.Replace(input, @"style[^>]*?>.*?/style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
4.去其他HTML標記
result = result.Replace("nbsp;", " ");
result = result.Replace("quot;", "\"");
result = result.Replace("lt;", "");
result = result.Replace("gt;", ">");
result = result.Replace("amp", "");
result = result.Replace("br>", "\r\n");
result = Regex.Replace(result, @"[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase);
以上的代碼中大家可以看到,我使用了RegexOptions.Singleline參數,這個參數很重要,他主要是為了讓"."(小圓點)可以匹配換行符.如果沒有這個參數,大多數情況下,用上面列正則表達式來消除網頁HTML標記是無效的.
HTML發展至今,語法已經相當復雜,上面只列出了幾種最主要的標記,更多的去HTML標記的正則我將在
Rost WebSpider 的開發過程中補充進來。
下面用c#實現了一個從HTML字符串中提取有效內容的類:
using System;
using System.Collections.Generic;
using System.Text;
using System.Text.RegularExpressions;
class HtmlExtract
{
#region private attributes
private string _strHtml;
#endregion
#region public mehtods
public HtmlExtract(string inStrHtml)
{
_strHtml = inStrHtml
}
public override string ExtractText()
{
string result = _strHtml;
result = RemoveComment(result);
result = RemoveScript(result);
result = RemoveStyle(result);
result = RemoveTags(result);
return result.Trim();
}
#endregion
#region private methods
private string RemoveComment(string input)
{
string result = input;
//remove comment
result = Regex.Replace(result, @"!--[^-]*-->", string.Empty, RegexOptions.IgnoreCase);
return result;
}
private string RemoveStyle(string input)
{
string result = input;
//remove all styles
result = Regex.Replace(result, @"style[^>]*?>.*?/style>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
return result;
}
private string RemoveScript(string input)
{
string result = input;
result = Regex.Replace(result, @"script[^>]*?>.*?/script>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
result = Regex.Replace(result, @"noscript[^>]*?>.*?/noscript>", string.Empty, RegexOptions.IgnoreCase | RegexOptions.Singleline);
return result;
}
private string RemoveTags(string input)
{
string result = input;
result = result.Replace("nbsp;", " ");
result = result.Replace("quot;", "\"");
result = result.Replace("lt;", "");
result = result.Replace("gt;", ">");
result = result.Replace("amp", "");
result = result.Replace("br>", "\r\n");
result = Regex.Replace(result, @"[\s\S]*?>", string.Empty, RegexOptions.IgnoreCase);
return result;
}
#endregion
您可能感興趣的文章:
  • 使用C# Winform應用程序獲取網頁源文件的解決方法
  • C#基于正則表達式實現獲取網頁中所有信息的網頁抓取類實例
  • 使用C#正則表達式獲取必應每日圖片地址
  • C#正則表達式獲取下拉菜單(select)的相關屬性值
  • C#使用正則表達式抓取網站信息示例
  • C#通過正則表達式實現提取網頁中的圖片
  • 常用正則 常用的C#正則表達式
  • C#的正則表達式Regex類使用簡明教程
  • C# 正則表達式經典分類整理集合手冊
  • C#中的正則表達式 學習資料
  • WinForm使用正則表達式提取內容的方法示例

標簽:秦皇島 茂名 怒江 西寧 玉林 昆明 河北 吉林

巨人網絡通訊聲明:本文標題《c# 正則表達式對網頁進行有效內容抽取》,本文關鍵詞  正則,表達式,對,網頁,進行,;如發現本文內容存在版權問題,煩請提供相關信息告之我們,我們將及時溝通與處理。本站內容系統采集于網絡,涉及言論、版權與本站無關。
  • 相關文章
  • 下面列出與本文章《c# 正則表達式對網頁進行有效內容抽取》相關的同類信息!
  • 本頁收集關于c# 正則表達式對網頁進行有效內容抽取的相關信息資訊供網民參考!
  • 推薦文章
    婷婷综合国产,91蜜桃婷婷狠狠久久综合9色 ,九九九九九精品,国产综合av
    亚洲一区免费观看| 久久一日本道色综合| 狠狠色狠狠色综合| 欧美日韩国产成人在线免费| 亚洲最色的网站| 日日摸夜夜添夜夜添亚洲女人| 天天影视色香欲综合网老头| 欧美四级电影网| 国产精品污www在线观看| 国产高清一区日本| 欧美精品一区二区三区蜜桃| 国产偷国产偷精品高清尤物| 亚洲精品免费在线| 成人在线视频首页| 一区在线播放视频| 色综合一个色综合亚洲| 亚洲一区二区三区四区中文字幕| 99国产麻豆精品| 亚洲精选在线视频| 午夜私人影院久久久久| 欧美日本一道本| 欧美一级免费观看| 91精品国产综合久久久久| 欧美一级高清片| 欧美人伦禁忌dvd放荡欲情| 欧美图片一区二区三区| 国产福利不卡视频| 国产精品久久久久影院亚瑟 | 精品国产a毛片| 欧美军同video69gay| 日本不卡一区二区三区高清视频| 亚洲精品一线二线三线| 久久精品久久精品| 亚洲国产高清在线| 这里只有精品电影| 欧美中文字幕久久| 日韩在线观看一区二区| 在线精品视频小说1| 中文字幕一区二区三区视频| 韩国女主播成人在线| 717成人午夜免费福利电影| 大胆亚洲人体视频| 免费在线看成人av| 最新中文字幕一区二区三区 | 91精品国产福利| 一本久久综合亚洲鲁鲁五月天| 国产激情一区二区三区| 欧美一级精品在线| 国产日韩欧美激情| 日本不卡中文字幕| 91小视频免费观看| 日韩一区二区三区四区| 国产精品久久久久久久久久免费看| 亚洲一区二区三区不卡国产欧美| 国产亚洲一区二区在线观看| 91原创在线视频| 激情丁香综合五月| 麻豆精品新av中文字幕| 欧美bbbbb| 青青草97国产精品免费观看 | 天天亚洲美女在线视频| 亚洲裸体xxx| 亚洲人一二三区| 亚洲欧美日韩一区二区三区在线观看| 亚洲另类在线视频| 亚洲午夜久久久久中文字幕久| 亚洲高清不卡在线观看| 免费高清在线一区| 国产乱码精品一品二品| av中文字幕在线不卡| 欧美在线视频全部完| 5858s免费视频成人| 久久综合九色综合欧美98| 日本一区二区综合亚洲| 一个色妞综合视频在线观看| 日韩影院在线观看| 精品视频全国免费看| 一区二区欧美精品| 亚洲一区二区三区小说| 美女看a上一区| 粉嫩绯色av一区二区在线观看| av亚洲精华国产精华精华| 欧美性大战久久久久久久| 制服丝袜亚洲网站| 国产女同互慰高潮91漫画| 亚洲永久精品大片| 精品一区二区三区免费| 一本色道久久综合狠狠躁的推荐| 欧美丝袜丝交足nylons| 久久久av毛片精品| 一区二区三区国产精华| 久久精品99国产精品| 92精品国产成人观看免费| 69堂国产成人免费视频| 欧美国产视频在线| 丝袜国产日韩另类美女| 成人免费视频视频| 在线不卡中文字幕| 日韩毛片一二三区| 久久国产精品99精品国产| 成人av电影观看| 91精品国产色综合久久| 日韩伦理免费电影| 久久99久久99精品免视看婷婷| 99精品欧美一区二区三区小说| 日韩欧美一级二级三级久久久 | 18欧美亚洲精品| 美女视频黄久久| 在线免费亚洲电影| 欧美韩日一区二区三区四区| 另类小说欧美激情| 91国内精品野花午夜精品| 国产丝袜在线精品| 美女网站一区二区| 欧美天堂一区二区三区| 亚洲视频免费看| 国产91精品一区二区麻豆亚洲| 日韩欧美一级精品久久| 天天综合日日夜夜精品| 色国产精品一区在线观看| 国产精品麻豆一区二区| 国产精品99久久久久久久女警| 日韩一区二区在线观看视频播放| 亚洲一区二区免费视频| 91一区在线观看| 国产精品久久久久久久浪潮网站| 国产综合一区二区| 日韩精品一区二区三区四区 | 成人一区二区三区| 久久老女人爱爱| 国模一区二区三区白浆| 日韩欧美激情一区| 另类小说色综合网站| 日韩亚洲欧美在线| 免费成人在线播放| 日韩一级在线观看| 美女视频黄频大全不卡视频在线播放 | 亚洲欧美一区二区视频| 国产一区二区三区电影在线观看| 精品国产一区二区三区不卡| 另类的小说在线视频另类成人小视频在线| 3751色影院一区二区三区| 视频一区国产视频| 欧美一区二区三区在线观看 | 日韩电影免费在线看| 欧美喷水一区二区| 日本不卡视频在线观看| 日韩免费看的电影| 精品一区二区三区欧美| 久久久国产精品午夜一区ai换脸| 国产成都精品91一区二区三| 欧美高清在线一区| 波多野结衣一区二区三区| 亚洲男女一区二区三区| 欧洲一区在线电影| 丝袜亚洲另类欧美| 欧美v国产在线一区二区三区| 韩国中文字幕2020精品| 日本一区二区三区久久久久久久久不| 国产精品456露脸| 日韩一区中文字幕| 91福利国产精品| 免费高清成人在线| 久久精品亚洲国产奇米99| 成人av中文字幕| 亚洲一区在线看| 麻豆91精品视频| 从欧美一区二区三区| 精品日韩一区二区三区| 亚洲精品免费在线| 日本成人在线电影网| 天堂久久久久va久久久久| 日韩国产欧美在线播放| 久久国产精品色婷婷| 波多野结衣91| 97久久精品人人爽人人爽蜜臀| 麻豆精品久久久| 国产成人在线视频播放| 在线日韩av片| 欧美一区二区私人影院日本| 日韩一区二区精品| 欧美大白屁股肥臀xxxxxx| 中文字幕在线免费不卡| 一区二区三区四区蜜桃| 国产精品久久影院| 日韩高清不卡一区| 久久99久久99| 欧美伊人久久大香线蕉综合69| 日韩免费高清电影| 日韩激情中文字幕| 777色狠狠一区二区三区| 亚洲综合免费观看高清完整版在线| 国产一区二区福利| 欧美精品一区二区精品网| 午夜欧美一区二区三区在线播放| 色综合久久久网| 夜夜嗨av一区二区三区网页| 91社区在线播放| 亚洲男人天堂av| 欧美一区二区三区电影|