成人性生交大片免费看视频r_亚洲综合极品香蕉久久网_在线视频免费观看一区_亚洲精品亚洲人成人网在线播放_国产精品毛片av_久久久久国产精品www_亚洲国产一区二区三区在线播_日韩一区二区三区四区区区_亚洲精品国产无套在线观_国产免费www

主頁 > 知識庫 > asp.net c# 抓取頁面信息方法介紹

asp.net c# 抓取頁面信息方法介紹

熱門標(biāo)簽:東莞語音電銷機(jī)器人排名 蘇州銷售外呼系統(tǒng)預(yù)算 淘寶地圖標(biāo)注如何做 使用智能電話機(jī)器人違法嗎 太原外呼電銷機(jī)器人費(fèi)用 外呼系統(tǒng)用員工身份證 保山電話外呼管理系統(tǒng)怎么用 朝陽市地圖標(biāo)注 電話機(jī)器人廣告話術(shù)
一:網(wǎng)頁更新
我們知道,一般網(wǎng)頁中的信息是不斷翻新的,這也要求我們定期的去抓這些新信息,但是這個(gè)“定期”該怎么理解,也就是多長時(shí)間需要抓一次該頁面,其實(shí)這個(gè)定期也就是頁面緩存時(shí)間,在頁面的緩存時(shí)間內(nèi)我們再次抓取該網(wǎng)頁是沒有必要的,反而給人家服務(wù)器造成壓力。
就比如說我要抓取博客園首頁,首先清空頁面緩存,

從Last-Modified到Expires,我們可以看到,博客園的緩存時(shí)間是2分鐘,而且我還能看到當(dāng)前的服務(wù)器時(shí)間Date,如果我再次

刷新頁面的話,這里的Date將會變成下圖中 If-Modified-Since,然后發(fā)送給服務(wù)器,判斷瀏覽器的緩存有沒有過期?

最后服務(wù)器發(fā)現(xiàn)If-Modified-Since >= Last-Modifined的時(shí)間,服務(wù)器也就返回304了,不過發(fā)現(xiàn)這cookie信息真是賊多啊 。

在實(shí)際開發(fā)中,如果在知道網(wǎng)站緩存策略的情況下,我們可以讓爬蟲2min爬一次就好了,當(dāng)然這些都是可以由數(shù)據(jù)團(tuán)隊(duì)來配置維護(hù)了, 好了,下面我們用爬蟲模擬一下。
復(fù)制代碼 代碼如下:

using System;
using System.Net;

namespace ConsoleApplication2
{
public class Program
{
static void Main(string[] args)
{
DateTime prevDateTime = DateTime.MinValue;

for (int i = 0; i 10; i++)
{
try
{
var url = "http://cnblogs.com";

var request = (HttpWebRequest)HttpWebRequest.Create(url);

request.Method = "Head";

if (i > 0)
{
request.IfModifiedSince = prevDateTime;
}

request.Timeout = 3000;

var response = (HttpWebResponse)request.GetResponse();

var code = response.StatusCode;

//如果服務(wù)器返回狀態(tài)是200,則認(rèn)為網(wǎng)頁已更新,記得當(dāng)時(shí)的服務(wù)器時(shí)間
if (code == HttpStatusCode.OK)
{
prevDateTime = Convert.ToDateTime(response.Headers[HttpResponseHeader.Date]);
}

Console.WriteLine("當(dāng)前服務(wù)器的狀態(tài)碼:{0}", code);
}
catch (WebException ex)
{
if (ex.Response != null)
{
var code = (ex.Response as HttpWebResponse).StatusCode;

Console.WriteLine("當(dāng)前服務(wù)器的狀態(tài)碼:{0}", code);
}
}
}
}
}
}


二:網(wǎng)頁編碼的問題

有時(shí)候我們已經(jīng)抓取到網(wǎng)頁了,準(zhǔn)備去解析的時(shí)候,tmd的全部是亂碼,真是操蛋,比如下面這樣,


或許我們依稀的記得在html的meta中有一個(gè)叫做charset的屬性,里面記錄的就是編碼方式,還有一個(gè)要點(diǎn)就是response.CharacterSet這個(gè)屬性中同樣也記錄了編碼方式,下面我們再來試試看。

居然還是亂碼,蛋疼了,這次需要到官網(wǎng)上面去看一看,到底http頭信息里面都交互了些什么,憑什么瀏覽器能正常顯示,爬蟲爬過來的就不行。

查看了http頭信息,終于我們知道了,瀏覽器說我可以解析gzip,deflate,sdch這三種壓縮方式,服務(wù)器發(fā)送的是gzip壓縮,到這里我們也應(yīng)該知道了常用的web性能優(yōu)化。
復(fù)制代碼 代碼如下:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading;
using HtmlAgilityPack;
using System.Text.RegularExpressions;
using System.Net;
using System.IO;
using System.IO.Compression;

namespace ConsoleApplication2
{
public class Program
{
static void Main(string[] args)
{
//var currentUrl = "http://www.mm5mm.com/";

var currentUrl = "http://www.sohu.com/";

var request = WebRequest.Create(currentUrl) as HttpWebRequest;

var response = request.GetResponse() as HttpWebResponse;

var encode = string.Empty;

if (response.CharacterSet == "ISO-8859-1")
encode = "gb2312";
else
encode = response.CharacterSet;

Stream stream;

if (response.ContentEncoding.ToLower() == "gzip")
{
stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress);
}
else
{
stream = response.GetResponseStream();
}

var sr = new StreamReader(stream, Encoding.GetEncoding(encode));

var html = sr.ReadToEnd();
}
}
}


三:網(wǎng)頁解析

既然經(jīng)過千辛萬苦拿到了網(wǎng)頁,下一個(gè)就要解析了,當(dāng)然正則匹配是個(gè)好方法,畢竟工作量還是比較大的,可能業(yè)界也比較推崇 HtmlAgilityPack這個(gè)解析工具,能夠?qū)tml解析成XML,然后可以用XPath去提取指定的內(nèi)容,大大提高了開發(fā)速度,性能也不賴,畢竟Agility也就是敏捷的意思,關(guān)于XPath的內(nèi)容,大家看懂W3CSchool的這兩張圖就OK了。


復(fù)制代碼 代碼如下:

using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Threading;
using HtmlAgilityPack;
using System.Text.RegularExpressions;
using System.Net;
using System.IO;
using System.IO.Compression;

namespace ConsoleApplication2
{
public class Program
{
static void Main(string[] args)
{
//var currentUrl = "http://www.mm5mm.com/";

var currentUrl = "http://www.sohu.com/";

var request = WebRequest.Create(currentUrl) as HttpWebRequest;

var response = request.GetResponse() as HttpWebResponse;

var encode = string.Empty;

if (response.CharacterSet == "ISO-8859-1")
encode = "gb2312";
else
encode = response.CharacterSet;

Stream stream;

if (response.ContentEncoding.ToLower() == "gzip")
{
stream = new GZipStream(response.GetResponseStream(), CompressionMode.Decompress);
}
else
{
stream = response.GetResponseStream();
}

var sr = new StreamReader(stream, Encoding.GetEncoding(encode));

var html = sr.ReadToEnd();

sr.Close();

HtmlDocument document = new HtmlDocument();

document.LoadHtml(html);

//提取title
var title = document.DocumentNode.SelectSingleNode("http://title").InnerText;

//提取keywords
var keywords = document.DocumentNode.SelectSingleNode("http://meta[@name='Keywords']").Attributes["content"].Value;
}
}
}


好了,打完收工,睡覺。。。
您可能感興趣的文章:
  • C#多線程爬蟲抓取免費(fèi)代理IP的示例代碼
  • c# 抓取Web網(wǎng)頁數(shù)據(jù)分析
  • C# 抓取網(wǎng)頁內(nèi)容的方法
  • C# 實(shí)現(xiàn)抓取網(wǎng)站頁面內(nèi)容的實(shí)例方法
  • c# HttpWebRequest通過代理服務(wù)器抓取網(wǎng)頁內(nèi)容應(yīng)用介紹
  • C#實(shí)現(xiàn)通過程序自動抓取遠(yuǎn)程Web網(wǎng)頁信息的代碼
  • c#根據(jù)網(wǎng)址抓取網(wǎng)頁截屏生成圖片的示例
  • 基于C#實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲 C#抓取網(wǎng)頁Html源碼
  • C#實(shí)現(xiàn)抓取和分析網(wǎng)頁類實(shí)例
  • c#批量抓取免費(fèi)代理并且驗(yàn)證有效性的實(shí)戰(zhàn)教程

標(biāo)簽:綏化 運(yùn)城 呼倫貝爾 潛江 洛陽 克拉瑪依 阿里 西藏

巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《asp.net c# 抓取頁面信息方法介紹》,本文關(guān)鍵詞  asp.net,抓取,頁面,信息,方法,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時(shí)溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。
  • 相關(guān)文章
  • 下面列出與本文章《asp.net c# 抓取頁面信息方法介紹》相關(guān)的同類信息!
  • 本頁收集關(guān)于asp.net c# 抓取頁面信息方法介紹的相關(guān)信息資訊供網(wǎng)民參考!
  • 推薦文章
    亚洲另类图片色| 影音先锋在线中文| 在线黄色免费观看| 日本欧美视频在线观看| 疯狂欧洲av久久成人av电影| 日韩不卡手机在线v区| 欧美精品久久久久久| 欧美一区二区三区成人精品| 中文字幕免费在线看| 久久夜色精品| 亚洲xxx在线观看| www.桃色.com| 91麻豆国产自产在线观看| 欧美日韩免费看片| 三级在线观看网站| sese一区| 九九热国产在线| 性感少妇一区| 亚洲精品午夜久久久| 水蜜桃在线视频| 精品在线免费观看| 亚洲激精日韩激精欧美精品| 国产精品理论在线观看| 成人免费视频网站| 欧美美女视频| 久久6精品影院| 激情五月综合色婷婷一区二区| 欧美精品一区二区三区在线播放| 久久一二三区| 国产精品99久久不卡二区| 久久国产精品免费精品3p| 青草视频在线观看免费| 欧美亚洲日本一区| 91久久精品美女高潮| 99久久久无码国产精品免费| 久久一区亚洲| 欧美老女人在线视频| 你懂的在线观看视频| 一本久道久久久| 天天躁夜夜躁狠狠是什么心态| 久久久久免费看| 日本不卡一区在线| 国产亚洲一区二区精品| 日韩精品视频在线观看免费| 精品电影一区二区| 视频在线观看99| 亚洲啊v在线观看| 色妞一区二区三区| 欧美日韩亚洲精品内裤| 亚洲成人7777| 99久久精品国产麻豆演员表| 先锋影音av中文字幕| 成人福利在线| 国产区一区二区三| 欧美一区二区三区日韩视频| 久久久久久国产免费a片| 亚洲电影男人天堂| 国产亚洲精品日韩| 黄色漫画在线免费观看| 青草在线视频在线观看| 国产精品免费一区二区三区| www.男人天堂| 欧美人与牲动交xxxx| 久久精品国产成人精品| 国产视频一二| 亚洲高清资源综合久久精品| 亚洲在线观看一区| 国产精品1区| 天堂av中文在线资源库| 黄色网址免费看| 色吊丝av中文字幕| 四虎精品影院在线观看视频| 51国偷自产一区二区三区的来源| 91福利视频网| 2018狠狠干| 精品国产第一区二区三区观看体验| 老司机午夜免费福利视频| 黄av在线免费观看| 操她视频网站| 欧美日韩1区| 亚洲va国产日韩欧美精品色婷婷| 香港三日本8a三级少妇三级99| 日韩精品亚洲元码| 久久99热在线观看7| 欧美日韩国产丝袜另类| 国产女同性恋一区二区| p色视频免费在线观看| 色姑娘综合天天| 色天天久久综合婷婷女18| 精华区一区二区三区| www.97av| 国产黄色片在线播放| 欧美在线视频不卡| 99久久久无码国产精品免费蜜柚| 狠狠色一日本高清视频| 亚洲码欧美码一区二区三区| 香蕉视频免费在线播放| 精品黄色免费中文电影在线播放| 亚欧成人精品| 成人深夜视频在线观看| 性无码专区无码| 生活片a∨在线观看| 天天干天天舔| 91av在线视频观看| 欧美s码亚洲码精品m码| 黄色成人在线观看网站| 欧美成人直播| 国产一起色一起爱| 英国三级经典在线观看| 影音先锋久久资源网| 中文字幕一区二区三区在线乱码| 一区二区视频免费在线观看| 成人h动漫精品一区| 一本一道久久a久久综合精品| 黄色高清视频网站| jizz内谢中国亚洲jizz| 成人在线看片| 欧美少妇一区二区三区| 精品无码人妻少妇久久久久久| 午夜精品亚洲| 日本成人在线免费| 欧美性感一类影片在线播放| 欧美视频一区| 精品久久久久久国产91| 91国产精品91| 狠狠色狠狠色综合系列| 一本一道久久a久久精品综合| 亚洲伦理在线| 五月婷婷综合网| 丁香六月综合激情| 波多野结衣爱爱| 免费高清成人在线| 91精品视频一区二区| 欧美视频中文在线看| 亚洲第一在线播放| 天天爽夜夜爽一区二区三区| 一本色道久久88综合日韩精品| 中文成人激情娱乐网| 日韩一区二区三区免费看| 男人天堂va| 欧美人与动牲交xxxxbbbb| 欧美高清电影在线看| 激情图片在线观看高清国产| 三级在线观看一区二区| 亚洲精品国产suv一区| 91精品国产91久久久久久密臀| 538国产视频| 三级黄色片在线观看| 亚洲va欧美va国产va天堂影院| 精品人妻无码一区二区三区换脸| 国产精品视频一区二区三区麻豆| 午夜欧美不卡精品aaaaa| 孩xxxx性bbbb欧美| 免费看毛片网站| 国产精品自拍电影| 色欲人妻综合网| 国产丝袜在线| 精品一区二区三区欧美| 99视频精品全部免费在线视频| xxxx18hd亚洲hd捆绑| av成人观看| 小草在线视频免费播放| 亚洲自拍偷拍视频| 亚洲精品一卡二卡| 亚洲自拍另类欧美丝袜| 亚洲一级特黄| 一区二区三区韩国免费中文网站| 国产高清不卡无码视频| 久久久久久夜精品精品免费| 亚洲高潮女人毛茸茸| 无码人妻av一区二区三区波多野| 国产亚洲无码精品| 夜夜嗨av禁果av粉嫩avhd| 亚洲精品男人天堂| 日韩一区二区福利| 亚洲福利合集| 日韩欧美中文免费| 乱中年女人伦av一区二区| 日本精品免费一区二区三区| 性久久久久久久| 亚洲色图自拍偷拍美腿丝袜制服诱惑麻豆| 国产中文av在线| 欧美电影免费观看高清完整| 中文字幕 91| 久久久久久久久久久国产| 国产欧美日本一区视频| 精品国产中文字幕第一页| 国产精品自拍区| 有码在线播放| 国产精欧美一区二区三区| 91成人国产在线观看| 亚洲视频在线免费播放| 亚洲国产清纯| 精品久久人人做人人爰| 久久久久99精品成人片三人毛片| 色综合综合网| 九九九精品视频| av久久网站| 久久这里精品| 国产精品一区二区免费不卡| 日韩av在线电影| 欧美sm视频| 国产69精品久久久久久久久久| 成人av无码一区二区三区| 亚洲欧美精品一区二区三区| 国产黄色片中文字幕| 亚洲精品视频在线| 日韩美女中文字幕| 91久久精品www人人做人人爽| 成人xvideos免费视频| 国产老熟女伦老熟妇露脸| 99热精品在线观看| 国产在线高清理伦片a| 在线视频网站| 久久精品香蕉视频| xxx免费视频观看| 99这里都是精品| 亚洲自啪免费| 成视频年人免费看黄网站| 午夜国产福利视频| 日本丰满少妇裸体自慰| 久久亚洲国产中v天仙www| 色播色播色播色播色播在线| 国产91精品一区| 欧美色123| 国产成人无码精品亚洲| 樱花草www在线| seseavlu视频在线| 久久久久黄色| 国产精品99一区二区三| 欧美在线一区二区| 68精品国产免费久久久久久婷婷| 3344国产精品免费看| 三上悠亚亚洲一区| 日日躁夜夜躁人人揉av五月天| 一级黄色片在线免费观看| 欧美1区二区三区公司| 精品999网站| 国产综合香蕉五月婷在线| 中文字幕亚洲专区| 精品国产精品一区二区夜夜嗨| eeuss影院18www免费| 中文av字幕| 日本福利视频网站| 亚洲视频成人| 久久女同精品一区二区| 国产精品少妇在线视频| 免费成人小视频| 中文字幕av手机在线| 欧美在线免费| 国产视频视频一区| 国产精品一区二区久激情瑜伽| 69xxxx欧美| 中文在线有码| 国语对白做受69按摩| 无国产精品白浆免费视| 男人先锋资源| 精品国产乱码久久久久久图片| jizz日本在线播放| 亚洲女与黑人做爰| 色综合色综合网色综合| 成人三级av| 免费在线黄色影片| 国产亚洲欧美在线精品| 99国产精品无码| 中文字幕色婷婷在线视频| 亚洲精品国产品国语在线| 深夜国产在线播放| 国产日本在线视频| 欧美日本一区二区三区四区| 不卡的av中文字幕| 日本三日本三级少妇三级66| 亚洲va久久久噜噜噜久久天堂| 欧美国产日韩亚洲一区| 中文字幕一区二区三区有限公司| www.激情五月.com| 日本电影亚洲天堂一区| 亚洲aaa级| 国产乱淫av片杨贵妃| 亚洲国产另类精品专区| 久久精品男人天堂av| 久久91导航| 精品国产一区二区三区久久| 91干在线观看| 在线观看亚洲成人| 亚洲精品国产一区二| 久久久久久福利| 日本中文字幕高清| 日韩a级作爱片一二三区免费观看| 黑人操日本美女| 日韩精品久久久久久| 亚洲激情国产精品| 韩国av免费在线| bl视频在线免费观看| 欧美裸体男粗大视频在线观看| 亚洲女女做受ⅹxx高潮| 天天干天天操天天爱| 国产主播喷水一区二区| 亚洲综合中文| 九九色在线观看| 欧美激情精品久久久久久小说| 国产精品一区视频网站| 日韩视频在线观看免费视频| 九色91popny| 不卡的电视剧免费网站有什么| 精品国产乱码久久久久久1区2区| 国产原创精品视频| 国产日韩欧美中文在线播放| 91传媒视频在线播放| 精品在线一区| 成人午夜亚洲| 97在线免费公开视频| 在线国产情侣| 色久优优欧美色久优优| 久久精品国产成人一区二区三区| 可以在线观看的黄色网址| 国产精品亚洲二区| 国产欧美不卡| 五月天激情开心网| 蜜臀久久99精品久久久久宅男| 美女精品视频| 91福利在线免费| 你懂的网站在线观看| 91精品国产色综合久久不卡98口| 亚洲精品成人久久| 中文字幕99页| 亚洲一级在线播放| 一区二区三区四区激情|