POST TIME:2018-12-03 17:42
網(wǎng)站建設(shè)初期,頁(yè)面數(shù)量有限,團(tuán)隊(duì)人數(shù)有限,網(wǎng)站各類(lèi)頁(yè)面元素變動(dòng)不大。但到了網(wǎng)站建設(shè)中期,網(wǎng)站需求方需求變多,網(wǎng)站更改比擬于之前更加頻繁,XX部門(mén)提的XX需求可能會(huì)影響SEO流量,若未及時(shí)發(fā)現(xiàn),時(shí)間拉長(zhǎng),可能造成較為嚴(yán)重,甚至不成逆轉(zhuǎn)的后果。這個(gè)鍋,誰(shuí)來(lái)背呢? 這點(diǎn)可以通過(guò)完善需求上線流程來(lái)解決一部分,好比:任何涉及頁(yè)面變動(dòng)的需求(新增頁(yè)面 & 已有頁(yè)面元素更改)在提交RD前,需求評(píng)審階段均需要SEO部門(mén)介入,確認(rèn)該需求對(duì)SEO渠道的用戶(hù)拉新無(wú)影響后,在正式提交RD。 尷尬的是,有相當(dāng)比例的公司,SEO因?yàn)闅v史效果種種不成控,或者 SEO并非用戶(hù)拉新的主要渠道,SEO較難搞定在PM和RD面前話(huà)語(yǔ)權(quán)的問(wèn)題,他們可能不怎么care,老忘記評(píng)審的時(shí)候叫上SEO一起玩耍。這種情況需要具有八卦特征的SEO,沒(méi)事跟RD、PM扯扯皮,問(wèn)問(wèn)比來(lái)上了什么新需求… 但是,即便在流程上能夠搞定,也是會(huì)出現(xiàn)頁(yè)面元素的改動(dòng),卻未及時(shí)通知到SEO的情況,好比新入職的產(chǎn)品提需求,不知道有這個(gè)流程。 此外,由于SEO部門(mén)人事變動(dòng),出現(xiàn)老員工離職、新員工入職的情況。新入職的SEO不能快速了解網(wǎng)站歷史配景,老員工與新員工交接,很多細(xì)節(jié)會(huì)遺漏,導(dǎo)致新入職的SEO,日后會(huì)踩到本可制止的一些坑。 一些基層SEO針對(duì)爬蟲(chóng)日志,也沒(méi)有足夠的分析能力,或者需要每天手動(dòng)拿軟件或shell等分析一次數(shù)據(jù),然后在執(zhí)行的SEO動(dòng)作,操作復(fù)雜且效率低下。 為解決以上兩點(diǎn)問(wèn)題,需要有一套“及時(shí)止損機(jī)制”,用于及時(shí)發(fā)現(xiàn)潛在風(fēng)險(xiǎn),并提高日常SEO效率。 “及時(shí)止損機(jī)制”,需要人工設(shè)定N個(gè)會(huì)影響SEO的特征,程序24小時(shí)監(jiān)控這些特征,如出現(xiàn)符合特征的元素,則及時(shí)通知SEO,并提示相應(yīng)建議,程序每次檢查都做一次數(shù)據(jù)備份。并按照網(wǎng)站發(fā)展情況,不停添加、刪除監(jiān)控特征。 我把“及時(shí)止損機(jī)制”分為兩部分:“爬蟲(chóng)日志監(jiān)控”和“頁(yè)面特征監(jiān)控” 爬蟲(chóng)日志監(jiān)控
上圖為“爬蟲(chóng)日志監(jiān)控模塊”的邏輯,分“檢查字段”、“觸發(fā)條件”、“執(zhí)行動(dòng)作”三個(gè)步驟。以下是幾點(diǎn)可能需要說(shuō)明的:
爬蟲(chóng)IP的黑白名單
按照UA為baiduspider的爬蟲(chóng),檢測(cè)IP是否為真實(shí)的Baiduspider,若為假spider,則加入黑名單,若為真spider,,則加入baiduspider的白名單。
其他主流搜索引擎,則將出現(xiàn)的ip統(tǒng)統(tǒng)加到對(duì)應(yīng)的白名單,后期按照ip段進(jìn)行排除。
收集白名單IP,可作為日后SEO之用,好比某個(gè)SEO的小需求產(chǎn)品不讓上,SEO退而求其次,只針對(duì)白名單的IP顯示該元素,對(duì)正常用戶(hù)拜候不顯示等。
提前整理站內(nèi)已知頁(yè)面
提前統(tǒng)計(jì)站內(nèi)所有URL類(lèi)型,并整理對(duì)應(yīng)URL類(lèi)型的正則表達(dá)式,這些正則均是統(tǒng)計(jì)站內(nèi)已知頁(yè)面的爬蟲(chóng)情況。
因?yàn)榇蟛糠諷EO包孕產(chǎn)品經(jīng)理,可能都不清除站內(nèi)到底有多少套URL,所以也有須要通過(guò)日志,找到未知的URL,并進(jìn)行相應(yīng)的SEO動(dòng)作。
返回內(nèi)容大小字段統(tǒng)計(jì)
為啥要統(tǒng)計(jì)“$body_bytes_sent(發(fā)給來(lái)訪者的文件大小)”這個(gè)字段呢?
因?yàn)橹敖?jīng)歷過(guò)幾次類(lèi)似情況:某類(lèi)頁(yè)面流量逐減少,經(jīng)排查爬蟲(chóng)日志,360Spider拜候部分該頁(yè)面,返回的文件大小為54k,并不是該頁(yè)面html文件的正常大小,詢(xún)問(wèn)技術(shù),發(fā)現(xiàn)不久上線的新反爬蟲(chóng)策略,未把360Spider加入白名單,導(dǎo)致觸發(fā)反爬蟲(chóng)策略,返回空白頁(yè)面。
頁(yè)面特征監(jiān)控
針對(duì)模板監(jiān)控頁(yè)面,是因?yàn)榫W(wǎng)站可能存在一套URL有N套模板的情況,其他需求方可能只更改了其中一個(gè)模板。