分析Googlebot爬行日志文件[案例]
深圳網(wǎng)站建設(shè)效益分析Googlebot爬行尖峰通過(guò)日志文件[案例]沖擊
網(wǎng)站主真的不知道是誰(shuí),或是完整的故事,是爬行網(wǎng)站直到他們分析自己的服務(wù)器日志。專欄作家Glenn Gabe股份為例,闡述了一些見(jiàn)解,可以從服務(wù)器日志文件分析收集到的。
我最近開始幫助一個(gè)網(wǎng)站,受到負(fù)面影響5月17日更新算法。該網(wǎng)站已經(jīng)很長(zhǎng)一段時(shí)間的上網(wǎng)質(zhì)量的灰色地帶,澎湃有質(zhì)量的更新,有時(shí)滴。所以我開始挖掘通過(guò)抓取分析和審計(jì)的網(wǎng)站。
一旦我開始分析網(wǎng)站,我注意到幾頁(yè)奇怪的尖峰爬在谷歌搜索控制臺(tái)抓取統(tǒng)計(jì)報(bào)告(GSC)。例如,谷歌通常會(huì)爬行大約每天3000頁(yè),但前兩穗猛增至近20000。然后兩更突破11000。
不用說(shuō),我是在發(fā)現(xiàn)為什么那些尖峰發(fā)生興趣。有SEO網(wǎng)站上的技術(shù)問(wèn)題?有引起穗外部因素嗎?或者這是Googlebot異常?我趕緊伸手將我的客戶對(duì)我所看到的。
穗狀花序爬行:有時(shí)期待,有時(shí)不
我問(wèn)我的客戶,如果他們實(shí)施任何大規(guī)模的變化的基礎(chǔ)上,我建議可以在爬行引發(fā)穗。他們還沒(méi)。記得,我剛開始幫助他們。
另外,我剛剛完成了兩個(gè)大型爬行網(wǎng)站并沒(méi)有看到任何奇怪的技術(shù)問(wèn)題可能是導(dǎo)致Googlebot SEO抓取許多額外的頁(yè)面或資源:編碼故障可能導(dǎo)致谷歌抓取許多近重復(fù)的網(wǎng)頁(yè),拙劣的分頁(yè),分面導(dǎo)航等。我沒(méi)有找到任何這些問(wèn)題在網(wǎng)站上(至少根據(jù)第一套爬)。
現(xiàn)在,值得注意的是,谷歌可以增加爬行,當(dāng)它看到大規(guī)模的變化在一個(gè)網(wǎng)站 -例如,一個(gè)站點(diǎn)遷移,重新設(shè)計(jì)或改變?cè)S多網(wǎng)址的網(wǎng)站上。谷歌 站長(zhǎng)趨勢(shì)分析師John Mueller解釋了這幾次。
下面的圖片顯示 什么能像。這是從一個(gè)網(wǎng)站,我正在幫助一個(gè)HTTPS遷移(不是網(wǎng)站我在后覆蓋)。注意在爬行后遷移發(fā)生的穗。這是完全正常的:
但這是不是發(fā)生了什么事,在這種情況下。現(xiàn)場(chǎng)有沒(méi)有大規(guī)模的變化,但。在審查的情況,我的決定是明確的:
釋放日志文件!
服務(wù)器電源的日志
日志文件包含了網(wǎng)站活動(dòng)的原始數(shù)據(jù),包括從用戶和搜索引擎的訪問(wèn)。使用日志,你可以挖掘到每個(gè)訪問(wèn)事件看哪些網(wǎng)頁(yè)和資源被抓取,響應(yīng)代碼返回,引薦,IP地址和更多。我很想看看,在爬行了穗。
如果你從未處理的日志文件,你應(yīng)該知道他們可以得到相當(dāng)大的。例如,看到是在文件大小幾百兆的日志文件,這是不尋常的(或高容量的網(wǎng)站甚至更大)。這是一個(gè)日志文件是我的工作。這是696mb。
在分析日志文件的第一集,在進(jìn)行儀表板講了一個(gè)有趣的故事。響應(yīng)碼圖顯示404s大幅飆升,Googlebot遇到。這看起來(lái)有問(wèn)題。
我注意到通往陌生網(wǎng)址看起來(lái)像拙劣的頁(yè)面包含成千上萬(wàn)的視頻事件,和我的客戶的網(wǎng)站不包含其中的一個(gè)URL。在這段時(shí)間的404s大部分是由于陌生網(wǎng)址。
但事情看起來(lái)并沒(méi)有對(duì)那些“Googlebot”事件。更多的情況下。
情節(jié)復(fù)雜起來(lái):欺騙
我總是告誡人們才挖到自己的日志文件,他們可能會(huì)看到一些令人不安的事情。記住,日志包含網(wǎng)站上的所有活動(dòng),包括所有機(jī)器人的活動(dòng)。很不幸的是不尋常的看到許多機(jī)器人抓取網(wǎng)站獲得英特爾…或者更惡毒的原因。
例如,你可能會(huì)看到爬蟲試圖了解更多關(guān)于你的網(wǎng)站(一般從競(jìng)爭(zhēng)對(duì)手)。你也可以看到黑客攻擊。例如,從IP地址隨機(jī)事件的錘擊你的WordPress的登錄頁(yè)面。
所以,這是在404s穗擦我浮出水面,從“Googlebot”。我很快就注意到許多假冒Googlebot的事件(從幾個(gè)不同的IP地址)。尖叫的青蛙日志分析器有一個(gè)俏皮的“驗(yàn)證程序”,我充分利用特征。
它知道真正的Googlebot釘在這段時(shí)間內(nèi)有趣的(通過(guò)GSC報(bào)告),而偽造的Googlebots也擊網(wǎng)站的那段時(shí)間。但我不能在日志文件中發(fā)現(xiàn)任何驗(yàn)證Googlebot尖峰。
所以我們研究和收集的一些壞演員IPS 和看到他們是不是從谷歌。我的客戶現(xiàn)在是處理這些IPS。這是一個(gè)聰明的做法,特別是如果你看到來(lái)自特定IP地址欺騙Googlebot回訪。我們經(jīng)歷了這個(gè)過(guò)程的第二穗以及。
這是提升你的發(fā)動(dòng)機(jī)罩和一些瘋狂的問(wèn)題找到一個(gè)很好的例子(或燃料被添加到您的引擎)。你可以接近休克誓要永遠(yuǎn)再看看引擎蓋,或者你可以解決問(wèn)題的長(zhǎng)期。清掃地毯下的問(wèn)題在這里永遠(yuǎn)不可能是真正的解決方案。
將真正的Googlebot的請(qǐng)站起來(lái)?
在分析前兩個(gè)尖峰,我還沒(méi)有看到任何驗(yàn)證Googlebot的問(wèn)題。(我指的是谷歌真正的爬行網(wǎng)站并沒(méi)有不同的爬蟲欺騙Googlebot的。)所以,在GSC抓取統(tǒng)計(jì)并秒殺,但服務(wù)器日志顯示Googlebot適當(dāng)正?;顒?dòng)。這是偽造的Googlebots似乎引起的問(wèn)題。
檢查驗(yàn)證Googlebot的活動(dòng)與欺騙下活動(dòng):
抓取數(shù)據(jù)恢復(fù)正常,然后再次上漲
我們已檢查抓取統(tǒng)計(jì)報(bào)告在GSC經(jīng)常監(jiān)測(cè)情況(對(duì)于房Googlebot)。抓取數(shù)據(jù)恢復(fù)正常了,但添加第三和第四的時(shí)間(在第一個(gè)屏幕截圖看到我分享以上)。最近的上漲是超過(guò)11000頁(yè)的爬行。
檢查記錄揭示了很多的網(wǎng)址,不要在網(wǎng)站上存在(而不是視頻網(wǎng)址之前)。這是由Googlebot適當(dāng)?shù)脑L問(wèn)(驗(yàn)證)。我很高興看到我們終于抓住了一些真正的Googlebot問(wèn)題(而不只是欺騙Googlebot的問(wèn)題)。
這些URL看起來(lái)完全搞砸,有時(shí)長(zhǎng)幾百字。它看起來(lái)像一個(gè)編碼錯(cuò)誤,不斷添加更多的人物和目錄的每個(gè)URL連接。 我發(fā)信息給我的客戶,他們轉(zhuǎn)發(fā)信息到他們的領(lǐng)先開發(fā)商。他們一開始不知道谷歌會(huì)發(fā)現(xiàn)這些網(wǎng)址。我會(huì)掩護(hù)下。
Googlebot和404s:微妙的形勢(shì)對(duì)于SEO
需要明確的是,404s不是問(wèn)題,如果頁(yè)面應(yīng)該是404。谷歌的John Mueller解釋了很多次。404s是完全自然的在網(wǎng)絡(luò)上,而不影響質(zhì)量的一個(gè)網(wǎng)站。
谷歌也寫了一篇文章對(duì)404s網(wǎng)站管理員中心博客,如果他們可以傷害你的網(wǎng)站。繆勒的評(píng)論之間,支持DOC和博客后,你可以放心,404s本身不會(huì)引起質(zhì)量問(wèn)題。但是,為了確保邪惡是很重要的,不是你偽造的Googlebots錘服務(wù)器嘗試影響正常運(yùn)行時(shí)間(和SEO長(zhǎng)期)。
我問(wèn)我的客戶,如果網(wǎng)站有任何性能問(wèn)題的基礎(chǔ)上,我們看到了爬行的尖峰,并聽到他們根本沒(méi)有看到任何問(wèn)題。網(wǎng)站運(yùn)行在一個(gè)非常強(qiáng)大的服務(wù)器,連眼睛都沒(méi)有眨一下,當(dāng)“Googlebot”添加在爬行。
谷歌是如何找到這些長(zhǎng)的網(wǎng)址嗎?
在爬這些長(zhǎng)URL的分析,我可以看到破碎的URL和一些JavaScript文件之間的連接。我相信谷歌是尋找URL(或形成URL)基于JavaScript代碼。
你會(huì)發(fā)現(xiàn),谷歌提到的可能性,這發(fā)生在我上面列出的支持文件。所以如果你看到URL被抓取谷歌,并在您的網(wǎng)站上目前沒(méi)有,那么Googlebot可以找到那些網(wǎng)址通過(guò)JavaScript或其他嵌入式內(nèi)容。這也是重要的是要知道。
我們學(xué)到了什么(不知道)
正如我前面所說(shuō),挖掘服務(wù)器日志可以是有益的和令人不安的。另一方面,你可以發(fā)現(xiàn)問(wèn)題,Googlebot的遭遇,然后解決這些問(wèn)題。另一方面,你可以看到邪惡的東西,如黑客攻擊、偽造Googlebots抓取您的網(wǎng)站獲得英特爾,或其他試圖錘服務(wù)器。
這里有一些我們學(xué)到的東西通過(guò)這個(gè)練習(xí):
我們可以清楚地看到偽造的Googlebots爬行網(wǎng)站,許多人打怪404s。我的客戶能夠解決那些流氓IPS,錘擊服務(wù)器。
我們看到了一個(gè)真正的Googlebot(驗(yàn)證)爬行看起來(lái)是拙劣的URL(基于發(fā)現(xiàn)通過(guò)JavaScript鏈接)。利用這些數(shù)據(jù),我的客戶可以挖掘到的技術(shù)問(wèn)題,可以得到那些長(zhǎng)長(zhǎng)的,拙劣的URL。
我們發(fā)現(xiàn)所有的尖刺從Googlebot也<strong>不會(huì)</strong>被顯示在GSC。這很奇怪,我不知道如果這是一個(gè)報(bào)告的問(wèn)題在谷歌的結(jié)束或者別的什么。但是,我們也發(fā)現(xiàn)了一些真正從Googlebot尖峰,我們解決了。
也許最重要的是,我的客戶可以清楚地看到,例如SEO的軟肋,許多偽造的Googlebots爬行網(wǎng)站獲得英特爾,或者更惡毒的原因。但至少我的客戶都知道這是現(xiàn)在正在發(fā)生的(通過(guò)數(shù)據(jù))?,F(xiàn)在他們要形成一種處理流氓機(jī)器人計(jì)劃。
總結(jié):日志文件可以揭示表面之下的險(xiǎn)惡的問(wèn)題
當(dāng)你打破它,網(wǎng)站所有者,真的不知道是誰(shuí),或是完整的故事,是爬行網(wǎng)站直到他們分析自己的服務(wù)器日志。谷歌分析將不提供此數(shù)據(jù)。你必須了解你的日志表面機(jī)器人訪問(wèn)你的網(wǎng)站。
所以,如果你能找到一個(gè)尖峰在爬行,你在想什么,別忘了你的日志!他們可以是一個(gè)寶貴的數(shù)據(jù),可以幫助揭開SEO神秘源(可能是陰險(xiǎn)的問(wèn)題亟待解決)。不要害怕去挖掘?qū)ふ掖鸢?。記住,你可能需要?zhǔn)備好。