深圳網(wǎng)站建設(shè)設(shè)計(jì) 深圳網(wǎng)站優(yōu)化排名深圳網(wǎng)站設(shè)計(jì)制作欣賞

分析Googlebot爬行日志文件[案例]

2017-07-17 閱讀：深圳網(wǎng)站建設(shè)設(shè)計(jì)

分析Googlebot爬行日志文件[案例]
深圳網(wǎng)站建設(shè)效益分析Googlebot爬行尖峰通過(guò)日志文件[案例]沖擊
網(wǎng)站主真的不知道是誰(shuí)，或是完整的故事，是爬行網(wǎng)站直到他們分析自己的服務(wù)器日志。專欄作家Glenn Gabe股份為例，闡述了一些見(jiàn)解，可以從服務(wù)器日志文件分析收集到的。

我最近開始幫助一個(gè)網(wǎng)站，受到負(fù)面影響5月17日更新算法。該網(wǎng)站已經(jīng)很長(zhǎng)一段時(shí)間的上網(wǎng)質(zhì)量的灰色地帶，澎湃有質(zhì)量的更新，有時(shí)滴。所以我開始挖掘通過(guò)抓取分析和審計(jì)的網(wǎng)站。

一旦我開始分析網(wǎng)站，我注意到幾頁(yè)奇怪的尖峰爬在谷歌搜索控制臺(tái)抓取統(tǒng)計(jì)報(bào)告（GSC）。例如，谷歌通常會(huì)爬行大約每天3000頁(yè)，但前兩穗猛增至近20000。然后兩更突破11000。

不用說(shuō)，我是在發(fā)現(xiàn)為什么那些尖峰發(fā)生興趣。有SEO網(wǎng)站上的技術(shù)問(wèn)題？有引起穗外部因素嗎？或者這是Googlebot異常？我趕緊伸手將我的客戶對(duì)我所看到的。

穗狀花序爬行：有時(shí)期待，有時(shí)不

我問(wèn)我的客戶，如果他們實(shí)施任何大規(guī)模的變化的基礎(chǔ)上，我建議可以在爬行引發(fā)穗。他們還沒(méi)。記得，我剛開始幫助他們。

另外，我剛剛完成了兩個(gè)大型爬行網(wǎng)站并沒(méi)有看到任何奇怪的技術(shù)問(wèn)題可能是導(dǎo)致Googlebot SEO抓取許多額外的頁(yè)面或資源：編碼故障可能導(dǎo)致谷歌抓取許多近重復(fù)的網(wǎng)頁(yè)，拙劣的分頁(yè)，分面導(dǎo)航等。我沒(méi)有找到任何這些問(wèn)題在網(wǎng)站上（至少根據(jù)第一套爬）。

現(xiàn)在，值得注意的是，谷歌可以增加爬行，當(dāng)它看到大規(guī)模的變化在一個(gè)網(wǎng)站 -例如，一個(gè)站點(diǎn)遷移，重新設(shè)計(jì)或改變?cè)S多網(wǎng)址的網(wǎng)站上。谷歌站長(zhǎng)趨勢(shì)分析師John Mueller解釋了這幾次。

下面的圖片顯示什么能像。這是從一個(gè)網(wǎng)站，我正在幫助一個(gè)HTTPS遷移（不是網(wǎng)站我在后覆蓋）。注意在爬行后遷移發(fā)生的穗。這是完全正常的：

但這是不是發(fā)生了什么事，在這種情況下。現(xiàn)場(chǎng)有沒(méi)有大規(guī)模的變化，但。在審查的情況，我的決定是明確的：

釋放日志文件！

分析Googlebot爬行日志文件[案例]

服務(wù)器電源的日志

日志文件包含了網(wǎng)站活動(dòng)的原始數(shù)據(jù)，包括從用戶和搜索引擎的訪問(wèn)。使用日志，你可以挖掘到每個(gè)訪問(wèn)事件看哪些網(wǎng)頁(yè)和資源被抓取，響應(yīng)代碼返回，引薦，IP地址和更多。我很想看看，在爬行了穗。

如果你從未處理的日志文件，你應(yīng)該知道他們可以得到相當(dāng)大的。例如，看到是在文件大小幾百兆的日志文件，這是不尋常的（或高容量的網(wǎng)站甚至更大）。這是一個(gè)日志文件是我的工作。這是696mb。

在分析日志文件的第一集，在進(jìn)行儀表板講了一個(gè)有趣的故事。響應(yīng)碼圖顯示404s大幅飆升，Googlebot遇到。這看起來(lái)有問(wèn)題。

我注意到通往陌生網(wǎng)址看起來(lái)像拙劣的頁(yè)面包含成千上萬(wàn)的視頻事件，和我的客戶的網(wǎng)站不包含其中的一個(gè)URL。在這段時(shí)間的404s大部分是由于陌生網(wǎng)址。

但事情看起來(lái)并沒(méi)有對(duì)那些“Googlebot”事件。更多的情況下。

情節(jié)復(fù)雜起來(lái)：欺騙

我總是告誡人們才挖到自己的日志文件，他們可能會(huì)看到一些令人不安的事情。記住，日志包含網(wǎng)站上的所有活動(dòng)，包括所有機(jī)器人的活動(dòng)。很不幸的是不尋常的看到許多機(jī)器人抓取網(wǎng)站獲得英特爾…或者更惡毒的原因。

例如，你可能會(huì)看到爬蟲試圖了解更多關(guān)于你的網(wǎng)站（一般從競(jìng)爭(zhēng)對(duì)手）。你也可以看到黑客攻擊。例如，從IP地址隨機(jī)事件的錘擊你的WordPress的登錄頁(yè)面。

分析Googlebot爬行日志文件[案例]

所以，這是在404s穗擦我浮出水面，從“Googlebot”。我很快就注意到許多假冒Googlebot的事件（從幾個(gè)不同的IP地址）。尖叫的青蛙日志分析器有一個(gè)俏皮的“驗(yàn)證程序”，我充分利用特征。

它知道真正的Googlebot釘在這段時(shí)間內(nèi)有趣的（通過(guò)GSC報(bào)告），而偽造的Googlebots也擊網(wǎng)站的那段時(shí)間。但我不能在日志文件中發(fā)現(xiàn)任何驗(yàn)證Googlebot尖峰。

所以我們研究和收集的一些壞演員IPS 和看到他們是不是從谷歌。我的客戶現(xiàn)在是處理這些IPS。這是一個(gè)聰明的做法，特別是如果你看到來(lái)自特定IP地址欺騙Googlebot回訪。我們經(jīng)歷了這個(gè)過(guò)程的第二穗以及。

這是提升你的發(fā)動(dòng)機(jī)罩和一些瘋狂的問(wèn)題找到一個(gè)很好的例子（或燃料被添加到您的引擎）。你可以接近休克誓要永遠(yuǎn)再看看引擎蓋，或者你可以解決問(wèn)題的長(zhǎng)期。清掃地毯下的問(wèn)題在這里永遠(yuǎn)不可能是真正的解決方案。

分析Googlebot爬行日志文件[案例]
將真正的Googlebot的請(qǐng)站起來(lái)？

在分析前兩個(gè)尖峰，我還沒(méi)有看到任何驗(yàn)證Googlebot的問(wèn)題。（我指的是谷歌真正的爬行網(wǎng)站并沒(méi)有不同的爬蟲欺騙Googlebot的。）所以，在GSC抓取統(tǒng)計(jì)并秒殺，但服務(wù)器日志顯示Googlebot適當(dāng)正?；顒?dòng)。這是偽造的Googlebots似乎引起的問(wèn)題。

檢查驗(yàn)證Googlebot的活動(dòng)與欺騙下活動(dòng)：

抓取數(shù)據(jù)恢復(fù)正常，然后再次上漲

我們已檢查抓取統(tǒng)計(jì)報(bào)告在GSC經(jīng)常監(jiān)測(cè)情況（對(duì)于房Googlebot）。抓取數(shù)據(jù)恢復(fù)正常了，但添加第三和第四的時(shí)間（在第一個(gè)屏幕截圖看到我分享以上）。最近的上漲是超過(guò)11000頁(yè)的爬行。

檢查記錄揭示了很多的網(wǎng)址，不要在網(wǎng)站上存在（而不是視頻網(wǎng)址之前）。這是由Googlebot適當(dāng)?shù)脑L問(wèn)（驗(yàn)證）。我很高興看到我們終于抓住了一些真正的Googlebot問(wèn)題（而不只是欺騙Googlebot的問(wèn)題）。

這些URL看起來(lái)完全搞砸，有時(shí)長(zhǎng)幾百字。它看起來(lái)像一個(gè)編碼錯(cuò)誤，不斷添加更多的人物和目錄的每個(gè)URL連接。我發(fā)信息給我的客戶，他們轉(zhuǎn)發(fā)信息到他們的領(lǐng)先開發(fā)商。他們一開始不知道谷歌會(huì)發(fā)現(xiàn)這些網(wǎng)址。我會(huì)掩護(hù)下。
Googlebot和404s：微妙的形勢(shì)對(duì)于SEO

需要明確的是，404s不是問(wèn)題，如果頁(yè)面應(yīng)該是404。谷歌的John Mueller解釋了很多次。404s是完全自然的在網(wǎng)絡(luò)上，而不影響質(zhì)量的一個(gè)網(wǎng)站。

谷歌也寫了一篇文章對(duì)404s網(wǎng)站管理員中心博客，如果他們可以傷害你的網(wǎng)站。繆勒的評(píng)論之間，支持DOC和博客后，你可以放心，404s本身不會(huì)引起質(zhì)量問(wèn)題。但是，為了確保邪惡是很重要的，不是你偽造的Googlebots錘服務(wù)器嘗試影響正常運(yùn)行時(shí)間（和SEO長(zhǎng)期）。

我問(wèn)我的客戶，如果網(wǎng)站有任何性能問(wèn)題的基礎(chǔ)上，我們看到了爬行的尖峰，并聽到他們根本沒(méi)有看到任何問(wèn)題。網(wǎng)站運(yùn)行在一個(gè)非常強(qiáng)大的服務(wù)器，連眼睛都沒(méi)有眨一下，當(dāng)“Googlebot”添加在爬行。

谷歌是如何找到這些長(zhǎng)的網(wǎng)址嗎？

在爬這些長(zhǎng)URL的分析，我可以看到破碎的URL和一些JavaScript文件之間的連接。我相信谷歌是尋找URL（或形成URL）基于JavaScript代碼。

你會(huì)發(fā)現(xiàn)，谷歌提到的可能性，這發(fā)生在我上面列出的支持文件。所以如果你看到URL被抓取谷歌，并在您的網(wǎng)站上目前沒(méi)有，那么Googlebot可以找到那些網(wǎng)址通過(guò)JavaScript或其他嵌入式內(nèi)容。這也是重要的是要知道。

我們學(xué)到了什么（不知道）

正如我前面所說(shuō)，挖掘服務(wù)器日志可以是有益的和令人不安的。另一方面，你可以發(fā)現(xiàn)問(wèn)題，Googlebot的遭遇，然后解決這些問(wèn)題。另一方面，你可以看到邪惡的東西，如黑客攻擊、偽造Googlebots抓取您的網(wǎng)站獲得英特爾，或其他試圖錘服務(wù)器。

這里有一些我們學(xué)到的東西通過(guò)這個(gè)練習(xí)：

    我們可以清楚地看到偽造的Googlebots爬行網(wǎng)站，許多人打怪404s。我的客戶能夠解決那些流氓IPS，錘擊服務(wù)器。
    我們看到了一個(gè)真正的Googlebot（驗(yàn)證）爬行看起來(lái)是拙劣的URL（基于發(fā)現(xiàn)通過(guò)JavaScript鏈接）。利用這些數(shù)據(jù)，我的客戶可以挖掘到的技術(shù)問(wèn)題，可以得到那些長(zhǎng)長(zhǎng)的，拙劣的URL。
    我們發(fā)現(xiàn)所有的尖刺從Googlebot也<strong>不會(huì)</strong>被顯示在GSC。這很奇怪，我不知道如果這是一個(gè)報(bào)告的問(wèn)題在谷歌的結(jié)束或者別的什么。但是，我們也發(fā)現(xiàn)了一些真正從Googlebot尖峰，我們解決了。
    也許最重要的是，我的客戶可以清楚地看到，例如SEO的軟肋，許多偽造的Googlebots爬行網(wǎng)站獲得英特爾，或者更惡毒的原因。但至少我的客戶都知道這是現(xiàn)在正在發(fā)生的（通過(guò)數(shù)據(jù)）?，F(xiàn)在他們要形成一種處理流氓機(jī)器人計(jì)劃。

總結(jié)：日志文件可以揭示表面之下的險(xiǎn)惡的問(wèn)題

當(dāng)你打破它，網(wǎng)站所有者，真的不知道是誰(shuí)，或是完整的故事，是爬行網(wǎng)站直到他們分析自己的服務(wù)器日志。谷歌分析將不提供此數(shù)據(jù)。你必須了解你的日志表面機(jī)器人訪問(wèn)你的網(wǎng)站。

所以，如果你能找到一個(gè)尖峰在爬行，你在想什么，別忘了你的日志！他們可以是一個(gè)寶貴的數(shù)據(jù)，可以幫助揭開SEO神秘源（可能是陰險(xiǎn)的問(wèn)題亟待解決）。不要害怕去挖掘?qū)ふ掖鸢?。記住，你可能需要?zhǔn)備好。

將文章分享到..

上一篇使用20個(gè)CSS來(lái)解決常見(jiàn)錯(cuò)誤和修復(fù)

下一篇搜索引擎優(yōu)化最佳實(shí)踐規(guī)范的網(wǎng)址+標(biāo)準(zhǔn)標(biāo)簽

94久久国产乱子伦精品免费,亚洲中文字幕无线乱码,国产在线观看黄av免费,色偷偷8888欧美精品久久},人妻一本久道久久综合久久鬼色},在线观看免费视频色

專注于深圳網(wǎng)站制作網(wǎng)站設(shè)計(jì)，專業(yè)的深圳建站公司供應(yīng)商！

首頁(yè)

建站服務(wù)

網(wǎng)站制作案例

解決方案

網(wǎng)站設(shè)計(jì)報(bào)價(jià)

網(wǎng)站制作動(dòng)態(tài)

關(guān)于我們

聯(lián)系我們

深圳網(wǎng)站優(yōu)化排名將想法與焦點(diǎn)和您一起共享

分析Googlebot爬行日志文件[案例]

推薦新聞

網(wǎng)站建設(shè)主機(jī)域名不能夠忽視的細(xì)節(jié)

用戶體驗(yàn)的首頁(yè)按鈕

搜索引擎如何優(yōu)化？這些方法要知曉！

選擇域名時(shí)哪些域名后綴權(quán)重高

網(wǎng)頁(yè)設(shè)計(jì)師提高個(gè)人品牌

專注于深圳網(wǎng)站制作網(wǎng)站設(shè)計(jì)，專業(yè)的深圳建站公司供應(yīng)商！

深圳網(wǎng)站優(yōu)化排名 將想法與焦點(diǎn)和您一起共享

分析Googlebot爬行日志文件[案例]

推薦新聞

網(wǎng)站建設(shè)主機(jī)域名不能夠忽視的細(xì)節(jié)

用戶體驗(yàn)的首頁(yè)按鈕

搜索引擎如何優(yōu)化？這些方法要知曉！

選擇域名時(shí)哪些域名后綴權(quán)重高

網(wǎng)頁(yè)設(shè)計(jì)師提高個(gè)人品牌

專注于深圳網(wǎng)站制作網(wǎng)站設(shè)計(jì)，專業(yè)的深圳建站公司供應(yīng)商！

深圳網(wǎng)站優(yōu)化排名將想法與焦點(diǎn)和您一起共享

搜索引擎如何優(yōu)化？這些方法要知曉！