WordPress技巧:分析蜘蛛爬行信息,去除垃圾蜘蛛 – 千丝海阁

首页 » Wordpress » WordPress技巧:分析蜘蛛爬行信息,去除垃圾蜘蛛

WordPress技巧:分析蜘蛛爬行信息,去除垃圾蜘蛛

16468 34

在前两天的wordpress技巧中,有一篇《WordPress技巧:生成网站访问日》的文章是用来生成网站访问日志,现在我们就要通过这些访问日志,来进行分析,得出引擎蜘蛛的爬行数据。

更详细效果见上方导航页《蜘蛛爬行》。

蜘蛛爬行页面的数据都是当天的信息,其中列出了国内的常用蜘蛛:

  • google
  • baidu
  • bing
  • sogou
  • soso

和其它非常用的国内其它蜘蛛:

  • Jike
  • Easou
  • Yisou

或者是国外的蜘蛛:

  • Yandebox
  • Mail.RU
  • AcoonBot
  • Exabot
  • spbot

通过这些记录,可以很清晰的了解自己的网站在什么时候被哪些蜘蛛爬过。虽然蜘蛛爬行对网站的资源消耗是非常小的,但是积少成多,也是一笔开销,更何况有些垃圾蜘蛛整天爬行的还十分积极,比如Yisou这个垃圾蜘蛛,到本文撰写为止,爬行了33次,而百度也只有49次而已。Yisou是什么东西?对我们网站根本是没有用处的一个引擎,我们完全可以把它屏蔽。tiandi还没有屏蔽这些垃圾蜘蛛,纯粹只是想再彻底观察它们一下。

文章评分1次,平均分5.0

本文原始地址:https://www.tiandiyoyo.com/2013/06/how-to-analysis-spider/
本站所有文章,除了特别注明外,均为本站原创,转载请注明出处来自www.tiandiyoyo.com

您可能还会对以下文章感兴趣:

评论前先开启评论开关:


34 Comments

  1. Era :

    有的蜘蛛确实没有用,一点流量都不过来。
    顺便问个事,那个会用php模拟登陆么?

    • tiandi :

      会,PHP随便改个header就是了。

      • Era :

        这个能不能给指导一下, 创世这个网站“chuangshi.qq.com” 模拟登陆的方法,这个是GET方式提交,中间调用了js, 似乎有的时候还有验证码。 俺搞不定。

        • tiandi :

          看了你的回复我才知道我的回答是理解错误你第一个问题了。你现在说的这个,我没做过php的,以前是用vb实现自动远程登录。想来是差不多原理,curl的方式加post的内容吧。你只能网上找找答案了。

  2. 还是Google蜘蛛勤劳

  3. 养只壁虎在VPS里

  4. 页面加载速度很快~~哪儿的空间啊

  5. 哈..坦白说,好少去关注蜘蛛.我觉得做好站点内容,就算出错,也不会离谱到哪里去吧.

  6. 最近收录一直在减少,不知道肿么回事

  7. 垃圾蜘蛛来爬的多了。也是没有什么好处的

  8. FROYO :

    被这些小引擎收录也不是坏事儿呀

  9. 博主研究的比较透测啊,不像我,写博客纯属业余爱好,终极目的就是赚钱。蜘蛛爬行对网站影响应该不是很大,如果一天几十次访问都需要屏蔽的话,那不如考虑换个空间呢

  10. 大发 :

    国内的我对即刻和有道比较有兴趣,哈哈。

  11. 哈哈,无所谓,来啥都欢迎

  12. 太牛了,小媒体现在每天DNS的解析量都很大,估计是垃圾蜘蛛的问题。

  13. 任侠 :

    最近的技巧很多呀~
    又一个爱折腾的人~

  14. 不管啥蜘蛛 我都欢迎来

  15. 佐仔 :

    请问如何去除垃圾蜘蛛访问?

    • tiandi :

      两个方法,方法一,如果蜘蛛支持robots的话,写在robots里。
      方法二。在htaccess里加上对于agent的判断,deny这些垃圾蜘蛛的 agent。

  16. 南寻 :

    唉BAE没法生成,禁止写入的。。

  17. 恩~不错滴~感谢博主的分享咯~

载入分页评论...