小改了一下robots.txt文件,屏蔽垃圾蜘蛛 – 千丝海阁

首页 » Wordpress » 小改了一下robots.txt文件,屏蔽垃圾蜘蛛

小改了一下robots.txt文件,屏蔽垃圾蜘蛛

5887 42

今天一用户杰少博客留言指出站点的robots.txt文件设置有误,我仔细地看了一下,发现确实有点问题,小改了一下,加上了屏蔽蜘蛛的内容,正好观察一下是否有的蜘蛛不按照robots耍流氓继续爬行。之前的robots是参照wp官方推荐文档设置的。

  1. 去除之前的针对agent为googlebot-image的allow all的设置。其实不加deny就是等于allow,不知道wp官方为什么多此一举,或者有别的意思?
  2. 增加了蜘蛛爬行中被标示为垃圾蜘蛛的agent,除jike外全部设置为deny。
  3. 去除Disallow: /wp- 以及尾部的Allow: /wp-content/uploads/,调整为明细目录,uploads目录由于没有设置deny,理应是可以被爬行的
  4. Disallow: /category/*/* 这个考虑了再三没有去除,原因是避免分权重,这样应该少爬行了不少页面,再观察一阵子再说了。

好了就先这样吧,下面上文件内容,有不对的地方还请各位继续指正,再次感谢!

Sitemap: http://www.tiandiyoyo.com/sitemap.xml
Sitemap: http://www.tiandiyoyo.com/sitemap_baidu.xml
# digg mirror
User-agent: duggmirror
Disallow: /
# yisou
User-agent: YisouSpider
Disallow: /
# easou
User-agent: EasouSpider
Disallow: /
# YandexBot
User-agent: YandexBot
Disallow: /
# Mail.RU_Bot
User-agent: Mail.RU_Bot
Disallow: /
# AcoonBot
User-agent: AcoonBot
Disallow: /
# Exabot
User-agent: Exabot
Disallow: /
# spbot
User-agent: spbot
Disallow: /
# global
User-agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/plugins/
Disallow: /wp-content/cache/
Disallow: /wp-content/themes/
Disallow: /trackback/
Disallow: /feed/
Disallow: /category/*/*
Disallow: */trackback/
Disallow: */feed/
Disallow: /*?
Disallow: /mylogs.txt
文章评分1次,平均分5.0

本文原始地址:https://www.tiandiyoyo.com/2013/06/deny-spider-by-robots/
本站所有文章,除了特别注明外,均为本站原创,转载请注明出处来自www.tiandiyoyo.com

您可能还会对以下文章感兴趣:

    没有相关的文章

评论前先开启评论开关:


42 Comments

  1. 我的可没有这矣详细的设置,也就允许 百度与谷歌的SITEMAP。

  2. 来看看哪些是垃圾蜘蛛~要真是垃圾的话也屏蔽不了

  3. 蓝冰 :

    更多的是有人伪装成蜘蛛采集站点。这才是流量消耗的罪魁祸首。

  4. 百度和谷歌的都还行 别的爬不爬的吧 也没啥大用

  5. 垃圾蜘蛛耗流量那是相当大的!

  6. yxiao :

    有时候看访问日志,确实是有些乱七八糟的蜘蛛下载了很多流量。

  7. 什么是垃圾蜘蛛乱爬行呢。。没听过

  8. 公子 :

    我的写得很简单。。

  9. 这个貌似可以到百度站长平台上检测对错哦.

  10. 既然他们不管规则乱爬,那改robots还是屏蔽不了呀

  11. 现在很多蜘蛛都不管robot了

载入分页评论...