WordPress的Robots.txt协议最标准的写法应该如何

乐分享主编 2019-12-21 465 阅读

Robots.txt文件是蜘蛛协议文件,理论上所有蜘蛛在抓取网站时第一个需要抓取的就是这个文件,再根据这个robots.txt协议去爬取网站内的内容,当然不是所有的蜘蛛都这么遵守游戏规则,前阵子就有新闻今日头条的搜索爬虫疯狂抓取内容造成网站瘫痪的效果,除了极个别的现象,在国内站长不是很重视这个文件,在国外是seoer做SEO的重要文件,为了获取搜索引擎的流量,我们还是需要把robots.txt做一下规范。

首先分享一下乐分享的Robots.txt的写法:

User-agent: *
Disallow: /feed/
Disallow: /trackback/
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /xmlrpc.php
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /*?*
Disallow: /attachment/
Allow: /wp-content/uploads/
Disallow: /wp-*.php

Sitemap: https://www.cxvn.com/sitemap.html

简单说就是禁止所有的蜘蛛抓取feed(订阅)、trackback(对转载发出请求)、wp-admin(后台)、wp-content(程序内容目录)、wp-includes(核心文件目录)、comment-page(评论翻页)、/?s=*(搜索结果)、/*?*(所有动态内容,若没有做伪静态可取消)、attachment(附件目录)、wp-content/uploads/(附件默认上传目录)、/wp-*.php(根目录下所有wp开头的php文件)

还有其他的写法可供参考

User-Agent: *
Allow: /?display=wide
Allow: /wp-content/uploads/
Disallow: /readme.html
Disallow: /refer/

Sitemap: http://www.cxvn.com/sitemap1.xml
Sitemap: http://www.cxvn.com/sitemap2.xml
Sitemap: http://www.cxvn.com/sitemap.html
Sitemap: http://www.cxvn.com/sitemap3.xml

以下是SEO每天一贴ZAC博客的robots.txt

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /questions/qa-tag/
Disallow: /go/
Disallow: *?replytocom=*
Disallow: /?s=*

User-agent: Googlebot
Disallow: /*/*/feed/
Disallow: /*/*/trackback/
Disallow: /index.php?image=*
Disallow: /go/
Disallow: /?r=*
Disallow: /page/*/?*
Disallow: *?replytocom=*
Disallow: /?s=*

User-Agent: Yahoo! Slurp
Disallow: /*/*/feed/
Disallow: /*/*/trackback/
Disallow: /index.php?image=*
Disallow: /go/
Disallow: /seoblog/?r=*
Disallow: /go/
Disallow: /?r=*
Disallow: /page/*/?*
Disallow: *?replytocom=*

User-Agent: MJ12bot
Disallow:

文章最后分享一个懒人的robots.txt协议文件方式

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-content/plugins/
Disallow: /wp-admin/
 
Sitemap: https://cxvn.com/sitemap.xml

演示地址

最新游戏