今天看到一篇文章说 Robots.txt,就想着看看自己博客的(印象中没有配置过)。一看果然没有,百度一搜 typecho 默认是没有 Robots.txt 的。 那就动手配置呗!
Robots 含义
Robots 协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots 是站点与 spider 沟通的重要渠道,站点通过 robots 告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守(君子协定::@:31::)
robots.txt 如何工作?
搜索引擎机器人访问网站时,首先会寻找站点根目录有没有 robots.txt 文件,如果有这个文件就根据文件的内容确定收录范围,如果没有就按默认访问以及收录所有页面。
如何辨别自己网站是否配置了 robots.txt
第一种方法:访问网址 http(s):你的域名/robots.txt 即可
第二种方法:通过百度站长工具 来检测
一个正确的 robots.txt 需达到的效果?
要求所有搜索引擎遵循我的这个协议
禁止蜘蛛抓取我的后台地址和 Typecho 的安装路径
指引蜘蛛去抓取我的 Sitemap
在网站根目录下新建一个 robots.txt 文件
User-agent: *
Disallow: /install/
Disallow: /config.inc.php
Disallow: /install.php
Disallow: /admin/
Sitemap: https://vimin.cc/sitemap.xml
© 版权声明: 作者:叶小明的博客 本文链接:https://vimin.cc/default/714.html 本站文章除特别声明外,均采用 署名 - 非商业性使用 - 禁止演绎 4.0 国际协议,转载请注明出处。 若发现本站有任何侵犯您利益的内容,请及时邮件或留言联系,我会第一时间删除所有相关内容。
感谢分享
感谢分享 赞一个