由于大量大大小小的企业都在运行WordPress安装,下面是一个典型的WordPress robots.txt文件示例,以帮助说明robots.txt的功能:
用户代理:*
允许:/ wp-content /上传/
不允许:/ wp-content /插件/
不允许:/ wp-admin /
网站地图:https://example.com/sitemap_index.xml
这个robots文件允许所有爬虫程序找到/wp-content/uploads/文件,这对于索引页面内容和媒体非常有用。同时禁止/wp-content/plugin/和/wp-admin/文件夹。本质上,这些页面是管理(插件组件或用户管理)部分,搜索引擎没有必要浪费时间探索这些文件夹或在搜索引擎索引中显示这些文件夹。值得注意的是,我们还看到包含了站点地图的地址,令人惊讶的是,这是一个简单但经常被忽视的操作。