机器人和你

搜索引擎优化

ornamental-white-gate-against-sea-backdrop

“如何”我们和机器人一起工作是一个我们迟早都要习惯的想法。如果你是一个网站所有者,或者一直在与你的数字代理商交谈,那么你很有可能已经开始了这种对话。今天我们不讨论启发式编程算法计算机从2001太空漫游开始,我们谈论的是Robots.txt和你的网站。

什么是Robots.txt?

为了避免不必要的复杂性,robots.txt只是你网站上的一个文本文件。它使用一种协议或一组规则,称为机器人排除标准并帮助你与任何其他电脑或机器人,希望爬你的网站。

为什么Robots.txt很重要?

作为一个商业网站所有者,robots.txt的主要问题是告诉搜索引擎哪些页面要抓取,访问和索引,以及哪些区域不可以。每个搜索引擎只会花费一定的预算(电力和计算能力)来抓取你的网站。毕竟,有超过10亿个网站因此,对你来说,吸引搜索引擎的算法是至关重要的,并为他们提供有价值的内容在哪里爬行和索引的良好方向。

Robots.txt文件中应该包含什么?

包含网站的服务器有内部文件、面向公众的文件和管理文件集。这个robots.txt的目标是向搜索引擎爬虫提供一系列关于哪些文件和文件夹值得探索的建议。

例子robots . txt

这些robots.txt文件有一个通用格式:

User-agent: [User-agent名称]不允许:[URL字符串不被抓取]User-agent: [User-agent名称]允许:[URL字符串被抓取]站点地图:[XML站点地图的URL]

一些用户代理的一个例子是google-bot、Googlebot-News、Googlebot-Image——查看所有用户代理的列表在这里).使用“*”符号是一个通配符,表示所有机器人。

示例WordPress的robots.txt文件

由于大量大大小小的企业都在运行WordPress安装,下面是一个典型的WordPress robots.txt文件示例,以帮助说明robots.txt的功能:

用户代理:*
允许:/ wp-content /上传/
不允许:/ wp-content /插件/
不允许:/ wp-admin /
网站地图:https://example.com/sitemap_index.xml

这个robots文件允许所有爬虫程序找到/wp-content/uploads/文件,这对于索引页面内容和媒体非常有用。同时禁止/wp-content/plugin/和/wp-admin/文件夹。本质上,这些页面是管理(插件组件或用户管理)部分,搜索引擎没有必要浪费时间探索这些文件夹或在搜索引擎索引中显示这些文件夹。值得注意的是,我们还看到包含了站点地图的地址,令人惊讶的是,这是一个简单但经常被忽视的操作。

最佳实践和相关性

作为一个网站所有者,你可能会问这是必要的,有什么好处。虽然这是事实主要的搜索引擎可以在没有robots.txt文件的情况下索引和探索您的网站,这里的想法是为搜索引擎提供最有效的索引。你的网站对爬虫越友好,就越有可能被索引。想象一下,你被邀请到某人家里,但他们没有告诉你浴室在哪里。寻找这样一个重要的空间将会花费更多的时间,没有人想要这样!

最好把robots.txt文件理解为一个建议:搜索引擎机器人或任何其他机器人都没有义务遵守这些规则。使用robots.txt进行SEO可以让你的网站呈现给搜索引擎的方式有细微差别。

当涉及到其他问题,如重复内容、遗留页面和安全时,需要更复杂的策略,这需要一个知识渊博的数字机构来执行。

Robots.txt记忆技巧

  • Robots.txt指令只是建议规则。
  • 依赖Robots.txt进行安全实践。
  • 执行时要小心,错误可能会产生深远的影响。
  • 在robots.txt中编写指令时,考虑您自己站点的需求(有必要排除指令吗?)

结论

下次你与数字战略家、开发人员交谈或制作自己的网站时,一定要考虑到这个文件,它的优势和最佳实践,但要谨慎行事,以最大限度地利用它,并与至关重要的东西保持一致:你在搜索引擎中的存在。

Baidu
map