您是否听说过 robots.txt 这个术语并想知道它与您的网站有什么关系?大多数网站都有 robots.txt 文件,但这并不意味着大多数网站所有者了解其工作原理。在这篇文章中,我们希望通过深入研究 WordPress 的 robots.txt 文件以及它如何控制和限制对您网站的访问来改变这种状况。
有很多话要说,让我们开始吧!
什么是 WordPress robots.txt 文件?
在我们讨论 WordPress robots.txt 文件之前,有必 垃圾邮件数据 要定义一下本例中的“机器人”是什么。机器人是指访问互联网网站的任何类型的“机器人”。最常见的例子是搜索引擎爬虫。这些机器人在网络上“爬行”,帮助谷歌等搜索引擎对互联网上数十亿个网页进行索引和排名。
总的来说,机器人对于互联网来说是一件好事……或者至少是一件必需品。但这并不一定意味着您或其他网站所有者希望机器人自由漫游。控制网络机器人与网站交互方式的愿望导致了 20 世纪 90 年代中期机器人排除标准的创建。 Robots.txt 文件是此标准的实际实现:它允许您控制参与机器人如何与您的网站互动。您可以完全阻止机器人,限制它们访问您网站的某些区域等等。
然而,“参与者”部分很
重要。 Robots.txt 文件不能强制机器人遵循其 利用客户评论 指令。此外,恶意机器人可以绕过 robots.txt 文件。此外,即使是最有信誉的组织也会忽略您放入 robots.txt 文件中的某些命令。例如,Google 会忽略您添加到 robots.txt 文件中有关其抓取工具访问您网站的频率的任何规则。
如果您遇到很多机器人问题,Cloudflare 或 Sucuri 等安全解决方案可以提供帮助。
如何找到 robots.txt 文件?
robots.txt 文件位于您网站的根目录中,因此通 巴西商业名录 过在您的域名后添加 /robots.txt,您应该上传该文件(如果有)。例如
何时使用
robots.txt 文件?
对于大多数网站所有者来说,结构良好的 robots.txt 文件的好处可以归结为两类:
通过告诉搜索引擎不要在您不想索引的页面上浪费时间,来优化搜索引擎抓取资源。这有助于确保搜索引擎专注于抓取您最关心的页面。
通过阻止浪费资源的机器人来优化服务器使用率。
Robots.txt 并不是专门用于控制哪些页面被搜索引擎索引。
Robots.txt 文件并不是控制搜索引擎索引哪些页面的万无一失的方法。如果你的目标