我的知识记录

如何设置网站robot.txt文件?什么是robot.txt文件,robot.txt文件有什么用?

设置 robots.txt 是控制搜索引擎爬虫访问网站的核心操作,核心是:创建纯文本文件、放在网站根目录、用 User-agent/Disallow/Allow 定义规则。下面是完整设置流程、语法与常见示例。
 

 

一、核心前提(必须遵守)

  1. 文件名与位置
    • 文件名必须是 robots.txt(全小写、无后缀)。
    • 必须放在网站根目录(如 https://example.com/robots.txt)。
    • 每个域名 / 站点只能有一个 robots.txt
     
  2. 文件格式
    • 纯文本(UTF-8 编码),用记事本、VS Code 等编辑器创建,不要用 Word 等富文本工具
    • 指令区分大小写User-agent 不能写成 user-agent),路径以 / 开头。
    • # 开头为注释,空行分隔不同爬虫规则组。
     

 

二、核心语法指令

1. User-agent:指定爬虫

 
  • User-agent: * → 对所有爬虫生效(最常用)。
  • User-agent: Googlebot → 仅对谷歌爬虫生效。
  • User-agent: Baiduspider → 仅对百度爬虫生效。
  • User-agent: Bingbot → 仅对必应爬虫生效。

2. Disallow:禁止访问

  • Disallow: / → 禁止爬取整个网站(慎用)。
  • Disallow: /admin/ → 禁止爬取 /admin/ 目录及所有子内容。
  • Disallow: /login.html → 禁止爬取单个文件。
  • Disallow: /private → 禁止爬取以 /private 开头的所有路径。

3. Allow:允许访问(例外规则)

  • 用于在 Disallow 基础上放行子路径,遵循最长匹配优先
  • 示例:
     
    Disallow: /data/
    Allow: /data/public/
     
    → 禁止 /data/,但允许 /data/public/ 及其子内容。

如何设置网站robot.txt文件?什么是robot.txt文件,robot.txt文件有什么用?

标签:

更新时间:2026-03-08 14:36:59

上一篇:帝国cms默认是北京时间,如果修改时区?EmpireCMS

下一篇:PbootCMS网站标签用于调取网站与公司相关的信息