robots.txt 文件可以告诉搜索引擎哪些网页不可以抓取,哪些网页可以抓取。

用法是按照规则写好之后放在网站根目录,然后搜索引擎就会自动识别。

但有时候的需求比较特殊,比如有些网站只允许抓取首页,其他页面不希望被搜索引擎抓取,就可以这样写规则:

1User-Agent: *
2Disallow: /*
3Allow: /$