深入认识robots
搜索引擎使用spider程序自动范文互联网上的网页并获取网页信息。Spider在访问一个网站时,会首页检查该网站的根域名下是否有一个叫robots.txt的纯文本,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站上创建一个robots.txt,在文件中声明改网站中哪些目录不让搜索引擎收录。(robots.txt文件应该放置在网站根目录下。)
1、 Robots的用法
User-agent:定义进制搜索引擎名字,比如说:百度(Baiduspider)、谷歌(Googlebot)、360(360Spider)等。*号代表全部搜索引擎
Disallow:不允许收录
Allow:允许收录
案例:
User-agent: * (声明禁止所有的搜索引擎抓取以下内容)
Disallow:/blog/(禁止网站blog栏目下所有的页面。比如说:/blog/123.html)
Disallow:/api(比如说:/apifsdfds/123.html也会被屏蔽。)
Allow:/blog/12/(一般情况下不需要写Allow的,而我们在禁止的目录下面,我们需要让搜索引擎收录,那么我们就可以使用Allow,比如说我们前面禁止了blog栏目下所有的页面,同时我们想/12/栏目下被收录,这个时候我们就需要通过Allow来允许搜索引擎的收录。)