robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。Meta robots标签必须放在<head>和</head>之间,格式:<meta name='robots' content='index,follow&q

robots.txt是放在网站中,文件级的网络蜘蛛授权;而robots Meta标签是放在网页中,一般用于部分网页需要单独设置的情况下。两者的功能是一样的。

Meta robots标签必须放在<head>和</head>之间,格式:

<meta name="robots" content="index,follow" />

content中的值决定允许抓取的类型,必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow,也可以理解为是否允许沿着网页中的超级链接继续抓取)。共有4个参数可选,组成4个组合:


  1. index,follow:允许抓取本页,允许跟踪链接。

  2. index,nofollow:允许抓取本页,但禁止跟踪链接。

  3. noindex,follow:禁止抓取本页,但允许跟踪链接。

  4. noindex,nofllow:禁止抓取本页,同时禁止跟踪本页中的链接。

<META NAME="ROBOTS" CONTENT="NOFOLLOW">

允许搜索引擎收录你的网页,但禁止其收录网页上的图片:

<META NAME="ROBOTS" CONTENT="NOIMAGEINDEX">

注:哪一个网页需要拦截或删除,则在那个网页添加<META> 标签,其他页面不会受影响。

<META> 标签针对的是具体的某个网页,而不是整个网站。


以上1和4还有另一种写法:

index,follow可以写成all,如:

<meta name="robots" content="all" />

noindex,nofollow可以写成none,如:

<meta name="robots" content="none" />

需要注意的是,robots Meta标签很多搜索引擎是不支持的,只有少数搜索引擎能够识别并按给定的值抓取。所以,尽可能的使用robots.txt文件来限制抓取。

最后,给大家一个建议,不要太刻意的在robots.txt中设置过多禁止文件或目录,只设置确实不希望被搜索引擎索引的目录和文件就可以了。

特别是在不清楚文件或目录的作用时,不要轻易禁止抓取。前阵一位做旅游的朋友,网站中有大量的旅游景点图片,几大搜索引擎中却都没有索引,后来对网站检查时发现图片目录upload在管理目录admin下,被robots.txt禁止抓取了。


上一篇:PHP去掉反斜杠处理函数addslashes()和stripslashes()

下一篇:mysql数据库登陆错误#1045:Access denied for user 'root'@'localhost' (using password: YES)

评论列表
发表评论
称呼
邮箱
网址
验证码(*)
热评文章
相关阅读