关于新闻发布中搜索引擎对网站收录的问题
<meta content=all name="robots"><meta content=all name="googleot">
在对网站进行查看时发现了这两句语句。于是在网上搜索了一下,发现好像是让搜索引擎不要收录本站的这样的大概解释,我不知道是真是假,所以写上来,想问下制作者。这到底是什么意思,望能解释下 让搜索引擎对你的网站搜录用的。上面是用来填写关键词的 大姐。这个我当然知道,你去查下这两句话什么意思,再给我解释好吗?。。。/:041 禁止搜索引擎收录的方法
什么是robots.txt文件?
搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分。
请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件或者创建一个内容为空的robots.txt文件。
返回页首
robots.txt文件放在哪里?
robots.txt文件应该放在网站根目录下。举例来说,当spider访问一个网站(比如[url]http://www.abc.com[/url])时,首先会检查该网站中是否存在[url]http://www.abc.com/robots.txt[/url]这个文件,如果机器人找到这个文件,它就会根据这个文件的内容,来确定它访问权限的范围。
网站 URL 相应的 robots.txt的 URL
[url]http://www.w3.org/[/url] [url]http://www.w3.org/robots.txt[/url]
[url]http://www.w3.org:80/[/url] [url]http://www.w3.org:80/robots.txt[/url]
[url]http://www.w3.org:1234/[/url] [url]http://www.w3.org:1234/robots.txt[/url]
[url]http://w3.org/[/url] [url]http://w3.org/robots.txt[/url]
返回页首
我放置或者刚刚修改了robots.txt的内容,大约多长时间能生效?
baiduspider通常每天访问一次网站的robots.txt文件,您对robots所做的修改,会在48小时内生效。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。
返回页首
我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?
如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。
返回页首
禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引
百度支持通过设置网页的meta,防止搜索引擎显示网站的快照。方法如下:
要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的 <HEAD> 部分:
<meta name="robots" content="noarchive">
要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="baiduspider" content="noarchive">
注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
返回页首
robots.txt文件的格式
"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:
"<field>:<optionalspace><value><optionalspace>"。
在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow和Allow行,详细情况如下:
User-agent:
该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中,如果有多条User-agent记录说明有多个robot会受到"robots.txt"的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则对任何robot均有效,在"robots.txt"文件中,"User-agent:*"这样的记录只能有一条。如果在"robots.txt"文件中,加入"User-agent:SomeBot"和若干Disallow、Allow行,那么名为"SomeBot"只受到"User-agent:SomeBot"后面的Disallow和Allow行的限制。
Disallow:
该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help/index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html,不能访问/help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件,则对于所有的搜索引擎robot,该网站都是开放的。
Allow:
该项的值用于描述希望被访问的一组URL,与Disallow项相似,这个值可以是一条完整的路径,也可以是路径的前缀,以Allow项的值开头的URL是允许robot访问的。例如"Allow:/hibaidu"允许robot访问/hibaidu.htm、/hibaiducom.html、/hibaidu/com.html。一个网站的所有URL默认是Allow的,所以Allow通常与Disallow搭配使用,实现允许访问一部分网页同时禁止访问其它所有URL的功能。
需要特别注意的是Disallow与Allow行的顺序是有意义的,robot会根据第一个匹配成功的Allow或Disallow行确定是否访问某个URL。
使用"*"和"$":
baiduspider支持使用通配符"*"和"$"来模糊匹配url。
"$" 匹配行结束符。
"*" 匹配0或多个任意字符。
返回页首
URL匹配举例
Allow或Disallow的值 URL 匹配结果
/tmp /tmp yes
/tmp /tmp.html yes
/tmp /tmp/a.html yes
/tmp/ /tmp no
/tmp/ /tmphoho no
/tmp/ /tmp/a.html yes
/Hello* /Hello.html yes
/He*lo /Hello,lolo yes
/Heap*lo /Hello,lolo no
html$ /tmpa.html yes
/a.html$ /a.html yes
htm$ /a.html no
返回页首
robots.txt文件用法举例 例1. 禁止所有搜索引擎访问网站的任何部分
下载该robots.txt文件 User-agent: *
Disallow: /
例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
例3. 仅禁止baiduspider访问您的网站 User-agent: baiduspider
Disallow: /
例4. 仅允许baiduspider访问您的网站 User-agent: baiduspider
Disallow:
User-agent: *
Disallow: /
例5.禁止spider访问特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例6. 允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
例7. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
User-agent: *
Disallow: /cgi-bin/*.htm
例8. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。 User-agent: *
Allow: .htm$
Disallow: /
例9. 禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
返回页首
robots.txt文件参考资料
robots.txt文件的更具体设置,请参看以下链接:
· Web Server Administrator's Guide to the Robots Exclusion Protocol
· HTML Author's Guide to the Robots Exclusion Protocol
· The original 1994 protocol description, as currently deployed
· The revised Internet-Draft specification, which is not yet completed or implemented 下面一句还打错字了。。应该是googlebot Google 永远将品质放在第一位。因此,只有当网主提出取消网页记录的请求时,Google 才会删除这些网页的记录,以避免误删网页,保证搜索质量。
以下是各种不同的删除方式,通常需要六到八周的时间,即等到下一次 Google 漫游后才会生效。[xx521.com/google注:googlebot的漫游时间一般都不到六到八周,但其漫游后,robots.txt指定的文件,却不定一生效,基本要等到google dance后才能生效]
更改网址:
由于 Google 漫游器依网址来辨别网页,所以您不能自己更改目录里的网址。Google 下次漫游时都会自动更新这些网址。漫游器的行程是自动设定的,我们也没有办法让它提前到达您的网站。
如果您在 Google 漫游后更改了网址,您可以填写网页登录申请表,并按照下列说明删除旧网址。但还是要提醒您,登录的新网址不会马上生效,所以在 Google 下次漫游前的那段时间里,可能无法通过 Google 访问您的网站。
我们建议您要求各网站更新当前指向您的旧网站的链接,使其指向您的新网站,而不要申请更改网址。另外,请不要忘记更改您在 Yahoo! 目录和其它网页目录中的记录。最后,如果您的旧网址使用 HTTP 301(永久)重定向指向您的新网站,Google 漫游时会自动获知新网址,并在六到八周内自动进行更新。
删除整个网站
要从 Google 目录中删除整个网站或部份网页的记录,可以在您服务器的根目录中放置一个 robots.txt 文件。
如果您不希望 Google 漫游器或其它搜索引擎进入您的网站,请在服务器的根目录中放入一个 robots.txt 文件,其内容如下:
User-Agent: *
Disallow: /
这是大部份网络漫游器都会遵守的标准协议,加入这些协议后,它们将不会再漫游您的网络服务器或目录。有关 robots.txt 文件的详细信息,请访问:[url]http://www.robotstxt.org/wc/norobots.html[/url]。
删除个别网页:
如果只需要保护个别网页,可在那一页加入以下 HTML 代码:
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
如果您不介意其它漫游器,而单单不喜欢 Google,请加入以下代码:
<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
有关这个标准 meta 标签的详细信息,请访问:[url]http://www.robotstxt.org/wc/exclusion.html#meta[/url]。
删除网页摘要:
网页摘要是结果页上的文字摘要,其中所有关键词均以粗体显示。选择网页之前,可以通过这些摘要浏览一下搜索词在网页中的上下文。大部份人都会先选择有合适网页摘要的网页。
如果您不希望 Google 提供您网页的摘要,请在网页中加入以下代码:
<META NAME="GOOGLEBOT" CONTENT="NOSNIPPET">
请注意:删除网页摘要的同时也会删除网页快照。
删除网页快照:
Google 在网络上漫游时会保存大量文档中的文字。如果因保存网页的网络服务器出现临时故障而无法访问原始网页,最终用户还可以查看这些网页“快照”。这些网页快照是 Google 上次漫游时网页的内容。当您查看网页快照时,其顶部标题将提醒您这是快照,而不是实际网页。
如果您不希望任何漫游器保存您网页的快照,请将 meta 标签 NOARCHIVE 放入网页 HTML 代码的 <HEAD> 部份,如下所示:
<META NAME="ROBOTS" CONTENT="NOARCHIVE">
如果您不介意其它漫游器,而单单不喜欢 Google,请加入以下代码:
<META NAME="GOOGLEBOT" CONTENT="NOARCHIVE">
请注意:此标签只删除“网页快照”链接,Google 仍会记录该网页,并显示网页摘要。
删除失效链接
Google 会定期自动更新整个网页目录。在网上漫游时,Google 会自动查找新的网页,删除失效的链接,并更新旧的链接。对于已经过时的链接,Google 极有可能在下次漫游时将其删除。
删除 Google 图像目录中的图像
我们不会随便删除 Google 图像目录中的图片,除非网主亲自要求我们这样做。您可以请网站管理员在服务器的根目录中放入一个 robots.txt 文件。(如果不行,可以将其放到您的目录中。)
示例:如果您的网站上有 [img]www.yoursite.com/images/dogs.jpg[/img],但您不希望 Google 收录 dogs.jpg 这张图片,您可以增加 [url]www.yoursite.com/robots.txt[/url] 文件,其内容如下:
User-Agent: Googlebot-Image
Disallow: /images/dogs.jpg
如果要删除网站里所有图片的记录,请将包含以下内容的 robots.txt 文件放入服务器根目录:
User-Agent: *
Disallow: /
这是大部份网络漫游器都会遵守的标准协议,加入这些协议后,它们将不会再漫游您的网络服务器或目录。有关 robots.txt 文件的详细信息,请访问:[url]http://www.robotstxt.org/wc/norobots.html[/url]。
请注意:如果您的情况非常紧急,不能等到 Google 下次漫游您的网站时再进行删除,请使用我们的自动网址删除程序。您的网站管理员必须先创建一个 robots.txt 文件并将其放在您的网站中,这个自动程序才能工作。
只要您网络服务器的根目录中有这个 robots.txt 文件,Google 漫游器就不会进入您的网站。如果您无权访问服务器的根目录,也可以将 robots.txt 文件放在要拒绝漫游器进入的目录中。如果这样做或使用自动删除程序,Google 会暂时(90 天)从 Google目录中删除您的网站记录。(如果 robots.txt 文件不在根目录中,需要每隔 90 天再通过网址删除程序登记一次。)
责任编辑:冰河 没个人来回答吗?/:041 其实你自己已经找到答案了
不过没有 robots.txt文件 那两句也没多大用处 不明白,作者为什么要这么做呢,即然共享了。。还要这么做是不是有点。。。。。
回复 9# 冰箱里的鱼 的帖子
/:yy70 /:yy61我火了你
恩,有道理,顶,顶了
[size=2]恩,有道理,说的不差,顶了,呵呵,嘿嘿[/size] 4楼正解,猛哇页:
[1]