维佳网站调试时用的是动态网址,因为是5年的老域名百度收录挺快,先给我收录了,现在我需要把这些网址从百度的搜索结果中删除掉。我先在百度死链中 提交了一小部分的URL,因为网址过万,收集这些麻烦实在太麻烦,所以想尝试用robots.txt试试能不能让百度把那些搜索结果删除掉。写法如下:
User-agent: *
Disallow: /vod/*.html
Disallow: /vodplay/*.html
Disallow: /vodlist/*.html
Disallow: /bf/*.html
Disallow: /user/
用*禁止访问目录下的所有以”.html”为后缀的URL(包含子目录)
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
这么设定robots当然这是最理想的效果,因为除了后面2个设定是完全正确之外,开始的3个设定都是一种猜测,我不能确定/vod/*.html 是指实际存在的html还是能够包含那些仿伪静态的网址,maccms用的是仿伪静态的网址,如/vod/?20324.html,/vod /*.html前面可是有个问号的,不知道*能不能替代问号。我需要实现的是禁止访问目录中所有包含问号的网址,但没有案例,不敢随便写。
用Disallow: /vod/*.html应该不会出现比百度收录那些已经打不开又不会返回404状态并且还跳转到首页的仿伪静态网址结果更好吧,因为这些仿伪静态网址会返 回200状态,从而让百度以为这种网址是正常的,但实际上却只是跳转到首页的一个提示页面。跳转页面对于搜索引擎来说并不是友好的行为,有可能导致网站被 K。暗幕就是因为这样已经在被K了,搜索结果中首页还是9月20的快照页面,导致网站不被收录。
robots.txt文件生效时间
robots.txt文件一般生效时间为7-15天,即1-2周。如果新网站源码中包含robots.txt文件,那样蜘蛛进行爬行时就会生效,如果是后来添加的,那样蜘蛛需要对数据进行更新,时间一般在7-15天。
这是从百度百科上找到的,先记录下上传robots.txt文件时间然后再对照下生效时间就能知道这个大概的时间是否适合百度了。
百度目录收录维佳23个页面,其中大部分都是仿伪静态的网址,正确的网址已经开始收录3条了,这还是我没有上传robots.txt文件时百度自动更新的结果。今天是2013年11月9日,希望最迟15天后百度能够把那些仿伪静态的网址删除掉,开始收录正常的页面。暗幕也在今天上传robots.txt文件。
文件如下,不会出现像维佳那样的猜测情况,因为暗幕一开始就是用的静态网址,规则完全正确。
User-agent: *
Disallow: /list/*.html
Disallow: /play/*.html
Disallow: /view/*.html
Disallow: /user/
优化记录
2013年11月9日
分别为维佳和暗幕上传了robots.txt文件。
2013年11月10日
今晚在乐收推广上为这2个站发了好些网址,已经有效了,暗幕很没见更新也根据我发布在乐收的网址收录了几个页面。
维佳的百度反应更快,将以前的仿伪静态的网址全删除了不说,还收录我发布的10几条推广信息。
可见在上传robots.txt后还是需要对外做下宣传才能带动百度蜘蛛的反应。
2013年11月11日
维佳收录没上升,9个记录
暗幕以前的那些个网址看统计数据,貌似还没有删除但已经添加新的收录进去了,是个好现象。
2013年11月12日
维佳收录照样是9个记录
暗幕的从昨天55到今天的71,已经更新新内容了,但奇怪的是我能确保不会出问题的robots.txt竟然还没能把那些不用的网址删除掉,只是在不断的添加新收录进去。首页在第2页第1位,即排名11.
。。。。。博客被攻击,停止更新本文,但网站一直在断断续续的更新着。。。。
2014年2月10日
暗幕收录906个页面
维佳收录441个页面
2个站点那些废弃的网址总算被删除的七七八八,因为博客被攻击丢失很多内容后心情不好关闭博客并停止记录好长一段时间了,这个记录算是作废了,只能表明百度对robots.txt的反应时间并不快,尤其是要百度删除已经收录的页面时反应速度更慢。
(此文是在百度缓存页面里找回来的)