关于爬虫
一直传闻(传闻1,传闻2)百度除了派正常爬虫,还会派匿名爬虫来抓取网站信息。爬虫要伪装agent信息的原因很简单,可以做一些不想让人知道的事情。比如,疯狂抓取页面,可以不遵守Robots.txt等等。不过看了一些之前对百度的匿名爬虫的文章。我觉得有时候这个不一定是百度搜索引擎的爬虫(虽然ip是来自于百度公司的),很有可能一些匿名的爬虫是来源于百度一些研究性项目。我们实验室也写过爬虫寻找web service的描述文件(最后是利用google了….),以进行分析。由于算法的问题,实验性的爬虫可能会过度访问一些站点,以至于表现不是很道德。
我的blog也常常被微软live的伪装爬虫光顾(每天几十次),yahoo统计和clicki统计等统计程序都认为是人而不是爬虫,但是它的行为显然不是,ip的区段都是米国微软公司的,ref URL是live中关于某个词的搜索页面,而我的页面排名在live搜索中很靠后,基本上正常人不会常常翻到搜索结果的最后几页。所以我怀疑这个爬虫是微软利用live的搜索结果在做些研究。
对于我这样这样访问量不多的小blog(一共每天150ip左右),爬虫的访问量要占总访问量的大部分,前两天还因为我的blog占用cpu过高而短时间内被dreamhost停止了服务。虽然dreamhost的口碑一般且过度销售,但是大概1天1000左右的ip对它而言还是可以接受的。这只能说明有大量的爬虫在访问我的blog。随着引向我blog的链接越来越多,来光顾的爬虫也越来越多。特别是做了几个插件之后,有了wordpress.org/extend/plugins到我blog的链接,随之而来的垃圾评论越来越多,每天100多个广告评论,相当崩溃。最近正想方法来避免一些有害爬虫的访问,比如判断ip,然后返回其404?待试验了再说。






6 个评论 关于 “关于爬虫”
By wonsore on Sep 9, 2008 |
个人认为安装验证码工具还是很有必要的
有人说可以选择验证留言
可有时候SPAM洪水一样,删都来不及。
陈炬 回复说:
September 9th, 2008 at 7:55 pm
不知道什么原因,本想在你blog下面留言交换链接的,发现验证码那一块是黑色的,看不清。。。。
不过好像spam是trackback的,验证码也没用啊~
wonsore 回复说:
September 9th, 2008 at 7:57 pm
呵呵好啊,我这就去加。你看到是黑的原因是那会我在搞插件。。WP CACHE。。
By Siuloong on Sep 11, 2008 |
每天这么多垃圾评论,有点吓人。
陈炬 回复说:
September 11th, 2008 at 11:57 am
幸亏有了akismet,哈哈~
By shamas on Oct 8, 2008 |
我空间正常访问网页的带宽只有70M左右,但是还有将近这么多的带宽占用不知是哪儿来的