关于爬虫
Tuesday, September 9th, 2008 68 views一直传闻(传闻1,传闻2)百度除了派正常爬虫,还会派匿名爬虫来抓取网站信息。爬虫要伪装agent信息的原因很简单,可以做一些不想让人知道的事情。比如,疯狂抓取页面,可以不遵守Robots.txt等等。不过看了一些之前对百度的匿名爬虫的文章。我觉得有时候这个不一定是百度搜索引擎的爬虫(虽然ip是来自于百度公司的),很有可能一些匿名的爬虫是来源于百度一些研究性项目。我们实验室也写过爬虫寻找web service的描述文件(最后是利用google了….),以进行分析。由于算法的问题,实验性的爬虫可能会过度访问一些站点,以至于表现不是很道德。
我的blog也常常被微软live的伪装爬虫光顾(每天几十次),yahoo统计和clicki统计等统计程序都认为是人而不是爬虫,但是它的行为显然不是,ip的区段都是米国微软公司的,ref URL是live中关于某个词的搜索页面,而我的页面排名在live搜索中很靠后,基本上正常人不会常常翻到搜索结果的最后几页。所以我怀疑这个爬虫是微软利用live的搜索结果在做些研究。
对于我这样这样访问量不多的小blog(一共每天150ip左右),爬虫的访问量要占总访问量的大部分,前两天还因为我的blog占用cpu过高而短时间内被dreamhost停止了服务。虽然dreamhost的口碑一般且过度销售,但是大概1天1000左右的ip对它而言还是可以接受的。这只能说明有大量的爬虫在访问我的blog。随着引向我blog的链接越来越多,来光顾的爬虫也越来越多。特别是做了几个插件之后,有了wordpress.org/extend/plugins到我blog的链接,随之而来的垃圾评论越来越多,每天100多个广告评论,相当崩溃。最近正想方法来避免一些有害爬虫的访问,比如判断ip,然后返回其404?待试验了再说。