Archive for the ‘Days of Our Life’ Category

关于爬虫

Tuesday, September 9th, 2008 | 51 views

一直传闻(传闻1传闻2百度除了派正常爬虫,还会派匿名爬虫来抓取网站信息。爬虫要伪装agent信息的原因很简单,可以做一些不想让人知道的事情。比如,疯狂抓取页面,可以不遵守Robots.txt等等。不过看了一些之前对百度的匿名爬虫的文章。我觉得有时候这个不一定是百度搜索引擎的爬虫(虽然ip是来自于百度公司的),很有可能一些匿名的爬虫是来源于百度一些研究性项目。我们实验室也写过爬虫寻找web service的描述文件(最后是利用google了….),以进行分析。由于算法的问题,实验性的爬虫可能会过度访问一些站点,以至于表现不是很道德。

我的blog也常常被微软live的伪装爬虫光顾(每天几十次),yahoo统计clicki统计等统计程序都认为是人而不是爬虫,但是它的行为显然不是,ip的区段都是米国微软公司的,ref URL是live中关于某个词的搜索页面,而我的页面排名在live搜索中很靠后,基本上正常人不会常常翻到搜索结果的最后几页。所以我怀疑这个爬虫是微软利用live的搜索结果在做些研究。

对于我这样这样访问量不多的小blog(一共每天150ip左右),爬虫的访问量要占总访问量的大部分,前两天还因为我的blog占用cpu过高而短时间内被dreamhost停止了服务。虽然dreamhost的口碑一般且过度销售,但是大概1天1000左右的ip对它而言还是可以接受的。这只能说明有大量的爬虫在访问我的blog。随着引向我blog的链接越来越多,来光顾的爬虫也越来越多。特别是做了几个插件之后,有了wordpress.org/extend/plugins到我blog的链接,随之而来的垃圾评论越来越多,每天100多个广告评论,相当崩溃。最近正想方法来避免一些有害爬虫的访问,比如判断ip,然后返回其404?待试验了再说。

一个优酷的视频比赛

Thursday, April 24th, 2008 | 1 views


这次的话题是关于我的数码混搭生活视频大赛。是优酷跟HP合作推广的HP Pavilion dv3000系列本本的活动。HP Pavilion dv3000之前听说过,是一个暴贵和暴多功能的本。我的数码混搭生活视频大赛这样的想法倒是蛮有趣的,对HP而言,自己的产品做了推广;对于优酷而言,既提高了自己站点内原创的视频又提高了站点的流量,可以说是双赢。

为了写这篇文章,特意看了很长时间的话题介绍(我的数码混搭生活视频大赛),和这次活动的官网。虽然是一个很有创意的活动,但是介绍的文字和方式实在是有欠火候,看了很久,还依然是云里雾里。我的总结是制作一份关于HP Pavilion dv3000的宣传短片,将HP Pavilion dv3000跟自己的生活相融合。如果这样的话,拍这个视频是不是首先得需要一台HP Pavilion dv3000的本本啊?如果只使用官方给的资料,作品会显得比较不切主题,这样的话会不会跟大奖无缘在?如果知道得不到大奖的参加的会不会少很多?看到目前官网上提交的视频极少,仅还有15个!如果官方能够提供一些更加便利措施的话会更加有趣,毕竟他的大奖是那么吸引人 :): 2台HP Pavilion dv3000,6台IPOD Nano3,15台电脑桌!实在是很丰盛。如果有条件,有时间参加一下蛮不错的,毕竟从目前的情况看来,获奖的可能超高。

不是很清楚为什么HP要做这样的推广,是不是HP Pavilion dv3000太贵卖不动了?如果参加这次比赛的人都去买这个本,那这次推广也算值得了 :)

随便说说

Friday, March 28th, 2008 | 1 views

今天晚上比较闲,手头堆着许多的事情,然而却没有去做。每当有这样的情绪产生,我知道我的懒病又犯了。

对于自己来说,最近快乐的事情并不多见,只是觉得有许多东西要忙碌而常常要去怀疑这忙碌的价值。有的时候,为一些自己并不在意的事情而忙碌倒真是一件不大爽快的事情。

不过平心想想,哪有那么好的运气经历那么多快乐的事情。对于一个社会,一个国家而言,也常常是如此的。干坐着或者坚持腐旧的状态是没有多少资格去经历许多快乐的。就像天朝吧,虽然常常可以在传统媒体见到许多面上令人快乐的事情,但稍想想,就明白就知道好多都在瞎扯。啥时候三权分立了,这个国家才会有点奔头。正如我呆坐在这里想我有了许多钱如何如何的yy是尽可以做的,但是总不会就这样实现了。

每次情绪低落,就要这样随便说说,虽然毫无内容,但总觉得自己可以暂时摆脱一会。

–EOF–

两篇语义网入门文章

Monday, March 24th, 2008 | 1 views

如果刚接触语义网,有许多疑惑,可以先看看这两篇文章。
1 Where are the semantics in the semantic web? (pdf, download
2 XML+RDF, 实现web数据基于语义的描述(via

尽管语义与语法在概念上有着巨大的区别,但其实是很容易让人感到困惑的。这两篇文章有助于理想这两概念之间的区别。

养草养花养乌龟

Sunday, March 16th, 2008 | 1 views

从大概去年六月份我这个懒人开始尝试着养些东西。最初是mm给我买的仙人掌,放到我实验室,目的是为了吸收点计算机放出来的辐射什么的。我不知道到底有没有效果,但也觉得仙人掌极其耐旱,就算是我,也或许能够养活。于是有点忐忑的把它放在了实验室里,在我的小隔间里,让它对着显示器的侧面。天天都要望它几眼,怕它在我手里会撑不下去,诚惶诚恐。

果然是不出所料,即便是沙漠都可以活着的仙人掌,过不了几天,就开始在我面前枯萎,腐烂。看着它死亡的样子,心底的感觉,那可真叫悲凉。我不同情仙人掌,我很同情我自己。

记得小的时候,我种太阳花,只要是家前院子里有土的地方就都是鲜艳,浓密的花朵。不仅有传统的黄色,还有红色,蓝色等其他品种。那花虽然是一天一谢,但是天天都有新花长出,天天有新的牙儿破土。

过了几天,就又去买了两只乌龟,一个很小,一个稍微大点。小的乌龟比较的爱动,吃的又很少,于是深得我的喜爱。整天跟它玩,让它在电脑前乱爬,把它放到小洞里边,让它用人的姿势爬出来。大点那位好静,好吃,好头对着玻璃看着外边的世界,日复一日。乌龟好养,好多人这么告诉我,我也觉得蛮有道理,好几个月了,它们竟然没有在我手里边牺牲掉。于是信心倍增,待天冷了些,就在筹划如何让他们安然过冬的事情——事关我的面子大事。看了不少资料,待到成竹在胸的时候,小乌龟忽然变得安静了,依然是不好吃,然后壳慢慢变软。好几次,我都以为它要死了,碰几下,它还能伸伸头。终于有一天,它不再有任何反应。那天晚上,我把它葬在了北洋园的一个花坛下面。

前两天,去西门吃饭,路上见到买花草的。那价格在通货膨胀极度变态的背景下显得令人难以置信的便宜。4元一盘,买白菜都不止这个价。我买了一盘宝石花,记得小时候表弟养过,开花不易,要看耐心和运气,但是一旦开了,那花是极好看的。打算每周六浇一次水。但愿它和还活着的那只大乌龟,都能安然无恙的过下去。

这两天天津虽然依然是毫无生气,半死不活的样子。但春天毕竟是已经来了,如果仔细的观察,可以看到青年湖边柳树细细的嫩芽了。忽然觉得应该养一盘冬天落叶的花,待来年春天见到它出来嫩芽,开出花朵的时刻,那必定个是十分开心,十分快乐的时刻。

随便说说

Friday, March 14th, 2008 | 1 views

不知道大家有没有听说过,精神病中有一种叫精神分裂。有些病人会幻想出一个虚拟的人,虚拟的环境,虚拟的事情。自己就活在着半个真实半个虚假的世界里边,自得其乐。有个电影叫美丽心灵,主角就是如此。有的时候虚拟出来的不一定是某人,而是某事,某病。但后者往往归到焦虑或者抑郁症中。其实,这里边是有很多相似之处的。

不知道为什么,我身边得抑郁症和焦虑症的人概率有点高。我熟识的人不多(真是很少),而得这种小概率病的人已经有四个了,人们都说这是一种天才病,只有天才才能得,看来这世界上的天才有不少都在我身边。:)

人改变事情,而事情也改变人,大的事情常常很彻底的改变一个人,不同的事情改变人不同的方面(…),但是人的有些东西在各种各样的事情前面都很改变。不知道有没有心理学家有兴趣去研究这个:对于人而言,性格里边哪些成分能够是永恒的?

难用的青檬

Friday, August 17th, 2007 | 1 views

青檬音乐台是一个在线流行音乐台,说的直白些就是把在线的radio music。用的概念也是收音电台的一套,榜单啊,排行啊,24小时*7播放啊。我收音机听不得不多,不知道这样的在线形式对于音乐台爱好者的吸引力有多大。

青檬的做法就是每周出一个榜单,称之为青檬流行歌曲榜,每期都有20首候选的歌曲,然后由用户评价对其进行排行。现在是第74期,扫了这期的榜单,生出来的感觉是:莫非我老了?这期里汪峰的这首北京北京还是比较耐听的,谈论城市的歌曲国内比较少见,一些迷离,一些虚幻,由于是汪峰的歌,因此还要有些忧伤,U2有首New York,似乎是歌曲一谈论城市,总要伪装成很有深度。不好意思,离题了。

青檬流行歌曲榜做的一个比较好的一点是用户可以对歌曲进行评价,而青檬不仅记录了这种评价,而且还追踪了用户的行为及变化规律,这是比较有意思的。下面举个例子:

下面是这首歌的排名记录:

好吧,然后谈谈这个站点的问题及其我的建议:
1:注册链接不好找,注册步骤过于烦琐,且注册完之后给出的导航太弱,让用户不知道该怎么办——没有准确的挖掘出用户来这个站点注册是为了什么?
2:界面过于混乱,似乎什么都想往一个页面塞,整个页面没有丝毫空余的地方,不仅让用户的眼睛非常累,同时也让用户的头非常累,单页信息量过多,又花花绿绿的,我觉得是个大忌。
3:我找了很久很久没有找到该如何去听以前榜单中的某一个首歌曲——真是很崩溃。或许是我找的能力太弱,但是作为一个网站——特别是自称web2.0以用户为中心的网站——寄希望于用户有很强的寻找能力是不合适的。
4:算是上一个问题的延续——我找不到搜索框。
5:照搬传统音乐台的做法,我觉得是不大吻合现在网络用户的想法。

淡水河边的烟火

Tuesday, August 14th, 2007 | 1 views

初听这首歌,是在中考完后的暑假,那个时候电脑上一直播着这首化哥的歌。之后一直都没有听过。

今天突然又找到了这首歌,慢慢的听,淡水河边的烟火——我也是在淡水河边长大的,虽然此淡水河非彼淡水河。
听久了,就有种舒服的忧伤,淡而亲切,是已经逝去的那段岁月。

歌是极好的书签,在某个年月常听的歌便是这个年月的书签,日后若想要重温这些岁月,这些情怀,便可打开这些书签,过去的许多酸甜便都隐隐的来。旋律流去,这种味道也随着浓厚起来。

准备迁移并升级

Friday, August 3rd, 2007 | 1 views

准备换地方,把这个空间搬到DreamHost去,花了我很多$-_-,另外准备把wordpress升级到2.2+。
东西总是越来越好的,不是么?

可是,生活是另外一回事情。
昨日看爱因斯坦的传记——我看过他很多个版本的传记了,每次看最大的感触就是——生活原来可以这样。

在琐碎而且无太多意义的东西前迷失,是件比较不划算的事情,但是由于我们胆小,我们缺乏安全感,我们因此承受很大压力,很大艰辛努力去各种追求中迷失自己,而不知道有的时候跳出来,跳出来看看外面的生活,看看这世界本来的面目,来获得一些本该有的欢乐。

关于

我叫陈炬,正在天津大学计算机学院->知识工程与科学研究所攻读硕士研究生。今年应届。您可以在我的自我介绍获得更多关于我的信息

订阅我的Blog


本站RSS地址| [这是什么?]
订阅到Google Reader | 订阅到 抓虾 阅读器 | 订阅到 鲜果 阅读器

其他blog

我还有一个英文blog,非常的无聊,琐碎,许多的语法错误。请谨慎访问。
Find entries :