最近在CentOS5.0下安装配置好了CVS,在这里记录一下。
很多用户在装Linux的时候可能已经装上了CVS,可以直接跳到第二步。通过命令:
#rmp -qa | grep cvs
如果有cvs的版本信息的话,就表明已经装上了。否则先安装CVS
1.安装CVS
到CVS官方站点下载安装包,如cvs-1.11.18-cvshome.org.9x.1.i386.rpm
安装之:rpm -ivh cvs-1.11.18-cvshome.org.9x.1.i386.rpm
2.检查/etc/services文件
确保该文件中有如下两行,没有就加上:
cvspserver 2401/tcp # cvs client/server operations
cvspserver 2401/udp # cvs client/server operations
3.创建cvs的用户组与cvsroot用户:
创建CVS用户组:groupadd cvs
创建用户cvsroot:useradd -g cvs cvsroot
Continue reading →
Posted in 操作系统
|
Tagged Linux
|
| 编辑
其实很久以前就发现这个问题了,用putty访问远程主机的时候中文会显示乱码,但是一直将就着用,最近因为用的次数太多,实在是忍受不了了,才找了一下,原来还是很好设置的,记录一下:
在 window – appearance -font settings -change中选择一种中文字体,比如新宋体,字符集选CHINESE_GB2312,在 window – translation-Received data assumed to be in which character set ,设置为UTF-8。
另外,关于putty的粘贴复制,在putty中鼠标右键就是粘贴,用鼠标拖选之后就已经复制了。
Posted in 操作系统
|
Tagged Linux
|
| 编辑
呵呵,一个师姐所在的组刚刚发布的产品:
http://labs.soso.com/app.q?app=nameshow
蛮有意思……
您的名字马旭东文化印象得分86.82,其中名字内涵得分83.3,名字意境得分
90.33。
Continue reading →
Posted in 分享
|
Tagged 分享
|
| 编辑
How opinions are received by online communities: A case study on Amazon.com helpfulness votes.
Cristian Danescu-Niculescu-Mizil and Gueorgi Kossinets and Jon Kleinberg and Lillian Lee.
Proceedings of WWW, pp. 141--150, 2009.
该文主要对评论的有用程度(helpfulness of reviews)进行了研究。
文章针对亚马逊网站上对评论是否有用的投票数据进行研究,在amazon网站上,对于某一评论(review),通常包含两条属性,一条是该评论自身对商品的评分,另一条是别的用户对该评论是否有用的评价,类似“32人中有26人认为它有用”这样的描述。
该文主要做了以下几件事:
- 1.阐述了4种从社会学和心理学出发的对评论有用程度进行判定的假说。
- 2.通过实验验证(证实或证伪)了这些理论。
- 3.提出了一个简单的模型来解释实验数据呈现出的形式。
- 4.在证伪其中一个理论的时候,巧妙的借用了对“内容剽窃”的研究内容,排除了属性干扰。
下面分别详细介绍:
Continue reading →
Posted in Research
|
Tagged Paper, Research
|
| 编辑
最近看了本书,《观止——微软创建NT及未来的夺命狂奔》,看完有了点感触,随便写写……
第一次听说这本书就留下了很深的映像,源于它的书名——观止。之前只在《古文观止》和“叹为观止”中见到过这个词。当时很不理解,一本讲微软操作系统开发历程的书怎么会叫这么个名字。而它的副标题,也让我对它的映像大打折扣。
看了译者的序,才知道这是“showstoper”的翻译,showstoper在计算机行业特指软件产品中最为严重的一类bug,译者将其翻译为“观止”,从字面意思上倒是很呼应。
书是在一个星期五的早上送到的,快递员直接把我从被窝里叫醒,当天下午无所事事的时候开始看,而看完最后一页也正好是在上周五下午结束的时候,中间隔了两个星期。
Continue reading →
Posted in 散记
|
Tagged 散记, 读书
|
| 编辑
WordCount程序应该是学习MapReduce编程最经典的样例程序了,小小一段程序就基本概括了MapReduce编程模型的核心思想。
现在考虑实现一个增强版的WordCount程序,要求:
- 提供大小写忽略的选项。
- 在原始串中,过滤掉一些内容,例如要过滤hexie,那么单词hexieshehui就作为shehui统计。第一个很好实现,只需要在map函数里判断一下要不要toLowerCase()即可。第二个也很好实现,将需要过滤的内容组合成一个长字符串,通过JobConf设置即可,但是如果需要过滤的参数很多,多到需要从DFS上的文件里读取呢。显然,我们可以在map函数里直接读取DFS上的文件,但是这并不是最优的办法,Hadoop的官方文档提供的WordCount2.0给了一个很好的办法。该代码还包括了其他一些很有用的技巧,让我们来好好分析一下吧。

Continue reading →
Posted in 并行计算
|
Tagged MapReduce
|
| 编辑
1.reduce和map类似,每个task内部可以共享静态类属性,每个task可能会多次调用reduce()函数,但每个key只对应某节点上的某个task的reduce()函数的一次执行
2.多个tasks之间不能共享静态类属性,即使在同一台机器上,因为是以进程方式运行
3.一个key不可能被两个tasks拆分执行,不管是否在相同的节点上。
4. Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。
Continue reading →
Posted in 并行计算
|
Tagged Hadoop, MapReduce
|
| 编辑
小时候不少人都看过三维立体图片吧,记得要想第一次看出来还是很不容易的,我第一次看用了整整一个下午,不过一旦看出来之后,以后再看就容易的多了,后来的三维立体图基本都能在5秒之内看出来。
不过今天还是头一次看到ASCII版本的立体图,很惊艳,如下:
I (`\/`) I (`\/`) I (`\/`) I (`\/`) I (`\/`) I (`\/`)
OVE \ / LOVE \ / LOVE \ / LOVE \ / LOVE \ / LOVE \ / L
OU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ Y
/`) I (`\/`) I (`\/` I (`\Y/` I (`Y/` I \(`Y/` I \(`Y/
/ LOVE \ / LOVE\ / LOVE\ / `LVE\ / `LVE\ / `LVE\ /
/ YO U / YOU / YOU / YOU / YOU / Y`OU /
I (` \/`) I (`\/`) I (`\/`) I (`\/`) I(`\/`) I(`\/ `) I(`
LOVE\ / LOVE\ / LOVE\ / LOVE\ / LOV\ / LOV\ / LOV\
YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU
/`) I (`\/`) I(`\/`) I(`\/`) I(`\/`) I(`\/`) \I(`\/`)
/ LOVE\ / LOVE\ / LOVE\ / LOVE\ / LOVE\ / LOVE\ /
YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU \/
I (`\/`) I (`\/`) I (`\/`) I (`\/`) I (`\/` ) I (`\/` ) I
OVE\ / LOVE\ / LOVE\ / LOVE\ / LOVE\ \ / LOVE\ \ / LOV
OU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU
/`) I (`\/`) I (`\/`) I (\/`) I (\/ `) I (\/ `) I (\/
/ LOVE \ / LOVE \ / LOVE \ / LOVE \ / LOVE \ / LOVE \
/ YO U / YO U / YO U / YO U / YO U / YO U
I (`\/`) I (`\/`) I (`\/`) I (`\/`) I (`\/`) I (`\/`) I
OVE \ / LOVE \ / LOVE\ / LOVE\ / LOVE \ / LOVE \ / LO
OU \/ YOU \/ YOU \/ YOU \/ YOU \/ YOU \/ YO
by 3Dimka by 3Dimka by 3Dimka by 3Dimka by 3Dimka by 3Dimka
你能看出来吗?
这幅图的内容是(冒号后面的字体设置成了白色,请选中之后看。鼓励先试试,再看答案,实在看不出来的可以先看看文章下面的内容,再回头来看):中间是一个大的桃心,桃心的下面是一个小桃心和一个悬浮的“I Love You”。
可能第一次看ASCII立体图的同学还不太适应,不太容易看出来,那就试试下面这个:
Continue reading →
Posted in 分享
|
Tagged Interesting, 分享
|
| 编辑
今天无意中发现,在google搜索“madongfly”后排在第一的还是我最早的博客,为了全心(新)打理好现在这个博客,决定把它关了。
最初从博客网搬家到blogspot的时候,就曾经想过要不要关闭它。因为上面记录了我从参加ACM竞赛以来的整个成长历程,以及一些ACM常用算法介绍,而且在搜索引擎的排名中还算考前,觉得可能对别的同学,尤其是ACM刚入门的同学会有些帮助,于是便只删除了一些照片,保留了全部日志。
而现在看来,ACM竞赛的影响力越来越大,关于这方面的好的博客也层出不穷,不论是文章质量还是博主的水平,都已经远远超过了我,所以那个博客也没有在保留的必要了。
于是在2009年12月10日的最后15分钟,关闭了我的第一个博客,关闭前最后看了一眼统计,以做留念。
Posted in 散记
|
Tagged 散记
|
| 编辑
原文在此:Efficient Overlap and Content Reuse Detection in Blogs and Online News Articles
该文主要讲述了在博客和新闻的文章中如何进行内容复用的检测。作者提出了一种基于签名索引(Signature-Indexing)的算法qSign(Signature-Indexing for Incremental Reuse Detection)。
所谓signature files,是指在一个文件中,所包含的每一个word都通过hash映射到一个固定宽度的bit串,并且有相同数量的bit位为1,这个bit串就是这个word的signature。然后将所有这些word的signature通过位或操作全部按位或起来作为file的signature。
这样一来,检测一个查询的word是否和file匹配的话,就看这个word的signature和file的signature按位与之后会不会发生变化,如果不变,则匹配。显然,这样的识别会造成错误的匹配,即false positive,该文的目标之一就是在控制住误识率的情况下提高预测的召回率(recall)。
Continue reading →
Posted in Research
|
Tagged Paper, Research
|
| 编辑