linux下部署CVS服务

最近在CentOS5.0下安装配置好了CVS,在这里记录一下。

很多用户在装Linux的时候可能已经装上了CVS,可以直接跳到第二步。通过命令:
#rmp -qa | grep cvs
如果有cvs的版本信息的话,就表明已经装上了。否则先安装CVS

1.安装CVS

到CVS官方站点下载安装包,如cvs-1.11.18-cvshome.org.9x.1.i386.rpm

安装之:rpm -ivh cvs-1.11.18-cvshome.org.9x.1.i386.rpm

2.检查/etc/services文件
确保该文件中有如下两行,没有就加上:
cvspserver 2401/tcp # cvs client/server operations
cvspserver 2401/udp # cvs client/server operations

3.创建cvs的用户组与cvsroot用户:
创建CVS用户组:groupadd cvs
创建用户cvsroot:useradd -g cvs cvsroot

Continue reading

Posted in 操作系统 | Tagged | Leave a comment

putty 中文乱码问题

其实很久以前就发现这个问题了,用putty访问远程主机的时候中文会显示乱码,但是一直将就着用,最近因为用的次数太多,实在是忍受不了了,才找了一下,原来还是很好设置的,记录一下:

在 window – appearance -font settings -change中选择一种中文字体,比如新宋体,字符集选CHINESE_GB2312,在 window – translation-Received data assumed to be in which character set ,设置为UTF-8。

另外,关于putty的粘贴复制,在putty中鼠标右键就是粘贴,用鼠标拖选之后就已经复制了。

Posted in 操作系统 | Tagged | Leave a comment

名字如诗

呵呵,一个师姐所在的组刚刚发布的产品:

http://labs.soso.com/app.q?app=nameshow

蛮有意思……

您的名字马旭东文化印象得分86.82,其中名字内涵得分83.3,名字意境得分
90.33

Continue reading

Posted in 分享 | Tagged | Leave a comment

Amazon用户评价体系研究

How opinions are received by online communities: A case study on Amazon.com helpfulness votes.
Cristian Danescu-Niculescu-Mizil and Gueorgi Kossinets and Jon Kleinberg and Lillian Lee.
Proceedings of WWW, pp. 141--150, 2009.

该文主要对评论的有用程度(helpfulness of reviews)进行了研究。

文章针对亚马逊网站上对评论是否有用的投票数据进行研究,在amazon网站上,对于某一评论(review),通常包含两条属性,一条是该评论自身对商品的评分,另一条是别的用户对该评论是否有用的评价,类似“32人中有26人认为它有用”这样的描述。

该文主要做了以下几件事:

  • 1.阐述了4种从社会学和心理学出发的对评论有用程度进行判定的假说。
  • 2.通过实验验证(证实或证伪)了这些理论。
  • 3.提出了一个简单的模型来解释实验数据呈现出的形式。
  • 4.在证伪其中一个理论的时候,巧妙的借用了对“内容剽窃”的研究内容,排除了属性干扰。

下面分别详细介绍:
Continue reading

Posted in Research | Tagged , | 1 Comment

美好的旧日时光

最近看了本书,《观止——微软创建NT及未来的夺命狂奔》,看完有了点感触,随便写写……

第一次听说这本书就留下了很深的映像,源于它的书名——观止。之前只在《古文观止》和“叹为观止”中见到过这个词。当时很不理解,一本讲微软操作系统开发历程的书怎么会叫这么个名字。而它的副标题,也让我对它的映像大打折扣。

看了译者的序,才知道这是“showstoper”的翻译,showstoper在计算机行业特指软件产品中最为严重的一类bug,译者将其翻译为“观止”,从字面意思上倒是很呼应。

书是在一个星期五的早上送到的,快递员直接把我从被窝里叫醒,当天下午无所事事的时候开始看,而看完最后一页也正好是在上周五下午结束的时候,中间隔了两个星期。
Continue reading

Posted in 散记 | Tagged , | 1 Comment

MapReduce入门程序WordCount增强版

WordCount程序应该是学习MapReduce编程最经典的样例程序了,小小一段程序就基本概括了MapReduce编程模型的核心思想。

现在考虑实现一个增强版的WordCount程序,要求:

  • 提供大小写忽略的选项。
  • 在原始串中,过滤掉一些内容,例如要过滤hexie,那么单词hexieshehui就作为shehui统计。第一个很好实现,只需要在map函数里判断一下要不要toLowerCase()即可。第二个也很好实现,将需要过滤的内容组合成一个长字符串,通过JobConf设置即可,但是如果需要过滤的参数很多,多到需要从DFS上的文件里读取呢。显然,我们可以在map函数里直接读取DFS上的文件,但是这并不是最优的办法,Hadoop的官方文档提供的WordCount2.0给了一个很好的办法。该代码还包括了其他一些很有用的技巧,让我们来好好分析一下吧。 :)
    Continue reading
Posted in 并行计算 | Tagged | Leave a comment

MapReduce 笔记

1.reduce和map类似,每个task内部可以共享静态类属性,每个task可能会多次调用reduce()函数,但每个key只对应某节点上的某个task的reduce()函数的一次执行

2.多个tasks之间不能共享静态类属性,即使在同一台机器上,因为是以进程方式运行

3.一个key不可能被两个tasks拆分执行,不管是否在相同的节点上。

4. Hadoop Map/Reduce框架为每一个InputSplit产生一个map任务,而每个InputSplit是由该作业的InputFormat产生的。
Continue reading

Posted in 并行计算 | Tagged , | Leave a comment

ASCII版的三维立体图片

小时候不少人都看过三维立体图片吧,记得要想第一次看出来还是很不容易的,我第一次看用了整整一个下午,不过一旦看出来之后,以后再看就容易的多了,后来的三维立体图基本都能在5秒之内看出来。

不过今天还是头一次看到ASCII版本的立体图,很惊艳,如下:

I  (`\/`) I  (`\/`) I  (`\/`) I  (`\/`) I  (`\/`) I  (`\/`)
OVE \  / LOVE \  / LOVE \  / LOVE \  / LOVE \  / LOVE \  / L
OU   \/  YOU   \/  YOU   \/  YOU   \/  YOU   \/  YOU   \/  Y
/`)  I (`\/`)  I (`\/`  I (`\Y/`  I (`Y/`  I \(`Y/`  I \(`Y/
  / LOVE \  / LOVE\  / LOVE\  / `LVE\  / `LVE\  /  `LVE\  /
 /  YO U   /  YOU   /  YOU   /  YOU   /  YOU   /  Y`OU   /
 I (` \/`) I (`\/`) I (`\/`) I (`\/`) I(`\/`)  I(`\/ `)  I(`
LOVE\   / LOVE\  / LOVE\  / LOVE\  / LOV\  /  LOV\  /   LOV\
YOU   \/  YOU  \/  YOU  \/  YOU  \/  YOU \/   YOU \/    YOU
/`)  I (`\/`)  I(`\/`)  I(`\/`)  I(`\/`)  I(`\/`)  \I(`\/`)
 / LOVE\   / LOVE\  / LOVE\  / LOVE\  / LOVE\  /  LOVE\  /
    YOU \/    YOU \/   YOU \/   YOU \/   YOU \/    YOU \/
I  (`\/`) I  (`\/`) I (`\/`) I (`\/`) I (`\/` ) I (`\/` ) I
OVE\   / LOVE\   / LOVE\  / LOVE\  / LOVE\ \ / LOVE\ \ / LOV
OU  \/   YOU  \/   YOU  \/  YOU  \/  YOU   \/  YOU   \/  YOU
/`)  I (`\/`)  I (`\/`)  I (\/`)  I (\/ `)  I (\/ `)  I (\/
  / LOVE \  / LOVE \  / LOVE \ / LOVE  \ / LOVE  \ / LOVE  \
 /  YO U   /  YO U   /  YO U   / YO  U   / YO  U   / YO  U
I  (`\/`) I  (`\/`) I (`\/`)  I (`\/`) I  (`\/`) I  (`\/`) I
OVE \  / LOVE \  / LOVE\  /  LOVE\  / LOVE \  / LOVE \  / LO
OU   \/  YOU   \/  YOU  \/   YOU  \/  YOU   \/  YOU   \/  YO
by 3Dimka by 3Dimka by 3Dimka by 3Dimka by 3Dimka by 3Dimka

你能看出来吗?
这幅图的内容是(冒号后面的字体设置成了白色,请选中之后看。鼓励先试试,再看答案,实在看不出来的可以先看看文章下面的内容,再回头来看):中间是一个大的桃心,桃心的下面是一个小桃心和一个悬浮的“I Love You”。

可能第一次看ASCII立体图的同学还不太适应,不太容易看出来,那就试试下面这个:
Continue reading

Posted in 分享 | Tagged , | 6 Comments

关闭了我的第一个博客

今天无意中发现,在google搜索“madongfly”后排在第一的还是我最早的博客,为了全心(新)打理好现在这个博客,决定把它关了。

最初从博客网搬家到blogspot的时候,就曾经想过要不要关闭它。因为上面记录了我从参加ACM竞赛以来的整个成长历程,以及一些ACM常用算法介绍,而且在搜索引擎的排名中还算考前,觉得可能对别的同学,尤其是ACM刚入门的同学会有些帮助,于是便只删除了一些照片,保留了全部日志。stat

而现在看来,ACM竞赛的影响力越来越大,关于这方面的好的博客也层出不穷,不论是文章质量还是博主的水平,都已经远远超过了我,所以那个博客也没有在保留的必要了。

于是在2009年12月10日的最后15分钟,关闭了我的第一个博客,关闭前最后看了一眼统计,以做留念。

Posted in 散记 | Tagged | Leave a comment

Content Reuse Detection 文章内容复用检测

原文在此:Efficient Overlap and Content Reuse Detection in Blogs and Online News Articles

该文主要讲述了在博客和新闻的文章中如何进行内容复用的检测。作者提出了一种基于签名索引(Signature-Indexing)的算法qSign(Signature-Indexing for Incremental Reuse Detection)。

所谓signature files,是指在一个文件中,所包含的每一个word都通过hash映射到一个固定宽度的bit串,并且有相同数量的bit位为1,这个bit串就是这个word的signature。然后将所有这些word的signature通过位或操作全部按位或起来作为file的signature。

这样一来,检测一个查询的word是否和file匹配的话,就看这个word的signature和file的signature按位与之后会不会发生变化,如果不变,则匹配。显然,这样的识别会造成错误的匹配,即false positive,该文的目标之一就是在控制住误识率的情况下提高预测的召回率(recall)。
Continue reading

Posted in Research | Tagged , | Leave a comment