heiyeshuwu
发表于
2015-03-07 16:47:24

[转][转]文档去重算法：SimHash和MinHash

simhash与重复信息识别来源：http://grunt1223.iteye.com/blog/964564在工作学习中，我往往感叹数学奇迹般的解决一些貌似不可能完成的任务，并且十分希望将这种喜悦分享给大家，就好比说：“老婆，出来看上帝”……随着信息爆炸时代的来临，互联网上充斥着着大量的近重复信息，有效地识别它们是一个很有意义的课题。例如，对于搜索引擎的爬虫系统来说，收录重复的网页是毫无意义的，只会造成存储和计算资源的浪费；同时，展示重复的信息对于用户来说也并不是最好的体验。造成网页近重复的可能原因主要包括：镜像网站内容复制嵌入广告计数改变少量修改一个简化的爬虫系统架构如下图所示：事实上，传统比较两个文本相似性的方法，大多是将文本分词之后，转化为特征向量距离的度量，比如常见的欧氏距离、海明距离或者余弦角度等等。两两比较固然能很好地适应，但这种方法的一个最大的缺点就是，无法将其扩展到海量数据。例如，试想像Google那种收录了数以几十亿互联网信息的大型搜索引擎，每天都会通过爬虫的方式为自己的索引库新增的数百万网页，如果待收录每一条数据都去和网页库里面的每条记录算一下余弦角度，其计算量是相当恐怖的。我们考虑采用为每一个web文档通过hash的方式生成一个指纹（fingerprint）。传统的加密式hash，比如md5，其设计的目的是为了让整个分布尽可能地均匀，输入内容哪怕只有轻微变化 ...继续阅读 (30)

heiyeshuwu
发表于
2015-03-06 22:20:40

[转][转]百度搜索研发部：日志分析方法概述

日志在计算机系统中是一个非常广泛的概念，任何程序都有可能输出日志：操作系统内核、各种应用服务器等等。日志的内容、规模和用途也各不相同，很难一概而论。本文讨论的日志处理方法中的日志，仅指Web日志。其实并没有精确的定义，可能包括但不限于各种前端Web服务器——apache、lighttpd、tomcat等产生的用户访问日志，以及各种Web应用程序自己输出的日志。在Web日志中，每条日志通常代表着用户的一次访问行为，例如下面就是一条典型的apache日志：1211.87.152.44–-[18/Mar/2005:12:21:42+0800]“GET/HTTP/1.1″200899“http://www.baidu.com/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; Maxthon)”从上面这条日志中，我们可以得到很多有用的信息，例如访问者的IP、访问的时间、访问的目标网页、来源的地址以及访问者所使用的客户端的UserAgent信息等。如果需要更多的信息，则要用其它手段去获取：例如想得到用户屏幕的分辨率，一般需要使用js代码单独发送请求；而如果想得到诸如用户访问的具体新闻标题等信息，则可能需要Web应用程序在自己的代码里输出。为什么要分析日志毫无疑问，Web日志中包含了大量人们——主要是产品分析人员会感兴趣的信息，最简单的， ...继续阅读 (32)

heiyeshuwu
发表于
2015-03-06 22:14:59

[转][转]主流列式数据库评测:InfiniDB和MonetDB

在本系列的前2篇文章（主流列式数据库评测:南大通用GBase 8a和主流列式数据库评测之Infobright）中，列式存储数据库GBase 8a和Infobright给我们的印象是虽然在数据压缩上面有一些优势，整体查询性能还是落后于传统数据库的，下面要介绍的Calpont公司的基于MySQL的InfiniDB和学术组织开发的MonetDB在性能方面有更好的表现一、安装和Infobright类似，在InfiniDB网站注册一个免费用户就可以上获得社区版和企业试用版的下载，下载地址：http://infinidb.org/downloads/cat_view/40-binary-releases　(社区版)或　http://www.calpont.com/products/tryinfinidb　(企业试用版)。本文测试的InfiniDB版本是2010年12月20日发布的2.02版，下载文件名分别为InfiniDB64-2.0.2-2.exe 和InfiniDB64-ent-2.0.2-2.exe。安装文件大约在30兆字节。32位最新版只提供了InfiniDB社区版，企业版只有64位，包括Windows和Linux平台。64位InfiniDB在Windows 2008 x64上安装总是失败，但文档说是支持的，经技术人员确认，该安装文件只支持在windows 2008 R2 上安装。网站 ...继续阅读 (23)

http://blog.csdn.net/heiyeshuwu

[转][转]文档去重算法：SimHash和MinHash

[转][转]百度搜索研发部：日志分析方法概述

[转][转]主流列式数据库评测:InfiniDB和MonetDB