
海量数据处理
文章平均质量分 54
hz_chenwenbiaoTMB
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
布尔代数与海量报警过滤和关联分析的算法研究(转)
现代的的编程语言已经做到很高级了,基本上不需要程序员去关注底层的实现了,已经不是师爷那个纸带打口编程的年代了,二进制已经渐渐被人遗忘掉了。尤其是使用更高级语言的程序员,例如Java,C#等。学过离散数学的人都知道,有专门研究二进制运算的一门学科称之为布尔代数。布尔代数简单得不能再简单了,运算的元素只有两个1和0 , 基本的运算也很简单。常用的有AND、 OR 和NOT ,小学一年级的小朋友都能...原创 2010-10-07 09:41:32 · 241 阅读 · 0 评论 -
几道大数据处理题(转)
1. 给A,B两个文件,各存放50亿条URL,每条URL占用64字节,内存限制是4G,让你找出A,B文件共同的URL。 分析:1MB = 2^20 = 10^6 = 100万1GB = 2^30 = 10^9 = 1亿 50亿url = 5G*64 Byte 整理方法如下:方法一:分别扫描A,B文件,根据hash(url)%k值将url划分到不同的k个...原创 2010-11-15 12:56:59 · 140 阅读 · 0 评论 -
面向海量服务的设计原则和策略总结(转)
互联网服务的特点就是面向海量级的用户,面向海量级的用户如何提供稳定的服务呢?这里,对这几年的一些经验积累和平时接触的一些理念做一个总结。 一、原则 1.Web服务的CAP原理 CAP指的是三个要素:一致性(Consistency)、可用性(Availability)、分区容忍性(Partition tolerance)。CAP原理指的是这三个要素最多只能同时...原创 2011-03-16 17:45:24 · 114 阅读 · 0 评论 -
面向海量服务的设计原则和策略总结(转)
互联网服务的特点就是面向海量级的用户,面向海量级的用户如何提供稳定的服务呢?这里,对这几年的一些经验积累和平时接触的一些理念做一个总结。 一、原则 1.Web服务的CAP原理 CAP指的是三个要素:一致性(Consistency)、可用性(Availability)、分区容忍性(Partition tolerance)。CAP原理指的是这三个要素最多...原创 2012-06-21 14:27:33 · 168 阅读 · 0 评论 -
100万个IP如何快速查询所属IP段? (转)
有30万条IP段记录,每条记录有startip和endip,给100万个IP如何快速查询所属IP段?然后统计每个段占多少个IP ? 一朋友提出的问题,据说可以 500w/s的查询速度。请讨论!另一朋友的想法创建个对象,就叫collection吧,这个对象包含三个成员变量,int size,long startIP, long endIP,提供get和set方法,之后在ma...原创 2012-07-04 00:08:09 · 1085 阅读 · 0 评论