双层桶总结

xushiyu1996818

于 2020-06-21 17:23:37 发布

阅读量384

点赞数

CC 4.0 BY-SA版权

分类专栏：算法算法-排序

本文链接：https://blog.csdn.net/xushiyu1996818/article/details/106888056

算法同时被 2 个专栏收录

22 篇文章

订阅专栏

算法-排序

15 篇文章

订阅专栏

双层桶划分是一种算法设计思想，用于处理大量数据。通过将数据划分为小单元并采用策略处理，适用于寻找第k大数、中位数、不重复数字等问题。基本原理是多次划分缩小范围，利用分治思想。例如，解决2.5亿整数中不重复个数问题，可先将数据分配到不同文件再用Bitmap处理；找2.5亿int的中位数，可分区域统计并确定中位数所在区域；在随机数生成器问题中，通过双层划分生成指定范围的无重复中奖号码列表。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考 https://blog.csdn.net/zhongguoren666/article/details/7094759

什么是双层桶

事实上，与其说双层桶划分是一种数据结构，不如说它是一种算法设计思想。面对一堆大量的数据我们无法处理的时候，我们可以将其分成一个个小的单元，然后根据一定的策略来处理这些小单元，从而达到目的。

适用范围

第k大，中位数，不重复或重复的数字

基本原理及要点

因为元素范围很大，不能利用直接寻址表，所以通过多次划分，逐步确定范围，然后最后在一个可以接受的范围内进行。可以通过多次缩小，双层只是一个例子，分治才是其根本（只是“只分不治”）。

扩展

当有时候需要用一个小范围的数据来构造一个大数据，也是可以利用这种思想，相比之下不同的，只是其中的逆过程。

问题实例

1).2.5亿个整数中找出不重复的整数的个数，内存空间不足以容纳这2.5亿个整数。

有点像鸽巢原理，整数个数为2^32,也就是，我们可以将这2^32个数，划分为2^8个区域(比如用单个文件代表一个区域)，然后将数据分离到不同的区域（先把数放到文件中，再一个个文件进行处理），然后不同的区域在利用bitmap就可以直接解决了。也就是说只要有足够的磁盘空间，就可以很方便的解决。当然这个题也可以用我们前面讲过的BitMap方法解决，正所谓条条大道通罗马~~~

2)2.5亿个int找它们的中位数。

这个例子比上面那个更明显。首先我们将int划分为2^16个区域，然后读取数据统计落到各个区域里的数的个数，之后我们根据统计结果就可以判断中位数落到那个区域，同时知道这个区域中的第几大数刚好是中位数。然后第二次扫描我们只统计落在这个区域中的那些数就可以了。

实际上，如果不是int是int64，我们可以经过3次这样的划分即可降低到可以接受的程度。即可以先将int64分成2^24个区域，然后确定区域的第几大数，在将该区域分成2^20个子区域，然后确定是子区域的第几大数，然后子区域里的数的个数只有2^20，就可以直接利用direct addr table进行统计了。

3).现在有一个0-30000的随机数生成器。请根据这个随机数生成器，设计一个抽奖范围是0-350000彩票中奖号码列表，其中要包含20000个中奖号码。

这个题刚好和上面两个思想相反，一个0到3万的随机数生成器要生成一个0到35万的随机数。那么我们完全可以将0-35万的区间分成35/3=12个区间，然后每个区间的长度都小于等于3万，这样我们就可以用题目给的随机数生成器来生成了，然后再加上该区间的基数。

那么要每个区间生成多少个随机数呢？计算公式就是：区间长度*随机数密度，在本题目中就是30000*（20000/350000）。最后要注意一点，该题目是有隐含条件的：彩票，这意味着你生成的随机数里面不能有重复，这也是我为什么用双层桶划分思想的另外一个原因。