2020-07-03:有1亿个数字,其中有2个是重复的,快速找到它,时间和空间要最优

本文深入探讨了数据去重的多种算法,包括双重遍历、排序、哈希存储、布隆过滤器、压缩位图、哈希分组及位图等方法。分析了每种方法的时间和空间复杂度,提出了在不同场景下的最佳实践。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在这里插入图片描述
福哥答案2020-07-03:

1.双重遍历。
时间复杂度是O(N^2)。

2.排序。
采用外部排序。时间复杂度是O(NlogN)。

3.遍历加哈希存储。
空间换时间,时间复杂度是O(N),空间复杂度是O(N)。这种方法适用于小数据量,在这里用明显不合适。

4.布隆过滤器。
根据公式计算,万分之一的失误率需要228M内存。个人感觉这种方法不太合适。

5.压缩位图。
根据我目前的分析,压缩位图适合稀疏存储,在这里用,效果不明显。32位整数总共有42亿个,这道题有1亿个数字,1/42算不算稀疏,就不得而知了。时间有限,没测试。

6.哈希分组。
这1亿个数字整数范围不限。
一个分组里有两个参数,一个参数保存数据,另一个参数保存个数DataCount。重复的数字一定在同一个分组中,然后对每一个分组进行遍历加哈希存储。如果DataCount过大,再次哈希分组。

7.位图。
32位整数范围,占用内存4G/8=512M。
最大值和最小值范围,占用内存 (max-min)/8+1,最小占用内存 1亿/8=不到12M。

结论:方法6和方法7都行。方法6适用的范围广,浮点数也行。方法7只适用于32位整数。


评论

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

福大大架构师每日一题

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值