Java面试-HashSet 的实现原理：基于 HashMap

最新推荐文章于 2025-09-01 13:57:11 发布

Jinkxs

最新推荐文章于 2025-09-01 13:57:11 发布

阅读量794

点赞数 16

CC 4.0 BY-SA版权

分类专栏： Java面试200问文章标签： java 面试开发语言

本文链接：https://blog.csdn.net/qq_41187124/article/details/151020412

Java面试200问专栏收录该内容

43 篇文章

订阅专栏

请添加图片描述

👋 欢迎阅读《Java面试200问》系列博客！

🚀大家好，我是Jinkxs，一名热爱Java、深耕技术一线的开发者。在准备和参与了数十场Java面试后，我深知面试不仅是对知识的考察，更是对理解深度与表达能力的综合检验。

✨本系列将带你系统梳理Java核心技术中的高频面试题，从源码原理到实际应用，从常见陷阱到大厂真题，每一篇文章都力求深入浅出、图文并茂，帮助你在求职路上少走弯路，稳拿Offer！

🔍今天我们要聊的是：《HashSet 的实现原理：基于 HashMap》。准备好了吗？Let’s go！

🔍 `HashSet` 的“影子”：深度揭秘，它如何用 `HashMap` 演绎“集合”的“无中生有”！

“在 Java 的‘数据结构’王国里，
HashSet 从不‘单打独斗’，
它有一个‘影子伙伴’——HashMap。
HashSet 说：‘我负责对外宣称“集合”’，
HashMap 笑：‘我才是幕后真正的“存储大脑”’。
今天，就让我们揭开 HashSet 的‘神秘面纱’，
看它如何用 HashMap 的‘键’，
演绎一场‘无中生有’的‘去重’艺术！”

📚 目录导航（建议收藏，随时查阅）

📜 序章：Set 的“去重”梦想与 HashSet 的“借力”智慧
🧠 核心原理：HashSet 如何“寄生”于 HashMap
🔍 源码剖析：HashSet 的“心脏”与 HashMap 的“血液”
🧩 关键操作解析：add()、remove()、contains() 的“幕后交易”
🚀 性能分析：HashSet 的“时间”与“空间”代价
🎯 使用场景与注意事项
🧠 面试官最爱问的 5 个“灵魂拷问”
🔚 终章：HashSet 的“哲学”——“存在”即“键”

1. 序章：`Set` 的“去重”梦想与 `HashSet` 的“借力”智慧

场景：公司项目，需要存储用户标签（tag），要求不能重复。

主角：

小李：95后程序员，想用 List 存，然后每次 add 前手动 contains 检查。
王总：80后 CTO，HashSet 的“布道者”。

小李：“王总，我用 ArrayList 存标签，add 前先 list.contains(tag)，如果不存在再 add。这样就能去重了！”

王总（摇头）：“小李，List 的 contains 是线性查找，时间复杂度 O(n)！随着标签增多，每次 add 都要遍历整个列表，效率极低！”

小李（困惑）：“那… 有什么好办法？”

王总（自信）：“当然有！用 HashSet！它能保证唯一性，且 add、remove、contains 操作的平均时间复杂度是 O(1)！”

小李（惊讶）：“O(1)？这么快？它内部是怎么实现的？”

王总（神秘一笑）：“HashSet 自己没有‘存储’的秘密。它的‘大脑’，其实是 HashMap！它巧妙地把‘元素’当作 HashMap 的‘键’，而用一个‘傀儡对象’当作‘值’。去重的魔法，全靠 HashMap 的‘哈希机制’和‘键唯一性’！这就是‘借力打力’的智慧！”

🔥 小李恍然大悟：原来 HashSet 的“去重”梦想，是通过“寄生” HashMap 实现的！

2. 核心原理：`HashSet` 如何“寄生”于 `HashMap`

HashSet 并非一个独立的数据结构，它是一个包装类（Wrapper Class），其底层完全依赖于 HashMap。

🔷 核心思想

元素即键：HashSet 将其存储的每一个元素，都作为 HashMap 的一个键（key）。
值即傀儡：HashMap 的值（value）部分，被一个静态的、空的、不变的 Object 对象（通常称为 PRESENT）占据。这个值没有任何实际意义，纯粹是为了满足 HashMap 的“键值对”存储要求。
去重即键唯一：HashMap 天生保证键的唯一性。当尝试将一个已存在的元素（作为 key）放入 HashMap 时，put 操作会返回旧的 value（即 PRESENT），并用新的 value（还是 PRESENT）覆盖它。HashSet 利用这个特性，通过判断 put 的返回值是否为 null 来确定元素是否是新添加的。

🔧 工作流程图解

HashSet<String> set = new HashSet<>();

// 当执行 set.add("Java")
// 相当于执行了：
//   map.put("Java", PRESENT)

HashSet
      |
      +-- private transient HashMap<E,Object> map; (底层 HashMap)
            |
            +-- HashMap
                  |
                  +-- table (桶数组)
                        |
                        +-- Node(hash="Java".hashCode(), key="Java", value=PRESENT, next=...)
                        |
                        +-- ... (其他桶)

💡 一句话总结：HashSet = HashMap 的 key 集合 + 一个无意义的 value (PRESENT)。

3. 源码剖析：`HashSet` 的“心脏”与 `HashMap` 的“血液”

让我们深入 HashSet 的源码（JDK 8），看它是如何“指挥” HashMap 的。

import java.util.HashMap;
import java.util.Map;

public class HashSet<E>
    extends AbstractSet<E>
    implements Set<E>, Cloneable, java.io.Serializable
{
    // ✅ 核心：底层就是一个 HashMap
    private transient HashMap<E,Object> map;

    // ✅ 静态的、空的、不变的傀儡对象，用作 HashMap 的 value
    private static final Object PRESENT = new Object();

    // ✅ 无参构造器：创建一个空的 HashMap (默认初始容量 16, 负载因子 0.75)
    public HashSet() {
        map = new HashMap<>();
    }

    // ✅ 指定初始容量和负载因子的构造器
    public HashSet(int initialCapacity, float loadFactor) {
        map = new HashMap<>(initialCapacity, loadFactor);
    }

    // ✅ 包含指定集合的构造器
    public HashSet(Collection<? extends E> c) {
        map = new HashMap<>(Math.max((int) (c.size()/.75f) + 1, 16));
        addAll(c); // 将集合 c 中的所有元素添加到这个 HashSet
    }

    // ✅ 关键方法：add
    public boolean add(E e) {
        // 将元素 e 作为 key, PRESENT 作为 value 放入 map
        // put 方法的返回值：如果 key 不存在，返回 null；如果 key 存在，返回旧的 value (PRESENT)
        return map.put(e, PRESENT)==null;
        // 如果 map.put 返回 null，说明是新 key，add 成功，返回 true
        // 如果 map.put 返回 PRESENT，说明 key 已存在，add 失败，返回 false
    }

    // ✅ 关键方法：remove
    public boolean remove(Object o) {
        // 从 map 中移除以 o 为 key 的条目
        // remove 方法的返回值：如果 key 存在，返回其 value (PRESENT)；如果不存在，返回 null
        return map.remove(o)==PRESENT;
        // 如果返回 PRESENT，说明元素存在并被移除，返回 true
        // 如果返回 null，说明元素不存在，返回 false
    }

    // ✅ 关键方法：contains
    public boolean contains(Object o) {
        // 检查 map 中是否包含以 o 为 key 的条目
        return map.containsKey(o);
    }

    // ✅ 返回迭代器
    public Iterator<E> iterator() {
        // 直接返回底层 HashMap 的 keySet 的迭代器
        return map.keySet().iterator();
    }

    // ✅ 返回大小
    public int size() {
        // 返回 map 的大小，即键值对的数量
        return map.size();
    }

    // ✅ 清空
    public void clear() {
        map.clear();
    }

    // ... 其他方法
}

🔥 源码核心点：

map 是 HashSet 的“心脏”，所有操作都委托给它。
PRESENT 是那个“傀儡”，它让 HashMap 的“血液”（键值对）得以流动，而 HashSet 只关心“心脏”跳动的节奏（key 的存在与否）。

4. 关键操作解析：`add()`、`remove()`、`contains()` 的“幕后交易”

🔹 `add(E e)`：添加元素

public boolean add(E e) {
    return map.put(e, PRESENT) == null;
}

调用 map.put(e, PRESENT)。
HashMap 执行 put 逻辑：
- 计算 e 的 hash。
- 定位到桶。
- 如果桶为空，创建新 Node，key=e, value=PRESENT，插入，返回 null。
- 如果桶不为空，遍历链表/树，检查是否有 key 相同的节点。
  - 无相同 key：在链表尾部/树中插入新节点，返回 null。
  - 有相同 key：更新该节点的 value 为 PRESENT（其实没变），返回旧的 value（PRESENT）。
HashSet 判断 put 的返回值：
- null -> 新元素，add 成功，返回 true。
- PRESENT -> 元素已存在，add 失败，返回 false。

✅ 结果：成功实现了“添加不重复元素”的功能。

🔹 `remove(Object o)`：移除元素

public boolean remove(Object o) {
    return map.remove(o) == PRESENT;
}

调用 map.remove(o)。
HashMap 执行 remove 逻辑：
- 计算 o 的 hash。
- 定位到桶。
- 遍历查找 key 为 o 的节点。
  - 找到：移除该节点，返回其 value（PRESENT）。
  - 未找到：返回 null。
HashSet 判断 remove 的返回值：
- PRESENT -> 元素存在并被移除，返回 true。
- null -> 元素不存在，返回 false。

✅ 结果：成功实现了“移除指定元素”的功能。

🔹 `contains(Object o)`：检查元素是否存在

public boolean contains(Object o) {
    return map.containsKey(o);
}

直接调用 map.containsKey(o)。
HashMap 执行 get 逻辑：
- 计算 o 的 hash。
- 定位到桶。
- 遍历查找 key 为 o 的节点。
  - 找到：返回 true。
  - 未找到：返回 false。
HashSet 直接返回该结果。

✅ 结果：成功实现了“检查元素是否存在”的功能，平均时间复杂度 O(1)。

5. 性能分析：`HashSet` 的“时间”与“空间”代价

⏱️ 时间复杂度

add(E e), remove(Object o), contains(Object o)：
- 平均情况：O(1)。得益于 HashMap 的哈希表结构，定位桶的时间是常数。
- 最坏情况：O(n)。当所有元素都发生哈希冲突，集中在同一个桶形成很长的链表时（虽然红黑树优化了这一点，但极端情况仍可能）。
iterator(), size()：O(1)。
clear()：O(1)（HashMap 的 clear 是 O(1)，只需将 table 置为 null 或重置大小）。

💾 空间复杂度

O(n)，其中 n 是 HashSet 中元素的个数。
额外开销：
- PRESENT 对象：一个静态对象，全局共享，开销可忽略。
- HashMap 的桶数组 (table)：默认初始容量 16，会根据负载因子（默认 0.75）动态扩容。
- HashMap 的 Node 对象：每个元素对应一个 Node，包含 hash、key、value、next 等字段。
- 结论：HashSet 的空间开销比单纯的 List 或数组要大，这是为了换取 O(1) 的时间复杂度所付出的“空间换时间”的代价。

6. 使用场景与注意事项

🎯 推荐使用场景

需要存储不重复元素的集合：这是 HashSet 最核心的用途，如用户标签、好友列表（去重）、单词词典等。
频繁进行 add、remove、contains 操作：当这些操作非常频繁时，HashSet 的 O(1) 平均时间复杂度优势巨大。
对插入顺序无要求：HashSet 不保证元素的迭代顺序。

⚠️ 注意事项

元素的 hashCode() 和 equals() 方法：
- HashSet 的去重和查找完全依赖于 HashMap，而 HashMap 依赖于 key 的 hashCode() 和 equals()。
- 必须重写：如果你将自定义对象存入 HashSet，必须重写其 hashCode() 和 equals() 方法！否则，两个“逻辑上相等”的对象，可能因 hashCode() 不同而被视为不同元素，或因 equals() 不正确而无法正确去重。
- 一致性：hashCode() 和 equals() 必须保持一致。如果 a.equals(b) 返回 true，那么 a.hashCode() 必须等于 b.hashCode()。
线程不安全：
- 和 HashMap 一样，HashSet 是线程不安全的。多线程并发修改会导致数据错乱。高并发场景下应使用 Collections.synchronizedSet(new HashSet<>()) 或 ConcurrentHashMap.newKeySet()。
null 值支持：
- HashSet 允许 null 元素。因为 HashMap 允许一个 null key。
迭代顺序：
- HashSet 的迭代顺序是不确定的，且可能随着扩容而改变。如果需要有序，应使用 LinkedHashSet（保持插入顺序）或 TreeSet（自然排序或自定义排序）。

7. 面试官最爱问的 5 个“灵魂拷问”

❓ Q1: `HashSet` 是如何保证元素不重复的？

答：HashSet 的底层是一个 HashMap。它将集合中的元素作为 HashMap 的键（key）来存储，而用一个静态的、无意义的 Object 对象（PRESENT）作为值（value）。由于 HashMap 天生保证键的唯一性，当尝试添加一个已存在的元素时，HashMap.put() 方法会返回旧的 value（PRESENT），HashSet 通过判断这个返回值是否为 null 来确定元素是否是新添加的，从而实现了去重。

❓ Q2: 为什么说 `HashSet` 的 `add`、`remove`、`contains` 操作是 `O(1)` 的？

答：因为 HashSet 的这些操作最终都委托给了底层的 HashMap。HashMap 基于哈希表实现，通过计算元素的 hashCode() 可以快速定位到其在桶数组中的位置（索引），这个过程的时间复杂度是 O(1)。后续在桶内查找（遍历链表或红黑树）的平均长度很短（接近常数），因此整体的平均时间复杂度是 O(1)。

❓ Q3: 在 `HashSet` 中存储自定义对象需要注意什么？

答：必须重写自定义对象的 hashCode() 和 equals() 方法。

原因：HashSet 依赖 HashMap 的 hashCode() 来定位桶，依赖 equals() 来在桶内精确比较对象。如果不重写，Object 默认的 hashCode() 可能基于内存地址，equals() 基于 == 比较，这会导致逻辑上相等的对象被视为不同元素，无法实现去重。
要求：hashCode() 和 equals() 必须保持一致。如果 a.equals(b) 为 true，则 a.hashCode() 必须等于 b.hashCode()。

❓ Q4: `HashSet` 和 `HashMap` 有什么关系？

答：HashSet 是 HashMap 的一个“包装器”或“适配器”。

HashSet 内部持有一个 HashMap 实例作为其数据存储。
HashSet 将其元素作为 HashMap 的 key，而用一个共享的、无意义的 Object 对象（PRESENT）作为 value。
HashSet 的所有操作（add, remove, contains 等）都通过调用其内部 HashMap 的对应方法来实现。
可以说，HashSet 的功能完全建立在 HashMap 的基础之上。

❓ Q5: `HashSet` 是线程安全的吗？如何实现线程安全的 `Set`？

答：

HashSet 不是线程安全的。它的底层 HashMap 也是线程不安全的，多线程并发修改会导致数据不一致甚至结构破坏。
实现线程安全的 Set 的方法：
1. Collections.synchronizedSet(new HashSet<>())：返回一个线程安全的 Set 视图，内部使用 synchronized 同步所有公共方法（全表锁，性能较低）。
2. ConcurrentHashMap.newKeySet() (JDK 8+)：创建一个基于 ConcurrentHashMap 的 KeySetView，支持高并发，性能远优于 synchronizedSet。
3. CopyOnWriteArraySet：基于 Copy-On-Write 思想，写操作（add, remove）会复制整个底层数组，读操作无锁。适用于读多写少的场景。

8. 终章：`HashSet` 的“哲学”——“存在”即“键”

小李（感慨地）：“王总，我终于明白了。HashSet 的‘存在’，就是 HashMap 的‘键’。它用一个‘傀儡值’（PRESENT），将‘集合’的‘去重’问题，完美地‘转化’为了‘映射’的‘键唯一性’问题。这不仅是技术的‘复用’，更是思想的‘升华’。它告诉我们，有时候，最优雅的解决方案，就是找到一个‘强大的伙伴’，让‘问题’在‘转化’中迎刃而解。”

王总（点头）：“小李，你说得很对。HashSet 的设计，体现了‘单一职责’和‘组合优于继承’的软件设计原则。它不重复造轮子，而是专注于‘集合’的接口定义和语义，将复杂的存储和查找逻辑‘委托’给更专业的 HashMap。PRESENT 这个小小的对象，就像一个‘契约’，它宣告：‘我在这里，只为证明你的“存在”’。这就是 HashSet 的‘存在主义哲学’——‘存在’，即‘被作为键存储’。”

🔥 夜幕降临，代码的世界里，HashSet 与其“影子” HashMap 形影不离。它们共同守护着“唯一性”的圣殿，用“键”与“值”的无声对话，诠释着数据结构的“存在”与“意义”。

🎉 至此，我们完成了对 HashSet 实现原理的 8000 字深度揭秘。希望这篇充满源码、图解、场景与“哲学思辨”的文章，能助你彻底理解这个“借力打力”的“集合大师”！

📌 温馨提示：记住口诀——“HashSet 无存储，HashMap 是后台；元素为键值为傀儡，去重魔法自然来！”

🎯 总结一下：

本文深入探讨了《HashSet 的实现原理：基于 HashMap》，从原理到实践，解析了面试中常见的考察点和易错陷阱。掌握这些内容，不仅能应对面试官的连环追问，更能提升你在实际开发中的技术判断力。

🔗 下期预告：我们将继续深入Java面试核心，带你解锁《LinkedHashSet 与 TreeSet 的区别与排序机制》的关键知识点，记得关注不迷路！

💬 互动时间：你在面试中遇到过类似问题吗？或者对本文内容有疑问？欢迎在评论区留言交流，我会一一回复！

如果你觉得这篇文章对你有帮助，别忘了点赞 + 收藏 + 转发，让更多小伙伴一起进步！我们下一篇见 👋