`unordered_map` 时间复杂度与底层实现

以下是对 C++ 中 unordered_map 时间复杂度、底层实现以及哈希冲突解决方法的详细分析。

1. `unordered_map` 时间复杂度

unordered_map 是 C++ STL 中的无序关联容器，基于哈希表实现。其操作的时间复杂度如下：

平均情况：
- 插入（insert）、查找（find）、删除（erase）：( O(1) )（常数时间）。
- 这是因为哈希表通过哈希函数将键映射到桶（bucket），平均情况下每个桶的元素很少，操作接近常数时间。
最坏情况：
- 插入、查找、删除：( O(n) )，其中 ( n ) 是容器中元素数量。
- 最坏情况发生在哈希冲突严重时，例如所有键都映射到同一个桶，导致桶内元素形成长链表或类似结构。

导致 ( O(n) ) 的情况

哈希函数质量差：如果哈希函数将大量键映射到同一桶，冲突增加，桶内查找退化为线性搜索。
高负载因子：负载因子（load_factor = 元素数 / 桶数）过高，导致更多冲突。C++ 默认最大负载因子为 1.0，当超过时会触发 rehash（重新分配桶）。
恶意输入：精心构造的键集可能导致哈希函数失效，造成大量冲突（常见于安全攻击场景）。
桶内元素过多：即使哈希函数分布均匀，若桶数不足，单个桶可能存储多个元素，增加查找时间。

2. 底层实现

unordered_map 的底层是一个哈希表，主要组成部分包括：

桶（Buckets）：
- 哈希表由一个桶数组组成，每个桶可以存储零个或多个键值对。
- 桶的数量由 bucket_count 决定，可通过 rehash 或 reserve 调整。
- 键通过哈希函数映射到某个桶的索引。
哈希函数：
- C++ 使用 std::hash 模板生成哈希值（可自定义）。
- 对于内置类型（如 int、std::string），std::hash 有优化实现。
- 哈希函数将键映射为桶索引：index = hash(key) % bucket_count。
桶内结构：
- 每个桶通常是一个链表（C++11 标准要求），存储所有映射到该桶的键值对。
- C++17 及以后，某些实现可能使用其他结构（如红黑树）优化高冲突场景，但标准仍以链表为主。
负载因子与 rehash：
- 负载因子 = 元素数 / 桶数，反映哈希表拥挤程度。
- 当负载因子超过 max_load_factor（默认 1.0），unordered_map 会重新分配更多桶（通常翻倍），重新哈希所有元素以减少冲突。

3. 哈希冲突的解决

哈希冲突指多个键映射到同一桶。C++ unordered_map 主要通过以下方式解决冲突：

方法 1：分离链法（Chaining）

实现：
- 每个桶维护一个链表，存储所有映射到该桶的键值对。
- 查找时，哈希函数确定桶索引，然后在桶内链表中线性搜索目标键。
优点：
- 简单，易于实现。
- 适合小规模冲突。
缺点：
- 冲突多时，链表变长，查找退化为 ( O(n) )。
C++ 实现：
- 标准库 unordered_map 默认使用分离链法，每个桶是一个链表。
- 示例：键 k1 和 k2 的哈希值相同，均映射到桶 i，则桶 i 的链表存储 {k1, v1} -> {k2, v2}。

方法 2：开放寻址法（非 C++ 标准，但可了解）

实现：
- 不使用链表，而是在桶数组中寻找下一个空位存储冲突的键值对（通过探测，如线性探测或二次探测）。
- 查找时按相同探测顺序搜索。
优点：
- 缓存友好（数据连续存储）。
- 避免链表的额外内存开销。
缺点：
- 探测序列可能导致性能下降。
- 删除操作复杂。
C++ 实现：
- unordered_map 不使用开放寻址，但某些自定义哈希表可能采用。

优化冲突的策略

改进哈希函数：

使用高质量哈希函数（如 MurmurHash、FNV-1a）确保键均匀分布。

自定义 std::hash 模板，例如：

namespace std {
    template <>
    struct hash<MyType> {
        size_t operator()(const MyType& obj) const {
            // 自定义哈希计算
            return custom_hash(obj);
        }
    };
}

增加桶数：
- 调用 rehash(n) 或 reserve(n) 预分配更多桶，降低负载因子。
- 示例：um.rehash(1000); 确保至少 1000 个桶。
调整最大负载因子：
- 默认 max_load_factor 为 1.0，可降低以减少冲突：
  1
  um.max_load_factor(0.5); // 负载因子超过 0.5 时触发 rehash
定期 rehash：
- 手动调用 rehash 或在插入大量元素前预分配空间，避免频繁重新哈希。
避免恶意输入：
- 对于用户输入的键，使用随机化哈希种子（C++ 实现通常内置此功能）防止哈希攻击。

4. 代码示例

以下是一个使用 unordered_map 的简单示例，展示插入、查找和冲突处理：

#include <iostream>
#include <unordered_map>
#include <string>

using namespace std;

int main() {
    unordered_map<string, int> um;

    // 插入
    um["apple"] = 1;
    um["banana"] = 2;
    um["orange"] = 3;

    // 查找
    auto it = um.find("apple");
    if (it != um.end()) {
        cout << "Found: " << it->first << " -> " << it->second << endl;
    }

    // 查看桶信息
    cout << "Bucket count: " << um.bucket_count() << endl;
    cout << "Load factor: " << um.load_factor() << endl;
    cout << "Max load factor: " << um.max_load_factor() << endl;

    // 手动调整桶数
    um.rehash(100);
    cout << "New bucket count: " << um.bucket_count() << endl;

    // 遍历所有桶
    for (size_t i = 0; i < um.bucket_count(); ++i) {
        cout << "Bucket " << i << ": ";
        for (auto it = um.begin(i); it != um.end(i); ++it) {
            cout << "{" << it->first << ", " << it->second << "} ";
        }
        cout << endl;
    }

    return 0;
}

输出示例（因实现而异）：

Found: apple -> 1
Bucket count: 8
Load factor: 0.375
Max load factor: 1
New bucket count: 101
Bucket 0: {banana, 2}
Bucket 23: {apple, 1}
Bucket 67: {orange, 3}
...

5. 总结

时间复杂度：
- 平均 ( O(1) )，最坏 ( O(n) )，取决于哈希函数质量、负载因子和冲突程度。
底层实现：
- 基于哈希表，桶数组 + 链表（分离链法）。
- 哈希函数映射键到桶，冲突通过链表解决。
哈希冲突解决：
- 默认使用分离链法，优化方式包括改进哈希函数、增加桶数、降低负载因子。
优化建议：
- 预分配桶（rehash/reserve）。
- 自定义高效哈希函数。
- 监控负载因子，必要时调整 max_load_factor。

如需更深入的哈希函数设计或特定场景优化，请提供进一步细节！