HashMap 工作原理_动力节点 Java 学院整理

Java 程序设计语言

java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言，是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序设计语言和 Java 平台（即 JavaEE(j2ee), JavaME(j2me), JavaSE(j2se)）的总称。

这篇文章主要介绍了 HashMap 工作原理_动力节点 Java 学院整理, 需要的朋友可以参考下

实际上，HashSet 和 HashMap 之间有很多相似之处，对于 HashSet 而言，系统采用 Hash 算法决定集合元素的存储位置，这样可以保证能快速存、取集合元素；对于 HashMap 而言，系统 key-value 当成一个整体进行处理，系统总是根据 Hash 算法来计算 key-value 的存储位置，这样可以保证能快速存、取 Map 的 key-value 对。

在介绍集合存储之前需要指出一点：虽然集合号称存储的是 Java 对象，但实际上并不会真正将 Java 对象放入 Set 集合中，只是在 Set 集合中保留这些对象的引用而言。也就是说：Java 集合实际上是多个引用变量所组成的集合，这些引用变量指向实际的 Java 对象。就像引用类型的数组一样，当我们把 Java 对象放入数组之时，并不是真正的把 Java 对象放入数组中，只是把对象的引用放入数组中，每个数组元素都是一个引用变量。

HashMap 存储的实现（put() 方法）

当程序试图将多个 key-value 放入 HashMap 中是，以如下代码片段为例：

HashMap<String , Double> map = new HashMap<String , Double>();
 map.put("语文" , 80.0);
 map.put("数学" , 89.0);
 map.put("英语" , 78.2);

HashMap 采用了一种所谓的 "Hash 算法" 来决定每个元素的存储位置。

当程序执行 map.put("语文",80.0) 时，系统将调用 "语文"（即 Key）的 hashCode() 方法得到其 hashCode 值 --- 每个 java 对象都有 hashCode() 方法，都可以通过该方法获得它的 hashCode 值。得到这个对象的 hashCode 值之后，系统根据 hashCode 值来决定该元素的存储位置。

我们可以看 HashMap 类的 put(K key,V value) 方法的源代码：

public V put(K key, V value)
 {
  // 如果 key 为 null，调用 putForNullKey 方法进行处理
  if (key == null)
   return putForNullKey(value);
  // 根据 key 的 keyCode 计算 Hash 值
  int hash = hash(key.hashCode());
  // 搜索指定 hash 值在对应 table 中的索引
  int i = indexFor(hash, table.length);
  // 如果 i 索引处的 Entry 不为 null，通过循环不断遍历 e 元素的下一个元素
  for (Entry<K,V> e = table[i]; e != null; e = e.next)
  {
   Object k;
   // 找到指定 key 与需要放入的 key 相等（hash 值相同
   // 通过 equals 比较放回 true）
   if (e.hash == hash && ((k = e.key) == key
    || key.equals(k)))
   {
    V oldValue = e.value;
    e.value = value;
   e.recordAccess(this);
    return oldValue;
   }
  }
  // 如果 i 索引处的 Entry 为 null，表明此处还没有 Entry
  modCount++;
  // 将 key、value 添加到 i 索引处
  addEntry(hash, key, value, i);
  return null;
 }

上面程序中用到了一个重要的内部接口：Map.Entry，每个 Map.Entry 其实就是一个 key-value 对。从上面程序中可以看出：当系统决定存储 HashMap 中的 key-value 对时，完全没有考虑 Entry 中的 value，仅仅只是根据 key 来计算并决定每个 Entry 的存储位置。这也说明了前面的结论：我们完全可以把 Map 集合中的 value 当成 key 的附属，当系统决定了 key 的存储位置之后，value 随之保存在那里即可。

上面方法提供了一个根据 hashCode() 返回值来计算 Hash 码的方法：hash()，这个方法是一个纯粹的数学计算，其方法如下：

static int hash(int h)
{
 h ^= (h >>> 20) ^ (h >>> 12);
 return h ^ (h >>> 7) ^ (h >>> 4);
}

对于任意给定的对象，只要它的 hashCode() 返回值相同，那么程序调用 hash(int h) 方法所计算得到的 Hash 码值总是相同的。接下来程序会调用 indexFor(int h, int length) 方法来计算该对象应该保存在 table 数组的哪个索引处。

indexFor(int h, int length) 方法的代码如下：

static int indexFor(int h, int length)
{
 return h & (length-1);
}

这个方法非常巧妙，它总是通过 h &(table.length -1) 来得到该对象的保存位置——而 HashMap 底层数组的长度总是 2 的 n 次方，这一点可参看后面关于 HashMap 构造器的介绍。

当 length 总是 2 的倍数时，h & (length-1) 将是一个非常巧妙的设计：假设 h=5,length=16, 那么 h & length - 1 将得到 5；如果 h=6,length=16, 那么 h & length - 1 将得到 6 …… 如果 h=15,length=16, 那么 h & length - 1 将得到 15；但是当 h=16 时 , length=16 时，那么 h & length - 1 将得到 0 了；当 h=17 时 , length=16 时，那么 h & length - 1 将得到 1 了…… 这样保证计算得到的索引值总是位于 table 数组的索引之内。

根据上面 put 方法的源代码可以看出，当程序试图将一个 key-value 对放入 HashMap 中时，程序首先根据该 key 的 hashCode() 返回值决定该 Entry 的存储位置：如果两个 Entry 的 key 的 hashCode() 返回值相同，那它们的存储位置相同。如果这两个 Entry 的 key 通过 equals 比较返回 true，新添加 Entry 的 value 将覆盖集合中原有 Entry 的 value，但 key 不会覆盖。如果这两个 Entry 的 key 通过 equals 比较返回 false，新添加的 Entry 将与集合中原有 Entry 形成 Entry 链，而且新添加的 Entry 位于 Entry 链的头部——具体说明继续看 addEntry() 方法的说明。

当向 HashMap 中添加 key-value 对，由其 key 的 hashCode() 返回值决定该 key-value 对（就是 Entry 对象）的存储位置。当两个 Entry 对象的 key 的 hashCode() 返回值相同时，将由 key 通过 eqauls() 比较值决定是采用覆盖行为（返回 true），还是产生 Entry 链（返回 false）。

上面程序中还调用了 addEntry(hash, key, value, i); 代码，其中 addEntry 是 HashMap 提供的一个包访问权限的方法，该方法仅用于添加一个 key-value 对。下面是该方法的代码：

void addEntry(int hash, K key, V value, int bucketIndex) {
    // 获取指定 bucketIndex 索引处的 Entry
    Entry < K,
    V > e = table[bucketIndex]; // ①
    // 将新创建的 Entry 放入 bucketIndex 索引处，并让新的 Entry 指向原来的 Entry
    table[bucketIndex] = new Entry < K,
    V > (hash, key, value, e);
    // 如果 Map 中的 key-value 对的数量超过了极限
    if (size++>=threshold)
    // 把 table 对象的长度扩充到 2 倍。
    resize(2 * table.length); // ②
}

上面方法的代码很简单，但其中包含了一个非常优雅的设计：系统总是将新添加的 Entry 对象放入 table 数组的 bucketIndex 索引处——如果 bucketIndex 索引处已经有了一个 Entry 对象，那新添加的 Entry 对象指向原有的 Entry 对象（产生一个 Entry 链），如果 bucketIndex 索引处没有 Entry 对象，也就是上面程序①号代码的 e 变量是 null，也就是新放入的 Entry 对象指向 null，也就是没有产生 Entry 链。

什么是 Map.Entry？

Map 是 java 中的接口，Map.Entry 是 Map 的一个内部接口。

Map 提供了一些常用方法，如 keySet()、entrySet() 等方法，keySet() 方法返回值是 Map 中 key 值的集合；entrySet() 的返回值也是返回一个 Set 集合，此集合的类型为 Map.Entry。

Map.Entry 是 Map 声明的一个内部接口，此接口为泛型，定义为 Entry。它表示 Map 中的一个实体（一个 key-value 对）。接口中有 getKey(),getValue 方法。

由以上可以得出，遍历 Map 的常用方法：

1.Map map = new HashMap();
Irerator iterator = map.entrySet().iterator();
while (iterator.hasNext()) {
    Map.Entry entry = iterator.next();
    Object key = entry.getKey();
    //
}
2.Map map = new HashMap();
Set keySet = map.keySet();
Irerator iterator = keySet.iterator;
while (iterator.hasNext()) {
    Object key = iterator.next();
    Object value = map.get(key);
    //
}

另外，还有一种遍历方法是，单纯的遍历 value 值，Map 有一个 values 方法，返回的是 value 的 Collection 集合。通过遍历 collection 也可以遍历 value, 如

Map map = new HashMap();
Collection c = map.values();
Iterator iterator = c.iterator();
while (iterator.hasNext()) {
    Object value = iterator.next();
}

Map.Entry 是 Map 内部定义的一个接口，专门用来保存 key→value 的内容。Map.Entry 的定义如下：

1. public static interface Map.Entry<K,V>

Map.Entry 是使用 static 关键字声明的内部接口，此接口可以由外部通过 "外部类. 内部类" 的形式直接调用。
Map.Entry 接口的常用方法

序号	方法	类型	描述
1	public boolean equals(Object o)	普通	对象比较
2	public K getKey()	普通	取得 key
3	public V getValue()	普通	取得 value
4	public int hashCode()	普通	返回哈希码
5	public V setValue(V value)	普通	设置 value 的值

从之前的内容可以知道，在 Map 的操作中，所有的内容都是通过 key→value 的形式保存数据的，那么对于集合来讲，实际上是将 key→value 的数据保存在了 Map.Entry 的实例之后，再在 Map 集合中插入的是一个 Map.Entry 的实例化对象，如下图所示。

提示：Map.Entry 在集合输出时会使用到。

在一般的 Map 操作中（例如，增加或取出数据等操作）不用去管 Map.Entry 接口，但是在将 Map 中的数据全部输出时就必须使用 Map.Entry 接口

HashMap 的存储示意

HashMap 的读取实现（）

当 HashMap 的每个 bucket 里存储的 Entry 只是单个 Entry ——也就是没有通过指针产生 Entry 链时，此时的 HashMap 具有最好的性能：当程序通过 key 取出对应 value 时，系统只要先计算出该 key 的 hashCode() 返回值，在根据该 hashCode 返回值找出该 key 在 table 数组中的索引，然后取出该索引处的 Entry，最后返回该 key 对应的 value 即可。看 HashMap 类的 get(K key) 方法代码：

public V get(Object key)
 {
 // 如果 key 是 null，调用 getForNullKey 取出对应的 value
 if (key == null)
 return getForNullKey();
 // 根据该 key 的 hashCode 值计算它的 hash 码
 int hash = hash(key.hashCode());
 // 直接取出 table 数组中指定索引处的值，
 for (Entry<K,V> e = table[indexFor(hash, table.length)];
 e != null;
 // 搜索该 Entry 链的下一个 Entr
 e = e.next) // ①
 {
 Object k;
 // 如果该 Entry 的 key 与被搜索 key 相同
 if (e.hash == hash && ((k = e.key) == key
 || key.equals(k)))
 return e.value;
 }
 return null;
 }

从上面代码中可以看出，如果 HashMap 的每个 bucket 里只有一个 Entry 时，HashMap 可以根据索引、快速地取出该 bucket 里的 Entry；在发生 "Hash 冲突" 的情况下，单个 bucket 里存储的不是一个 Entry，而是一个 Entry 链，系统只能必须按顺序遍历每个 Entry，直到找到想搜索的 Entry 为止——如果恰好要搜索的 Entry 位于该 Entry 链的最末端（该 Entry 是最早放入该 bucket 中），那系统必须循环到最后才能找到该元素。
归纳起来简单地说，HashMap 在底层将 key-value 当成一个整体进行处理，这个整体就是一个 Entry 对象。HashMap 底层采用

一个 Entry[] 数组来保存所有的 key-value 对，当需要存储一个 Entry 对象时，会根据 Hash 算法来决定其存储位置；当需要取出一个 Entry 时，也会根据 Hash 算法找到其存储位置，直接取出该 Entry。由此可见：HashMap 之所以能快速存、取它所包含的 Entry，完全类似于现实生活中母亲从小教我们的：不同的东西要放在不同的位置，需要时才能快速找到它。
当创建 HashMap 时，有一个默认的负载因子（load factor），其默认值为 0.75，这是时间和空间成本上一种折衷：增大负载因子可以减少 Hash 表（就是那个 Entry 数组）所占用的内存空间，但会增加查询数据的时间开销，而查询是最频繁的的操作（HashMap 的 get() 与 put() 方法都要用到查询）；减小负载因子会提高数据查询的性能，但会增加 Hash 表所占用的内存空间。

掌握了上面知识之后，我们可以在创建 HashMap 时根据实际需要适当地调整 load factor 的值；如果程序比较关心空间开销、内存比较紧张，可以适当地增加负载因子；如果程序比较关心时间开销，内存比较宽裕则可以适当的减少负载因子。通常情况下，程序员无需改变负载因子的值。

如果开始就知道 HashMap 会保存多个 key-value 对，可以在创建时就使用较大的初始化容量，如果 HashMap 中 Entry 的数量一直不会超过极限容量（capacity * load factor），HashMap 就无需调用 resize() 方法重新分配 table 数组，从而保证较好的性能。当然，开始就将初始容量设置太高可能会浪费空间（系统需要创建一个长度为 capacity 的 Entry 数组），因此创建 HashMap 时初始化容量设置也需要小心对待。

以上所述是小编给大家介绍的 HashMap 工作原理，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对 PHPERZ 网站的支持！

来源: http://www.phperz.com/article/17/1221/357354.html

与本文相关文章

暂无,快来抢沙发吧！