java 常量池是一个经久不衰的话题,也是面试官的最爱,题目花样百出,这次好好总结一下。
先拙劣的表达一下 jvm 虚拟内存分布:
程序计数器是 jvm 执行程序的流水线,存放一些跳转指令,这个太高深,不懂。
本地方法栈是 jvm 调用操作系统方法所使用的栈。
虚拟机栈是 jvm 执行 java 代码所使用的栈。
方法区存放了一些常量、静态变量、类信息等,可以理解成 class 文件在内存中的存放位置。
虚拟机堆是 jvm 执行 java 代码所使用的堆。
Java 中的常量池,实际上分为两种形态:静态常量池和运行时常量池。
所谓静态常量池,即 *.class 文件中的常量池,class 文件中的常量池不仅仅包含字符串 (数字) 字面量,还包含类、方法的信息,占用 class 文件绝大部分空间。
而运行时常量池,则是 jvm 虚拟机在完成类装载操作后,将 class 文件中的常量池载入到内存中,并保存在方法区中,我们常说的常量池,就是指方法区中的运行时常量池。
接下来我们引用一些网络上流行的常量池例子,然后借以讲解。
- String s1 = "Hello";
- String s2 = "Hello";
- String s3 = "Hel" + "lo";
- String s4 = "Hel" + new String("lo");
- String s5 = new String("Hello");
- String s6 = s5.intern();
- String s7 = "H";
- String s8 = "ello";
- String s9 = s7 + s8;
- System.out.println(s1 == s2); // true
- System.out.println(s1 == s3); // true
- System.out.println(s1 == s4); // false
- System.out.println(s1 == s9); // false
- System.out.println(s4 == s5); // false
- System.out.println(s1 == s6); // true
首先说明一点,在 java 中,直接使用 == 操作符,比较的是两个字符串的引用地址,并不是比较内容,比较内容请用 String.equals()。
s1 == s2 这个非常好理解,s1、s2 在赋值时,均使用的字符串字面量,说白话点,就是直接把字符串写死,在编译期间,这种字面量会直接放入 class 文件的常量池中,从而实现复用,载入运行时常量池后,s1、s2 指向的是同一个内存地址,所以相等。
s1 == s3 这个地方有个坑,s3 虽然是动态拼接出来的字符串,但是所有参与拼接的部分都是已知的字面量,在编译期间,这种拼接会被优化,编译器直接帮你拼好,因此 String s3 = "Hel" + "lo"; 在 class 文件中被优化成 String s3 = "Hello";,所以 s1 == s3 成立。
s1 == s4 当然不相等,s4 虽然也是拼接出来的,但 new String("lo") 这部分不是已知字面量,是一个不可预料的部分,编译器不会优化,必须等到运行时才可以确定结果,结合字符串不变定理,鬼知道 s4 被分配到哪去了,所以地址肯定不同。配上一张简图理清思路:
s1 == s9 也不相等,道理差不多,虽然 s7、s8 在赋值的时候使用的字符串字面量,但是拼接成 s9 的时候,s7、s8 作为两个变量,都是不可预料的,编译器毕竟是编译器,不可能当解释器用,所以不做优化,等到运行时,s7、s8 拼接成的新字符串,在堆中地址不确定,不可能与方法区常量池中的 s1 地址相同。
s4 == s5 已经不用解释了,绝对不相等,二者都在堆中,但地址不同。
s1 == s6 这两个相等完全归功于 intern 方法,s5 在堆中,内容为 Hello ,intern 方法会尝试将 Hello 字符串添加到常量池中,并返回其在常量池中的地址,因为常量池中已经有了 Hello 字符串,所以 intern 方法直接返回地址;而 s1 在编译期就已经指向常量池了,因此 s1 和 s6 指向同一地址,相等。
至此,我们可以得出三个非常重要的结论:
以上所讲仅涉及字符串常量池,实际上还有整型常量池、浮点型常量池等等,但都大同小异,只不过数值类型的常量池不可以手动添加常量,程序启动时常量池中的常量就已经确定了,比如整型常量池中的常量范围:-128~127,只有这个范围的数字可以用到常量池。
说了这么多理论,接下来让我们触摸一下真正的常量池。
前文提到过,class 文件中存在一个静态常量池,这个常量池是由编译器生成的,用来存储 java 源文件中的字面量 (本文仅仅关注字面量),假设我们有如下 java 代码:
1 Strings =
"hi";
为了方便起见,就这么简单,没错!将代码编译成 class 文件后,用 winhex 打开二进制格式的 class 文件。如图:
简单讲解一下 class 文件的结构,开头的 4 个字节是 class 文件魔数,用来标识这是一个 class 文件,说白话点就是文件头,既:CA FE BA BE。
紧接着 4 个字节是 java 的版本号,这里的版本号是 34,因为笔者是用 jdk8 编译的,版本号的高低和 jdk 版本的高低相对应,高版本可以兼容低版本,但低版本无法执行高版本。所以,如果哪天读者想知道别人的 class 文件是用什么 jdk 版本编译的,就可以看这 4 个字节。
接下来就是常量池入口,入口处用 2 个字节标识常量池常量数量,本例中数值为 00 1A,翻译成十进制是 26,也就是有 25 个常量,其中第 0 个常量是特殊值,所以只有 25 个常量。
常量池中存放了各种类型的常量,他们都有自己的类型,并且都有自己的存储规范,本文只关注字符串常量,字符串常量以 01 开头 (1 个字节),接着用 2 个字节记录字符串长度,然后就是字符串实际内容。本例中为:01 00 02 68 69。
接下来再说说运行时常量池,由于运行时常量池在方法区中,我们可以通过 jvm 参数:-XX:PermSize、-XX:MaxPermSize 来设置方法区大小,从而间接限制常量池大小。
假设 jvm 启动参数为:-XX:PermSize=2M -XX:MaxPermSize=2M,然后运行如下代码:
- //保持引用,防止自动垃圾回收
- List < String > list = new ArrayList < String > ();
- int i = 0;
- while (true) {
- //通过intern方法向常量池中手动添加常量
- list.add(String.valueOf(i++).intern());
- }
程序立刻会抛出:Exception in thread "main" java.lang.outOfMemoryError: PermGen space 异常。PermGen space 正是方法区,足以说明常量池在方法区中。
在 jdk8 中,移除了方法区,转而用 Metaspace 区域替代,所以我们需要使用新的 jvm 参数:-XX:MaxMetaspaceSize=2M,依然运行如上代码,抛出:java.lang.OutOfMemoryError: Metaspace 异常。同理说明运行时常量池是划分在 Metaspace 区域中。具体关于 Metaspace 区域的知识,请读者自行搜索。
本文所有代码均在 jdk7、jdk8 下测试通过,其他版本 jdk 可能会略有差异,请读者自行探索。
参考文献:《深入理解 java 虚拟机———jvm 高级特性与最佳实践》
Java 团长微信号:javatuanzhang 每日分享 Java 技术干货长按识别二维码来源: http://blog.csdn.net/FYGu18/article/details/78841244