当前位置：

首页
/
IT
/
程序
/
Java
/
java String 的深入理解

java String 的深入理解

这里有新鲜出炉的 Java 并发编程示例,程序狗速度看过来！

Java 程序设计语言

java 是一种可以撰写跨平台应用软件的面向对象的程序设计语言,是由 Sun Microsystems 公司于 1995 年 5 月推出的 Java 程序设计语言和 Java 平台(即 JavaEE(j2ee), JavaME(j2me), JavaSE(j2se))的总称.

这篇文章主要介绍了 java String 的深入理解的相关资料, 希望通过本文大家能理解 String 的用法,需要的朋友可以参考下

java String 的深入理解一,Java 内存模型

按照官方的说法:Java 虚拟机具有一个堆,堆是运行时数据区域,所有类实例和数组的内存均从此处分配.

JVM 主要管理两种类型内存:堆和非堆,堆内存(Heap Memory)是在 Java 虚拟机启动时创建,非堆内存 (Non-heap Memory) 是在 JVM 堆之外的内存.

简单来说,非堆包含方法区,JVM 内部处理或优化所需的内存(如 JITCompiler,Just-in-time Compiler,即时编译后的代码缓存),每个类结构(如运行时常数池,字段和方法数据)以及方法和构造方法的代码.

Java 的堆是一个运行时数据区, 类的 (对象从中分配空间.这些对象通过 new,newarray, anewarray 和 multianewarray 等指令建立,它们不需要程序代码来显式的释放.

堆是由垃圾回收来负责的,堆的优势是可以动态地分配内存大小,生存期也不必事先告诉编译器,因为它是在运行时动态分配内存的,Java 的垃圾收集器会自动收走这些不再使用的数据.但缺点是,由于要在运行时动态分配内存,存取速度较慢.

栈的优势是,存取速度比堆要快,仅次于寄存器,栈数据可以共享.但缺点是,存在栈中的数据大小与生存期必须是确定的,缺乏灵活性.栈中主要存放一些基本类型的变量数据(int, short, long, byte, float, double, boolean, char)和对象句柄 (引用).

虚拟机必须为每个被装载的类型维护一个常量池.常量池就是该类型所用到常量的一个有序集合,包括直接常量(string,integer 和 floating point 常量)和对其他类型,字段和方法的符号引用.

对于 String 常量,它的值是在常量池中的.而 JVM 中的常量池在内存当中是以表的形式存在的, 对于 String 类型,有一张固定长度的 CONSTANT_String_info 表用来存储文字字符串值,注意:该表只存储文字字符串值,不存储符号引用.说到这里,对常量池中的字符串值的存储位置应该有一个比较明了的理解了.在程序执行的时候, 常量池会储存在 Method Area, 而不是堆中.常量池中保存着很多 String 对象; 并且可以被共享使用,因此它提高了效率

二,案例解析

public static void main(String[] args) {
    /**

* 情景一:字符串池

* JAVA虚拟机(JVM)中存在着一个字符串池,其中保存着很多String对象;

* 并且可以被共享使用,因此它提高了效率.

* 由于String类是final的,它的值一经创建就不可改变.

* 字符串池由String类维护,我们可以调用intern()方法来访问字符串池.

* /
    String s1 = "abc";
    / / ↑在字符串池创建了一个对象String s2 = "abc";
//↑ 字符串pool已经存在对象"abc"(共享),所以创建0个对象,累计创建一个对象
System.out.println("s1 == s2 : " + (s1 == s2));
//↑ true 指向同一个对象,
System.out.println("s1.equals(s2) : " + (s1.equals(s2)));
//↑ true 值相等
//↑------------------------------------------------------over
/***/

* 情景二:关于new String("")

*
     */
    String s3 = new String("abc");
    //↑ 创建了两个对象,一个存放在字符串池中,一个存在与堆区中；
    //↑ 还有一个对象引用s3存放在栈中
    String s4 = new String("abc");
    //↑ 字符串池中已经存在"abc"对象,所以只在堆中创建了一个对象
    System.out.println("s3 == s4 : " + (s3 == s4));
    //↑false  s3和s4栈区的地址不同,指向堆区的不同地址；
    System.out.println("s3.equals(s4) : " + (s3.equals(s4)));
    //↑true s3和s4的值相同
    System.out.println("s1 == s3 : " + (s1 == s3));
    //↑false 存放的地区多不同,一个栈区,一个堆区
    System.out.println("s1.equals(s3) : " + (s1.equals(s3)));
    //↑true 值相同
    //↑------------------------------------------------------over
    /**

* 情景三:

* 由于常量的值在编译的时候就被确定(优化)了.

* 在这里,"ab"和"cd"都是常量,因此变量str3的值在编译时就可以确定.

* 这行代码编译后的效果等同于: String str3 = "abcd";

* /
    String str1 = "ab" + "cd"; / / 1个对象String str11 = "abcd";
System.out.println("str1 = str11 : " + (str1 == str11));
//↑------------------------------------------------------over
/***/

* 情景四:

* 局部变量str2,str3存储的是存储两个拘留字符串对象(intern字符串对象)的地址.

* 第三行代码原理(str2+str3):

* 运行期JVM首先会在堆中创建一个StringBuilder类,

* 同时用str2指向的拘留字符串对象完成初始化,

* 然后调用append方法完成对str3所指向的拘留字符串的合并,

* 接着调用StringBuilder的toString()方法在堆中创建一个String对象,

* 最后将刚生成的String对象的堆地址存放在局部变量str3中.

* 而str5存储的是字符串池中"abcd"所对应的拘留字符串对象的地址.

* str4与str5地址当然不一样了.

* 内存中实际上有五个字符串对象:

* 三个拘留字符串对象,一个String对象和一个StringBuilder对象.

* /
    String str2 = "ab"; / / 1个对象String str3 = "cd"; //1个对象
String str4 = str2 + str3;
String str5 = "abcd";
System.out.println("str4 = str5 : " + (str4 == str5)); // false
//↑------------------------------------------------------over
/***/

* 情景五:

* JAVA编译器对string + 基本类型/常量是当成常量表达式直接求值来优化的.

* 运行期的两个string相加,会产生新的对象的,存储在堆(heap)中

* /
    String str6 = "b";
    String str7 = "a" + str6;
    String str67 = "ab";
    System.out.println("str7 = str67 : " + (str7 == str67));
    / / ↑str6为变量,
在运行期才会被解析.final String str8 = "b";
String str9 = "a" + str8;
String str89 = "ab";
System.out.println("str9 = str89 : " + (str9 == str89));
//↑str8为常量变量,编译期会被优化
//↑------------------------------------------------------over
}

总结:

1.String 类初始化后是不可变的 (immutable)

这一说又要说很多,大家只要知道 String 的实例一旦生成就不会再改变了,比如说:String str="kv"+"ill"+""+"ans"; 就是有 4 个字符串常量,首先"kv"和"ill"生成了"kvill"存在内存中,然后"kvill"又和" "生成"kvill "存在内存中,最后又和生成了"kvill ans"; 并把这个字符串的地址赋给了 str, 就是因为 String 的" 不可变 " 产生了很多临时变量,这也就是为什么建议用 StringBuffer 的原因了,因为 StringBuffer 是可改变的.

下面是一些 String 相关的常见问题:

String中的final用法和理解final StringBuffer a = new StringBuffer("111");

final StringBuffer b = new StringBuffer("222");
a = b; //此句编译不通过 final StringBuffer a = new StringBuffer("111");
a.append("222"); // 编译通过

可见,final 只对引用的 "值"(即内存地址) 有效,它迫使引用只能指向初始指向的那个对象,改变它的指向会导致编译期错误.至于它所指向的对象的变化,final 是不负责的.

2. 代码中的字符串常量在编译的过程中收集并放在 class 文件的常量区中,如 "123","123"+"456" 等,含有变量的表达式不会收录,如 "123"+a.

3.JVM 在加载类的时候,根据常量区中的字符串生成常量池,每个字符序列如 "123" 会生成一个实例放在常量池里,这个实例是不在堆里的,也不会被 GC,这个实例的 value 属性从源码的构造函数看应该是用 new 创建数组置入 123 的,所以按我的理解此时 value 存放的字符数组地址是在堆里,如果有误的话欢迎大家指正.

4. 使用 String 不一定创建对象

在执行到双引号包含字符串的语句时,如 String a = "123",JVM 会先到常量池里查找,如果有的话返回常量池里的这个实例的引用,否则的话创建一个新实例并置入常量池里.如果是 String a = "123" + b (假设 b 是"456"),前半部分"123"还是走常量池的路线,但是这个 + 操作符其实是转换成 [SringBuffer].Appad() 来实现的,所以最终 a 得到是一个新的实例引用,而且 a 的 value 存放的是一个新申请的字符数组内存空间的地址(存放着"123456"),而此时"123456" 在常量池中是未必存在的.

要注意: 我们在使用诸如 String str = "abc"；的格式定义类时,总是想当然地认为,创建了 String 类的对象 str.担心陷阱！对象可能并没有被创建！而可能只是指向一个先前已经创建的对象.只有通过 new() 方法才能保证每次都创建一个新的对象

5. 使用 new String,一定创建对象

在执行 String a = new String("123") 的时候,首先走常量池的路线取到一个实例的引用,然后在堆上创建一个新的 String 实例,走以下构造函数给 value 属性赋值,然后把实例引用赋值给 a:

public String(String original) {
    int size = original.count;
    char[] originalValue = original.value;
    char[] v;
    if (originalValue.length > size) {
        // The array representing the String is bigger than the new
        // String itself. Perhaps this constructor is being called
        // in order to trim the baggage, so make a copy of the array.
        int off = original.offset;
        v = Arrays.copyOfRange(originalValue, off, off + size);
    } else {
        // The array representing the String is the same
        // size as the String, so no point in making a copy.
        v = originalValue;
    }
    this.offset = 0;
    this.count = size;
    this.value = v;
}

从中我们可以看到,虽然是新创建了一个 String 的实例,但是 value 是等于常量池中的实例的 value,即是说没有 new 一个新的字符数组来存放 "123".

如果是 String a = new String("123"+b) 的情况,首先看回第 4 点,"123"+b 得到一个实例后,再按上面的构造函数执行.

6.String.intern()

String 对象的实例调用 intern 方法后,可以让 JVM 检查常量池,如果没有实例的 value 属性对应的字符串序列比如 "123"(注意是检查字符串序列而不是检查实例本身),就将本实例放入常量池,如果有当前实例的 value 属性对应的字符串序列 "123" 在常量池中存在,则返回常量池中 "123" 对应的实例的引用而不是当前实例的引用,即使当前实例的 value 也是 "123".

public native String intern();

存在于. class 文件中的常量池,在运行期被 JVM 装载,并且可以扩充.String 的 intern() 方法就是扩充常量池的一个方法；当一个 String 实例 str 调用 intern() 方法时,Java 查找常量池中是否有相同 Unicode 的字符串常量,如果有,则返回其的引用,如果没有,则在常量池中增加一个 Unicode 等于 str 的字符串并返回它的引用；看示例就清楚了

/**

* Java学习交流QQ群:589809992 我们一起学Java！

* /
public static void main(String[] args) {
    String s0 = "kvill";
    String s1 = new String("kvill");
    String s2 = new String("kvill");
    System.out.println(s0 == s1); / / false System.out.println("**********");
s1.intern(); //虽然执行了s1.intern(),但它的返回值没有赋给s1
s2 = s2.intern(); //把常量池中"kvill"的引用赋给s2
System.out.println(s0 == s1); //flase
System.out.println(s0 == s1.intern()); //true//说明s1.intern()返回的是常量池中"kvill"的引用
System.out.println(s0 == s2); //true
}

最后我再破除一个错误的理解:有人说,"使用 String.intern() 方法则可以将一个 String 类的保存到一个全局 String 表中 ,如果具有相同值的 Unicode 字符串已经在这个表中,那么该方法返回表中已有字符串的地址,如果在表中没有相同值的字符串,则将自己的地址注册到表中 "如果我把他说的这个全局的 String 表理解为常量池的话,他的最后一句话," 如果在表中没有相同值的字符串,则将自己的地址注册到表中 " 是错的:

public static void main(String[] args) {
    String s1 = new String("kvill");
    String s2 = s1.intern();
    System.out.println(s1 == s1.intern()); //false
    System.out.println(s1 + " " + s2); //kvill kvill
    System.out.println(s2 == s1.intern()); //true
}

在这个类中我们没有声名一个 "kvill" 常量,所以常量池中一开始是没有 "kvill" 的,当我们调用 s1.intern() 后就在常量池中新添加了一个"kvill"常量,原来的不在常量池中的"kvill"仍然存在,也就不是" 将自己的地址注册到常量池中 " 了.

s1==s1.intern() 为 false 说明原来的"kvill"仍然存在；s2 现在为常量池中"kvill"的地址,所以有 s2==s1.intern() 为 true.

StringBuffer 与 StringBuilder 的区别,它们的应用场景是什么?

jdk 的实现中 StringBuffer 与 StringBuilder 都继承自 AbstractStringBuilder,对于多线程的安全与非安全看到 StringBuffer 中方法前面的一堆 synchronized 就大概了解了.

这里随便讲讲 AbstractStringBuilder 的实现原理:我们知道使用 StringBuffer 等无非就是为了提高 java 中字符串连接的效率,因为直接使用 + 进行字符串连接的话,jvm 会创建多个 String 对象,因此造成一定的开销.AbstractStringBuilder 中采用一个 char 数组来保存需要 append 的字符串,char 数组有一个初始大小,当 append 的字符串长度超过当前 char 数组容量时,则对 char 数组进行动态扩展,也即重新申请一段更大的内存空间,然后将当前 char 数组拷贝到新的位置,因为重新分配内存并拷贝的开销比较大,所以每次重新申请内存空间都是采用申请大于当前需要的内存空间的方式,这里是 2 倍,

StringBuffer 始于 JDK 1.0

StringBuilder 始于 JDK 1.5

从 JDK 1.5 开始,带有字符串变量的连接操作(+),JVM 内部采用的是

StringBuilder 来实现的,而之前这个操作是采用 StringBuffer 实现的.

我们通过一个简单的程序来看其执行的流程:

/**

* Java学习交流QQ群:589809992 我们一起学Java！

* /
public class Buffer {
    public static void main(String[] args) {
        String s1 = "aaaaa";
        String s2 = "bbbbb";
        String r = null;
        int i = 3694;
        r = s1 + i + s2;
        for (int j = 0; i < 10; j++) {
            r += "23124";
        }
    }
}/

使用命令 javap -c Buffer 查看其字节码实现:

将清单 1 和清单 2 对应起来看,清单 2 的字节码中 ldc 指令即从常量池中加载 "aaaaa" 字符串到栈顶,istore_1 将 "aaaaa" 存到变量 1 中,后面的一样,sipush 是将一个短整型常量值 (-32768~32767) 推送至栈顶,这里是常量 "3694".

让我们直接看到 13,13~17 是 new 了一个 StringBuffer 对象并调用其初始化方法,20 ~ 21 则是先通过 aload_1 将变量 1 压到栈顶,前面说过变量 1 放的就是字符串常量 "aaaaa",接着通过指令 invokevirtual 调用 StringBuffer 的 append 方法将 "aaaaa" 拼接起来,后续的 24 ~ 30 同理.最后在 33 调用 StringBuffer 的 toString 函数获得 String 结果并通过 astore 存到变量 3 中.

看到这里可能有人会说,"既然 JVM 内部采用了 StringBuffer 来连接字符串了,那么我们自己就不用用 StringBuffer,直接用"+"就行了吧！".是么?当然不是了.俗话说 "存在既有它的理由",让我们继续看后面的循环对应的字节码.

37~ 42 都是进入 for 循环前的一些准备工作,37,38 是将 j 置为 1.44 这里通过 if_icmpge 将 j 与 10 进行比较,如果 j 大于 10 则直接跳转到 73,也即 return 语句退出函数；否则进入循环,也即 47~66 的字节码.这里我们只需看 47 到 51 就知道为什么我们要在代码中自己使用 StringBuffer 来处理字符串的连接了,因为每次执行 "+" 操作时 jvm 都要 new 一个 StringBuffer 对象来处理字符串的连接,这在涉及很多的字符串连接操作时开销会很大.

来源: http://www.phperz.com/article/18/0113/353442.html

与本文相关文章

暂无,快来抢沙发吧！