背景
String 类型拥有一个字符串常量池(String Constant Psool),使用字符串常量池包括以下两种方式:
- 直接使用双引号
- String.intern()
直接使用双引号
直接使用双引号声明出来的 String 对象会直接存储在字符串常量池中。
String.intern()
使用 String 提供的 intern 方法。
String.intern() 是一个 Native 方法。
它的作用是:在运行时,如果在字符串常量池中,包含了一个等于此 String 对象内容的字符串,则返回字符串常量池中该字符串的引用;如果没有,则在字符串常量池中创建一个与此 String 内容相同的字符串,并返回字符串常量池中创建的字符串的引用。
例子分析
我们来看看下面的例子:
String s1 = new String("计算机");
String s2 = new String("计算机").intern();
String s3 = "计算机";
System.out.println(s2);//计算机
System.out.println(s1 == s2);//false,因为一个是堆内存中的String对象,一个是常量池中的String对象
System.out.println(s3 == s2);//true,因为两个都是常量池中的String对象
事实上,在 String s2 = new String("计算机").intern();
中的 intern
是多余的。
因为,就算不用intern
,“计算机”作为一个字面量也会被加载到Class文件常量池(Class constant pool)中,进而加入到运行时常量池(Runtime constant pool)中,为啥还要多此一举呢?
intern()的正确使用
那到底什么场景下才需要使用intern
呢?
在解释这个之前,我们先来看下以下代码:
String s1 = "Wei";
String s2 = "Shi";
String s3 = s1 + s2;
String s4 = "Wei" + "Shi";
而实际上,上面的代码就等价于下面的写法:
String s1 = "Wei";
String s2 = "Shi";
String s3 = (new StringBuilder()).append(s1).append(s2).toString();
String s4 = "WeiShi";
可以发现,同样是字符串拼接,s3和s4在经过编译器编译后的实现方式并不一样。s1+s2被转化成StringBuilder
的append
操作,而s4被直接拼接成新的字符串。
如果你感兴趣,你还能发现,String s3 = s1 + s2;
经过编译之后,常量池中是有两个字符串常量的分别是 Wei
、Shi
(其实Wei
和Shi
是String s1 = "Wei";
和String s2 = "Shi";
定义出来的),拼接结果WeiShi
并不在常量池中。
如果代码只有String s4 = "Wei" + "Shi";
,那么常量池中将只有"WeiShi"而没有”Wei” 和 “Shi”。
究其原因,是因为常量池要保存的是已确定的字面量值。也就是说,对于字符串的拼接,纯字面量和字面量的拼接,会把拼接结果作为常量保存到字符串池。
如果在字符串拼接中,有一个参数是非字面量,而是一个变量的话,整个拼接操作会被编译成StringBuilder.append
,这种情况编译器是无法知道其确定值的。只有在运行期才能确定。
那么,有了这个特性了,intern
就有用武之地了。那就是很多时候,我们在程序中得到的字符串是只有在运行期才能确定的,在编译期是无法确定的,那么也就没办法在编译期被加入到常量池中。
这时候,对于那种可能经常使用的字符串,使用intern
进行定义,每次JVM运行到这段代码的时候,就会直接把常量池中该字面值的引用返回,这样就可以减少大量字符串对象的创建了。
如深入解析String#intern文中举的一个例子:
static final int MAX = 1000 * 10000;
static final String[] arr = new String[MAX];
public static void main(String[] args) throws Exception {
Integer[] DB_DATA = new Integer[10];
Random random = new Random(10 * 10000);
for (int i = 0; i < DB_DATA.length; i++) {
DB_DATA[i] = random.nextInt();
}
long t = System.currentTimeMillis();
for (int i = 0; i < MAX; i++) {
arr[i] = new String(String.valueOf(DB_DATA[i % DB_DATA.length])).intern();
}
System.out.println((System.currentTimeMillis() - t) + "ms");
System.gc();
}
分别测试在使用intern()和不使用intern()的耗时差异。
在以上代码中,我们明确的知道,会有很多重复的相同的字符串产生,但是这些字符串的值都是只有在运行期才能确定的。所以,只能我们通过intern
显示的将其加入常量池,这样可以减少很多字符串的重复创建。
总结
我们再回到文章开头那个疑惑:按照上面的两个面试题的回答,就是说new String
也会检查常量池,如果有的话就直接引用,如果不存在就要在常量池创建一个,那么还要intern
干啥?难道以下代码是没有意义的吗?
String s = new String("Wei").intern();
而intern中说的“如果有的话就直接返回其引用”,指的是会把字面量对象的引用直接返回给定义的对象。这个过程是不会在Java堆中再创建一个String对象的。
的确,以上代码的写法其实是使用intern是没什么意义的。因为字面量Wei会作为编译期常量被加载到运行时常量池。
Reference
- 我终于搞清楚了和String有关的那点事儿。 - https://www.hollischuang.com/archives/2517
- 深入解析String#intern - https://tech.meituan.com/2014/03/06/in-depth-understanding-string-intern.html