jvm类文件的结构5-属性表集合

属性表简介

在字段表、方法表中都可以携带自己的属性表集合,以用于描述某些场景专有的信息。

属性表集合的限制比较宽松,不再要求各个属性表具有严格的顺序,并且只要不与已有的属性名重复,任何人实现的都可以向属性表中写入自己定义的属性信息,Java虚拟机运行时会忽略掉它不认识的属性。

以下是虚拟机规范预定义的属性:

属性名称 使用位置 含义
Code 方法表 Java代码编译成的字节码指令
ConstantValue 字段表 final关键字定义的常量值
Deprecated 类、方法表、字段表 被声明为deprecated的方法和字段
Exceptions 方法表 方法抛出的异常
InnerClasses 类文件 内部类列表
LineNumberTable Code属性 Java源码的行号与字节码指令的对应关系
LocalVariableTable Code属性 方法的局部变量描述
SourceFile 类文件 源文件名称
Synthetic 类、方法表、字段表 标识方法或字段为编译器自动生成的

对于每个属性,它的名称需要从常量池中引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则是完全自定义的,只需要说明属性值所占用的位数长度即可。

属性表结构

类型 名称 数量
u2 attribute_name_index 1
u2 attribute_lenght 1
u1 info attribute_lenght

Code属性

Java程序方法体里面的代码经过Javac编译器处理之后,最终变为字节码指令存储在Code属性内。

Code属性出现在方法表的属性集合之中,但并非所有的方法表都必须存在这个属性,譬如接口或抽象类中的方法就不存在Code属性。

Code属性表的结构

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 max_stack 1
u2 max_locals 1
u4 code_length 1
u1 code code_length
u2 exception_table_length 1
exception_info exception_table exception_table_length
u2 attributes_count 1
attribute_info attributes attributes_count

attribute_name_index

attribute_name_index是一项指向CONSTANT_Utf8_info型常量的索引,常量值固定为”Code”,它代表了该属性的属性名称, attribute_length指示了属性值的长度,由于属性名称索引与属性长度一共是6个字节,所以属性值的长度固定为整个属性表的长度减去6个字节。

max_stack

max_stack代表了操作数栈(Operand Stacks)深度的最大值。在方法执行的任意时刻,操作数栈都不会超过这个深度。虚拟机运行的时候需要根据这个值来分配栈帧(Frame)中的操作栈深度。

max_locals

max_locals代表了局部变量表所需的存储空间。在这里,max_locals的单位是Slot,Slot是虚拟机为局部变量分配内存所使用的最小单位。对于byte、char、float、int、short、boolean、reference和returnAddress等长度不超过32位的数据类型,每个局部变量占用1个Slot,而double和long这两种64位的数据类型则需要2个Slot来存放。
方法参数(包括实例方法中的隐藏参数”this”)、显式异常处理器的参数(Exception Handler Parameter, 即try-catch语句中catch块所定义的异常)、方法体中定义的局部变量都需要使用局部变量表来存放。
另外,并不是在方法中用到了多少个局部变量,就把这些局部变量所占的Slot之和作为max_locals的值,原因是局部变量表中的Slot可以重用,当代码执行超出一个局部变量的作用域时,这个局部变量所占的Slot就可以被其他局部变量所使用,编译器会根据变量的作用域来分类Slot并分配给各个变量使用,然后计算出max_locals的大小。

code_length 和 code

code_length和code用来存储Java源程序编译后生成的字节码指令。code_length代表字节码长度,code是用于存储字节码指令的一系列字节流。既然名为字节码指令,那么每个指令就是一个u1类型的单字节,当虚拟机读取到code中的一个字节码时,就可以相应地找出这个字节码代表的是什么指令,并且可以知道这条指令后面是否需要跟随参数,以及参数应当如何理解。我们知道一个u1数据类型的取值范围为0x00到0xFF,对应十进制的0~255,也就是一共可以表达256条指令。

关于code_length,还有一件值得注意的事情,虽然它是一个u4类型的长度值,理论上最大值可以达到2^32-1,但是虚拟机规范中限制了一个方法不允许超过65535条字节码指令,如果超过这个限制,Javac编译器就会拒绝编译。一般来讲,只要我们写Java代码时不是刻意去编写超长的方法,就不会超过这个最大值的限制。但是,在编译复杂的JSP文件时,可能会因为这个原因导致编译失败。

Code属性是Class文件中最重要的一个属性,如果把一个Java程序中的信息分为代码(Code,方法体里面的Java代码)和元数据(Metadata,包括类、字段、方法定义及其他信息)两部分,那么在整个Class文件里,Code属性用于描述代码,所有其他数据项目都用于描述元数据。

异常表集合

异常表对于Code来说并不是必须存在的。

异常表格式如下:

类型 名称 数量
u2 start_pc 1
u2 end_pc 1
u2 handler_pc 1
u2 catch_type 1

如果字节码从第start_pc行到第end_pc行之间(不含第end_pc行)出现了类型为catch_type或其子类的异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理。当catch_type的值为0时,代表任何的异常情况都需要转向到handler_pc处进行处理。

编译器为try catch生成了三条异常表记录:

  1. 如果try语句块中出现属于Exception或其子类的异常,则转到catch语句块处理。

  2. 如果try语句块中出现不属于Exception或其子类的异常,则转到finally语句块处理。

  3. 如果catch语句块中出现任何异常,则转到finally语句块中处理。

Exceptions属性

Exceptions属性的作用是列举出方法中可能抛出的受查异常(Checked Exceptions),也就是方法在描述时在throws关键字后面列举的异常。

结构如下表:

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 number_of_exceptions 1
u2 exception_index_table number_of_exceptions

number_of_exceptions表示方法会抛出多少个受查异常。
每一种受查异常使用一个exception_index_table项表示,exception_index_table是一个指向常量池中CONSTANT_Class_info型常量的索引,代表了该受查异常的类型。

LineNumberTable

LineNumberTable属性用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。它并不是运行时必需的属性,但默认会生成到Class文件之中,可以在Javac中使用-g: none 或 -g: lines选项来取消或要求生成这项信息。如果选择不生成LineNumberTable属性,对程序运行产生的最主要的影响就是在抛出异常时,堆栈中将不会显示出错的行号,并且在调试程序的时候无法按照源码来设置断点。

LocalVariableTable

LocalVariableTable属性用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系,它不是运行时必需的属性,默认也不会生成到Class文件之中,可以在Javac中使用-g:none 或 -g: vars选项来取消或要求生成这项信息。如果没有生成这项属性,最大的影响就是当其他人引用这个方法时,所有的参数名称都将丢失,IDE可能会使用诸如arg0、arg1之类的占位符来代替原有的参数名,这对程序运行没有影响,但是会给代码编写带来较大的不便,而且在调试期间调试器无法根据参数名称从运行上下文中获得参数值。

在JDK 1.5引入泛型之后,LocalVariableTable属性增加了一个”姐妹属性”: LocalVariableTypeTable,这个新增的属性结构与LocalVariableTable非常相似,仅仅是把记录的字段描述符的descriptor_index替换成了字段的特征签名(Signature),对于非泛型类型来说,描述符和特征签名能描述的信息基本是一致的,但是引入泛型后,由于描述符中泛型的参数化类型被擦除掉了,描述符就不能准确地描述泛型类型了,因此出现了LocalVariableTypeTable.

SourceFile

SourceFile属性用于记录生成这个Class文件的源码文件名称。这个属性也是可选的,可以使用Javac的-g: none 或 -g: source选项来关闭或要求生成这项信息。在Java中,对于大多数的类来说,类名和文件名是一致的,但是有一些特殊情况(如内部类)例外。如果不生成这项属性,当抛出异常时,堆栈中将不会显示出错误代码所属的文件名。

结构如下所示:

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 sourcefile_index 1

ConstantValue

ConstantValue属性的作用是通知虚拟机自动为静态变量赋值。只有被static 关键字修饰的变量(类变量) 才可以使用这项属性。
对于非static类型的变量(也就是实例变量)的赋值是在实例构造器\<init>方法中进行的;
而对于类变量,则有两种方式可以选择:

  1. 赋值在类构造器\<clinit>方法中进行

  2. 使用ConstantValue属性来赋值。

Sun Javac编译器的选择是: 如果同时使用final和static来修饰一个常量,并且这个变量的数据类型是基本类型或java.lang.String的话,就生成ConstantValue属性来进行初始化,如果这个变量没有被final修饰,或者并非基本类型及字符串,则选择在\<clinit>中进行初始化。

虽然有final关键字才更符合”ConstantValue”的语义,但虚拟机规范中并没有强制要求字段必须设置了ACC_FINAL标志, 只要求了有ConstantValue属性的字段必须设置ACC_STATIC标志,对final关键字的要求是Javac编译器自己加入的限制。

而ConstantValue的属性值则只限于基本类型和String,不过笔者不认为这是什么限制,因为此属性的属性值只是一个常量池的索引号,由于Class文件格式的常量类型中只有与基本属性和字符串相对应的字面量,所以就算ConstantValue属性想支持别的类型也无能为力。

InnerClasses

InnerClasses属性用于记录内部类与宿主类之间的关联。如果一个类定义了内部类,那编译器将会为它及它所包含的内部类生成InnerClasses属性。

属性的结构如表所示:

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1
u2 number_of_classes 1
inner_classes_info inner_classes number_of_classes

数据项number_of_classes代表需要记录多少个内部类信息,每一个内部类的信息都由一个inner_classes_info表进行描述。

inner_classes_info表的结构如下:

类型 名称 数量
u2 inner_class_info_index 1
u2 outer_class_info_index 1
u2 inner_name_index 1
u2 inner_class_access_flags 1

inner_class_info_index, outer_class_info_index

inner_class_info_index和outer_class_info_index都是指向常量池中CONSTANT_Class_info型常量的索引,分别代表了内部类和宿主类的符号引用。

inner_name_index

inner_name_index是指向常量池中CONSTANT_Utf8_info型常量的索引,代表这个内部类的名称,如果是匿名内部类,则这项值为0。

inner_class_access_flags

inner_class_access_flags是内部类的访问标志,类似于类的access_flags.

Deprecated及Synthetic属性

Deprecated和Synthetic两个属性都属于标志类型的布尔属性,只存在有和没有的区别,没有属性值的概念。

Deprecated属性用于表示某个类、字段或方法已经被程序作者定为不再推荐使用,它可以通过在代码中使用@deprecated注释进行设置。

Synthetic属性代表此字段或方法并不是由Java源码直接产生的,而是由编译器自行添加的,在JDK1.5之后,标识一个类、字段或方法是编译器自动产生的,也可以设置它们访问标志中的ACC_SYNTHETIC标志位,其中最典型的例子就是Bridge Method。所有由非用户代码产生的类、方法及字段都应当至少设置Synthetic属性和ACC_SYNTHETIC标志位中的一项,唯一的例外是实例构造器“\<init>”方法和类构造器”\<clinit>“方法。

Deprecated和Synthetic属性的结构非常简单:

类型 名称 数量
u2 attribute_name_index 1
u4 attribute_length 1

其中attribute_length数据项的值必须为0x00000000,因为没有任何属性值需要设置。