- 深入解析Android 虚拟机
- 钟世礼
- 6271字
- 2020-06-28 05:36:03
2.2 Java虚拟机概述
Java虚拟机(JVM)是一个虚构出来的计算机,是通过在实际的计算机上仿真模拟各种计算机功能模拟来实现的。Java虚拟机有自己完善的硬件架构,如处理器、堆栈、寄存器等,还具有相应的指令系统。JVM虚拟机的运作结构如图2-1所示。
图2-1 JVM虚拟机的运作结构
从该图中可以看到,JVM是运行在操作系统之上的,与硬件没有直接的交互。JVM的具体组成部分如图2-2所示。
图2-2 JVM构成图
(1)使用JVM的原因。
Java语言的一个非常重要的特点就是与平台的无关性。而使用JVM是实现这一特点的关键。一般的高级语言如果要在不同的平台上运行,至少需要编译成不同的目标代码。在引入JVM后,Java语言在不同平台上运行时不需要重新编译。Java语言使用模式JVM屏蔽了与具体平台相关的信息,使得Java语言编译程序只需生成在JVM上运行的目标代码(字节码),就可以在多种平台上不加修改地运行。当JVM执行字节码时,把字节码解释成具体平台上的机器指令执行。
(2)JVM的作用。
JVM是Java语言底层实现的基础,对Java语言感兴趣的读者来说,很有必要对Java虚拟机有一个大概的了解。因为这不但有助于理解Java语言的一些性质,而且也有助于使用Java语言。对于要在特定平台上实现JVM的软件人员、Java语言的编译器作者以及要用硬件芯片实现JVM的人员来说,必须深刻理解JVM的规范。另外,如果你想扩展Java语言,或是把其他语言编译成Java语言的字节码,你也需要深入地了解JVM。
在本节的内容中,将简要讲解和JVM相关的基本知识。
2.2.1 JVM的数据类型
在JVM机制中,可以支持如下所示的基本数据类型。
byte:1字节有符号整数的补码。
short:2字节有符号整数的补码。
int:4字节有符号整数的补码。
long:8字节有符号整数的补码。
float:4字节IEEE754单精度浮点数。
double:8字节IEEE754双精度浮点数。
char:2字节无符号Unicode字符。
object:对一个Javaobject(对象)的4字节引用。
returnAddress:4字节,用于jsr/ret/jsr-w/ret-w指令。
几乎所有的Java类型检查工作都是在编译时完成的,上述列出的原始数据类型数据在Java执行时不需要用硬件标记。操作这些原始数据类型数据的字节码(指令)本身就已经指出了操作数的数据类型,例如iadd、ladd、fadd和dadd指令都是把两个数相加,其操作数类型分别是int、long、float和double。虚拟机没有给boolean(布尔)类型设置单独的指令。boolean型的数据是由integer指令,包括integer返回来处理的。boolean型的数组则是用byte数组来处理的。虚拟机使用IEEE754格式的浮点数,不支持IEEE格式的较旧的计算机,在运行Java数值计算程序时,可能会非常慢。
虚拟机的规范对于object内部的结构没有任何特殊的要求。在Oracle公司的实现中,对object的引用是一个句柄,其中包含一对指针:一个指针指向该object的方法表,另一个指向该object的数据。用Java虚拟机的字节码表示的程序应该遵守类型规定。Java虚拟机的实现应拒绝执行违反了类型规定的字节码程序。Java虚拟机由于字节码定义的限制似乎只能运行于32位地址空间的机器上。但是可以创建一个Java虚拟机,它自动地把字节码转换成64位的形式。从Java虚拟机支持的数据类型可以看出,Java对数据类型的内部格式进行了严格规定,这样使得各种Java虚拟机的实现对数据的解释是相同的,从而保证了Java的与平台无关性和可移植性。
2.2.2 Java虚拟机体系结构
JVM由如下5个部分组成。
一组指令集。
一组寄存器。
一个栈。
一个无用单元收集堆(Garbage-collected-heap)。
一个方法区域。
这5部分是Java虚拟机的逻辑成分,不依赖任何实现技术或组织方式,但它们的功能必须在真实机器上以某种方式实现。在接下来的内容中,将简要介绍上述组成部分的基本知识,更加详细的知识读者可以参阅本书后面的内容。
1.Java指令集
Java虚拟机支持大约248个字节码,每个字节码执行一种基本的CPU运算,例如把一个整数加到寄存器,子程序转移等。Java指令集相当于Java程序的汇编语言。
Java指令集中的指令包含一个单字节的操作符,用于指定要执行的操作,还有0个或多个操作数,提供操作所需的参数或数据。许多指令没有操作数,仅由一个单字节的操作符构成。
虚拟机的内层循环的执行过程如下:
do{ 取一个操作符字节; 根据操作符的值执行一个动作; }while(程序未结束)
由于指令系统的简单性,使得虚拟机执行的过程十分简单,这样有利于提高执行的效率。指令中操作数的数量和大小是由操作符决定的。如果操作数比一个字节大,那么它存储的顺序是高位字节优先。假如一个16位的参数存放时占用两个字节,其值为:
第一个字节*256+第二个字节
字节码指令流一般只是字节对齐的,但是指令tabltch和lookup是例外,在这两条指令内部要求强制的4字节边界对齐。
2.寄存器
Java虚拟机的寄存器用于保存机器的运行状态,与微处理器中的某些专用寄存器类似,所有寄存器都是32位的。在Java虚拟机中有以下4种寄存器。
pc:Java程序计数器。
optop:指向操作数栈顶端的指针。
frame:指向当前执行方法的执行环境的指针。
vars:指向当前执行方法的局部变量区第一个变量的指针。
Java虚拟机是栈式的,它不定义或使用寄存器来传递或接收参数,其目的是为了保证指令集的简洁性和实现时的高效性,特别是对于寄存器数目不多的处理器。
3.栈
Java虚拟机中的栈有3个区域,分别是局部变量区、运行环境区、操作数区。
(1)局部变量区。
每个Java方法使用一个固定大小的局部变量集。它们按照与vars寄存器的字偏移量来寻址。局部变量都是32位的。长整数和双精度浮点数占据了两个局部变量的空间,却按照第一个局部变量的索引来寻址(例如,一个具有索引n的局部变量,如果是一个双精度浮点数,那么它实际占据了索引n和n+1所代表的存储空间)。虚拟机规范并不要求在局部变量中的64位的值是64位对齐的。虚拟机提供了把局部变量中的值装载到操作数栈的指令,也提供了把操作数栈中的值写入局部变量的指令。
(2)运行环境区。
在运行环境中包含的信息可以实现动态链接、正常的方法返回和异常、错误传播。
动态链接。
运行环境包括对指向当前类和当前方法的解释器符号表的指针,用于支持方法代码的动态链接。方法clas文件代码在引用要调用的方法和要访问的变量时使用符号。动态链接把符号形式的方法调用翻译成实际方法调用,装载必要的类以解释还没有定义的符号,并把变量访问翻译成与这些变量运行时的存储结构相应的偏移地址。动态链接方法和变量使得方法中使用的其他类的变化不会影响到本程序的代码。
正常的方法返回。
如果当前方法正常地结束了,在执行了一条具有正确类型的返回指令时,调用的方法会得到一个返回值。执行环境在正常返回的情况下用于恢复调用者的寄存器,并把调用者的程序计数器增加一个恰当的数值,以跳过已执行过的方法调用指令,然后在调用者的执行环境中继续执行下去。
异常和错误传播。
异常情况在Java中被称作Error(错误)或Exception(异常),是Throwable类的子类,在程序中的原因有如下两点。
● 动态链接错,如无法找到所需的class文件。
● 运行时出错,如对一个空指针的引用程序使用了throw语句。当发生异常时,Java虚拟机采取如下措施解决。
检查与当前方法相联系的catch子句表。每个catch子句包含其有效指令范围,能够处理的异常类型,以及处理异常的代码块地址。
与异常相匹配的catch子句应该符合下面的条件:造成异常的指令在其指令范围之内,发生的异常类型是其能处理的异常类型的子类型。如果找到了匹配的catch子句,那么系统转移到指定的异常处理块处执行。如果没有找到异常处理块,重复寻找匹配的catch子句的过程,直到当前方法的所有嵌套的catch子句都被检查过。
由于虚拟机从第一个匹配的catch子句处继续执行,所以catch子句表中的顺序是很重要的。因为Java代码是结构化的,因此总可以把某个方法的所有的异常处理器都按序排列到一个表中,对任意可能的程序计数器的值,都可以用线性的顺序找到合适的异常处理块,以处理在该程序计数器值下发生的异常情况。
如果找不到匹配的catch子句,那么当前方法得到一个"未截获异常"的结果并返回到当前方法的调用者,好像异常刚刚在其调用者中发生一样。如果在调用者中仍然没有找到相应的异常处理块,那么这种错误传播将被继续下去。如果错误被传播到最顶层,那么系统将调用一个缺省的异常处理块。
(3)操作数栈区。
机器指令只从操作数栈中取操作数,对它们进行操作,并把结果返回到栈中。选择栈结构的原因是:在只有少量寄存器或非通用寄存器的机器(如Intel486)上,也能够高效地模拟虚拟机的行为。操作数栈是32位的。它用于给方法传递参数,并从方法接收结果,也用于支持操作的参数,并保存操作的结果。例如,iadd指令将两个整数相加,相加的两个整数应该是操作数栈顶的两个字,这两个字是由先前的指令压进堆栈的,这两个整数将从堆栈弹出、相加,并把结果压回到操作数栈中。
每个原始数据类型都有专门的指令对它们进行必须的操作。每个操作数在栈中需要一个存储位置,除了long和double型,它们需要两个位置。操作数只能被适用于其类型的操作符所操作。例如压入两个int类型的数,如果把它们当作是一个long类型的数则是非法的。在Sun的虚拟机实现中,这个限制由字节码验证器强制实行。但是有少数操作(操作符dupe和swap),用于对运行时数据区进行操作时是不考虑类型的。
4.无用单元收集堆
Java的堆是一个运行时数据区,类的实例(对象)从中分配空间。Java语言具有无用单元收集能力,即它不给程序员显示释放对象的能力。Java不规定具体使用的无用单元收集算法,可以根据系统的需求使用各种各样的算法。
5.方法区
方法区与传统语言中的编译后代码或是Unix进程中的正文段类似。它保存方法代码(编译后的java代码)和符号表。在当前的Java实现中,方法代码不包括在无用单元收集堆中,但计划在将来的版本中实现。每个类文件包含了一个Java类或一个Java界面的编译后的代码。可以说类文件是Java语言的执行代码文件。为了保证类文件的平台无关性,Java虚拟机规范中对类文件的格式也作了详细的说明。其具体细节请参考Sun公司的Java虚拟机规范。
在Java虚拟机规范中,一个虚拟机实例的行为是分别按照子系统、内存区、数据类型以及指令这几个术语来描述的。这些组成部分一起展示了抽象的虚拟机的内部抽象体系结构。但是规范中对它们的定义并非要强制规定Java虚拟机实现内部的体系结构,更多的是为了严格地定义这些实现的外部特征。规范本身通过定义这些抽象的组成部分以及它们之间的交互,来定义任何Java虚拟机实现都必须遵守的行为。
图2-3是Java虚拟机的结构框图,包括在规范中描述的主要子系统和内存区。前一章曾提到,每个Java虚拟机都有一个类装载器子系统,它根据给定的全限定名类装入类型(类或接口),同样,每个Java虚拟机都有一个执行引擎,它负责执行那些包含在被装载类的方法中的指令。
图2-3 Java虚拟机的内部体系结构
当Java虚拟机运行一个程序时,它需要使用内存来存储许多东西,例如下面所示的元素。
字节码。
从已装载的class文件中得到的其他信息。
程序创建的对象。
传递给方法的参数。
返回值。
局部变量。
运算的中间结果。
Java虚拟机会把上述元素都组织到几个“运行时数据区”中,目的是便于管理。尽管这些“运行时数据区”都会以某种形式存在于每一个Java虚拟机实现中,但是规范对它们的描述却是相当抽象的。这些运行时数据区结构上的细节,大多数都由具体实现的设计者决定。
不同的虚拟机实现可能具有很不同的内存限制,有的实现可能大量的内存可用,有的可能只有很少的内存,有的实现可以利用虚拟内存,有的则不能。规范本身对“运行时数据区”只有抽象的描述,这就使得Java虚拟机可以很容易地在各种计算机和设备上实现。
某些运行时数据区是由程序汇总所有线程共享的,还有一些则只由一个线程拥有。每个Java虚拟机实例都有一个方法区以及一个堆,它们是由该虚拟机实例中所有线程共享的。当虚拟机装载一个class文件时,它会从这个class文件包含的二进制数据中解析类型信息,然后,它把这些类型信息放到方法区中。当程序运行时,虚拟机会把所有该程序在运行时创建的对象都放到堆中。图2-4对这些内存区域进行了描绘。
图2-4 由所有线程共享的运行时数据区
当每一个新线程被创建时,它都将得到它自己的PC寄存器(程序计数器)以及一个Java栈:如果线程正在执行的是一个Java方法(非本地方法),那么PC寄存器的值将总是指示下一条将被执行的指令,而它的Java栈则总是存储该线程中Java方法调用的状态——包括它的局部变量、被调用时传进来的参数、它的返回值以及运算的中间结果等。而本地方法调用的状态,则是以某种依赖于具体实现的方式存储在本地方法栈中,也可能是在寄存器或者其他某些与特定实现相关的内存区中。
Java栈是由许多栈帧(stackframe)或者说帧(frame)组成的,一个栈帧包含一个Java方法调用的状态。当线程调用一个Java方法时,虚拟机压入一个新的栈帧到该线程的Java栈中。当该方法返回时,这个栈帧被从Java栈中弹出并抛弃。
Java虚拟机没有寄存器,其指令集使用Java栈来存储中间数据。这样设计的原因是为了保持Java虚拟机的指令集尽量紧凑,同时也便于Java虚拟机在那些只有很少通用寄存器的平台上实现,另外Java虚拟机的这种基于栈的体系结构,也有助于运行时某些虚拟机实现的动态编译器和即时编译器的代码优化。
图2-5描绘了Java虚拟机为每一个线程创建的内存区,这些内存区域是私有的,任何线程都不能访问另一个线程的PC寄存器或者Java栈。
图2-5 线程专有的运行时数据区
图2-5展示了一个虚拟机实例的快照,它有3个线程正在执行。线程1和线程2都正在执行Java方法,而线程3则正在执行一个本地方法。在图5-3中,和本书其他地方一样,Java栈都是向下生长的,而栈顶都显示在图的底部,当前正在执行的方法的栈帧则以浅色表示,对于一个正在运行Java方法的线程而言,它的PC寄存器总是指向下一条将被执行的指令。在图2-5中,像这样的PC寄存器(比如线程1和线程2的)都是以浅色显示的。由于线程3当前正在执行一个本地方法,因此,它的PC寄存器(以深色显示的那个)的值是不确定的。
2.2.3 JVM的生命周期
一个运行时的Java虚拟机实例的天职是:负责运行一个Java程序。在启动一个Java程序的同时会诞生一个虚拟机实例,当该程序退出时,虚拟机实例也随之消亡。如果在同一台计算机上同时运行3个Java程序,会得到3个Java虚拟机实例。每个Java程序都运行于它自己的Java虚拟机实例中。
Java虚拟机实例通过调用某个初始类的main()方法来运行一个Java程序。而这个main()方法必须是公有的(public)、静态的(static)、返回值为void,并且接受一个字符串数组作为参数。任何拥有这样一个main()方法的类都可以作为Java程序运行的起点。假如存在这样一个Java程序,此程序能够打印出传给它的命令行参数:
package jvm.ext1; public class Echo { public static void main(String[]args) { int length = args.length; for (int i = 0; i <length; i++) { System.out.print(args[i] +""); } System.out.println(); } }
上述代码必须告诉Java虚拟机要运行的Java程序中初始类的名字,整个程序将从它的main()方法开始运行。现实中一个Java虚拟机实现的例子如SunJava 2 SDK的Java程序。比如,如果想要在Windows上使用Java运行Echo程序,需要键入如下命令。
java Echo Greeting, Planet
该命令的第一个单词“java”,告诉操作系统应该运行来自Sun Java 2 SDK的Java虚拟机。第二个词”Echo”则支持初始类的名字。Echo这个初始类中必须有个公有的、静态的方法main(),它获得一个字符串数组参数并且返回void。上述命令行中剩下的单词序列“Greeting, Planet”,作为该程序的命令行参数以字符串数组的形式传递给main(),因此,对于上面这个例子,传递给类Echo中main()方法的字符串数组参数的内容就是:
args[0]为”Greeting, ” args[1]为“Planet.”
Java程序初始类中的main()方法,将作为该程序初始线程的起点,任何其他的线程都是由这个初始线程启动的。
在Java虚拟机内部有两种线程:守护线程与非守护线程。守护线程通常是由虚拟机自己使用的,比如执行垃圾收集任务的线程。但是,Java程序也可以把它创建的任何线程标记为守护线程。而Java程序中的初始线程(即程序开始的main())是非守护线程。
只要还有任何非守护线程在运行,那么这个Java程序也在继续运行(虚拟机仍然存活)。当该程序中所有的非守护线程都终止时,虚拟机实例将自动退出。假若安全管理器允许,程序本身也能够通过调用Runtime类或者System类的exit方法来退出。
在上面的Echo程序中,方法main()并没有调用其他的线程。所以当它打印完命令行参数后返回main()方法。这就终止了该程序中唯一的非守护线程,最终导致虚拟机实例退出。