超详细的Dalvik指令

最新推荐文章于 2023-07-20 12:02:49 发布

众生回避

最新推荐文章于 2023-07-20 12:02:49 发布

阅读量3k

点赞数 2

分类专栏：逆向编程反编译 Android 文章标签： Android Dalvik指令反编译逆向编程

本文链接：https://blog.csdn.net/qq_32113133/article/details/85246142

版权

Android 同时被 3 个专栏收录

16 篇文章 1 订阅

订阅专栏

反编译

7 篇文章 1 订阅

订阅专栏

逆向编程

6 篇文章 2 订阅

订阅专栏

Dalvik虚拟机比Java虚拟机执行速度快

通过实例来对比Java字节码和Dalvik字节码的不同

源码如下：

public class Hello {
    public static void main(String[] args){
        Hello hello = new Hello();
        System.out.println(hello.foo(5,3));
	}

	public int foo(int a,int b){
    	return (a+b) * (a-b);
	}
}

可以查看这篇文章来得到生成的Java字节码和:查看Java字节码

我们得到的Java字节码如下：

 public int foo(int, int);
    Code:
       0: iload_1
       1: iload_2
       2: iadd
       3: iload_1
       4: iload_2
       5: isub
       6: imul
       7: ireturn

iload_1分为两部分：第一部分为下划线左边的iload，它属于JVM(Java虚拟机)指令集中load系列找那个的一条，i是指令前缀，表示操作类型为int类型，load表示将局部变量存入java栈，与之类似的还有lload、fload、dload分别表示将long，float,double类型的数据进栈；第二部分为下划线有变动的数字，表示要操作具体哪个局部变量，索引值从0开始计算，iload_1表示将第二个int类型的局部变量进栈，这里第二个局部变量是存放在局部变量区foo()函数的第二参数。

第二条指令iload_2取第三个参数。

第三条指令iadd从栈顶弹出两个int类型值，将值相加，然后把结果押回栈顶。

第四，第五条指令分别再次压入第二个参数与第三个参数。

第六条指令isub从栈顶弹出两个int类型值，然后相减，然后把结果压回栈顶。

，这时求值栈上有两个int值了。

第七条指令imul从栈顶弹出两个int类型值，将值相乘，然后把结果压回栈顶。

第八条指令ireturn函数返回一个int值。

参考Java字节码指令列表：Java字节码指令

那如何查看生成的Dalvik字节码呢？

可以使用dexdump.exe(位于SDK下的platform-tools目录，新版本可能在build-tools下的版本目录下)，前提是得到了Hello.dex文件，执行如下命令：

dexdump -d Hello.dex ->Hello.txt

整理如下：


0000: add-int v0, v3, v4
0002: sub-int v1, v3, v4
0004: mul-int/2addr v0, v1
0005: return v0

第一条指令将v3和v4寄存器的值相加，保存到v0寄存器，v3和v4分表表示foo()函数的第一个参数和第二个参数，它们是Dalvik字节码参数表示法之一v命名法，另一种是p命名法。

第二条指令sub-int将v3减去v4的值保存到v1寄存器。

第三条指令mul-int/a2ddr将v0乘以v1的值保存到v0寄存器。

第四条指令返回v0的值。

通过比较，Dalvik虚拟机比Java虚拟机执行速度快。

如果想了解Dalvik虚拟机是如何执行程序的，可以参考：Dalvik虚拟机是如何执行程序的

V命名法和P命名法

对于foo()方法：

v 命名法：v命名法用到v0,v1,v2,v3,v4五个寄存器。v0和v1用来表示函数的局部变量寄存器，v2表示被传入的Hello对象的引用，v3和v4分别表示两个传入的整形参数。

p命名法：p命名法对函数的局部变量寄存器命名没有影响，对于函数中引入的参数命名从p0开始，依次递增。对于foo()函数，p命名法用到了v0，v1，p0，p1，p2五个寄存器，v0和v1用来表示函数的局部变量寄存器，p0表示被传入的Hello对象的引用，p1和p2分别表示两个传入的整形参数。

使用p命名法表示的Dalvik汇编代码，通过寄存器的前缀更容易判断寄存器到底是局部变量寄存器还是参数寄存器，在Dalvik汇编代码较长，使用寄存器较多的情况下，这种优势更加明显。

Dalvik字节码的类型，方法和字段表示方法

1）类型

Dalvik字节码只有两种：基本类型和引用类型。Dalvik使用这两种来表示Java语言的全部类型，除了对象和数组属于引用类型外，其他的Java类型都是基本类型。

语法	含义
V	void，只用于返回值类型
Z	boolean
B	byte
S	short
C	char
I	int
J	long
F	float
D	double
L	Java类型
[	数组

每个Dalvik寄存器都是32位，对于小鱼或等于32位长度的类型来说，一个寄存器就可以存放该类型的值；像J，D等64位类型的值，它们的值使用相邻两个寄存器来存储，如v0和v1。

L可以表示Java类型中的任何类，在Java中以package.name.ObjectName表示。在Dalvik汇编代码中，以Lpackage/name/ObjectName;形式来表示，最后有个分号，如Ljava/lang/String;相当于java.lang.String。

[表示所有基本类型的数组。如 [I 表示一个整型数组，相当于Java中的int[]。[[I表示int[][]，多维数组最大为255个。

[与L可以同时表示对象数组，如[Ljava/lang/String表示Java中的字符串数组。

2）方法

方法格式：Lpackage/name/ObjectName;->MethodName(III)Z

Lpackage/name/ObjectName;是一个类型，MethodName为具体方法的方法名，括号内的三个III为方法的参数（3个int类型），Z表示方法的返回类型（boolean）。

BakSmali生成的方法以 .method 指令开始，以 .end method 指令结束。使用#来注释。

3）字段

格式： Lpackage/name/ObjectName;->FieldName:Ljava/lang/String；

类型：Lpackage/name/ObjectName;

字段名：ObjectName

字段类型：FieldName:Ljava/lang/String；

Dalvik中的代码：

Lcom/Test;->name:Ljava/lang/String;

在Java中就是个String类型的字符串，name是名字。

对象的表示也是一样的。

Dalvik指令集

Dalvik 指令集中大多数指令用到了寄存器作为目的操作数或源操作数，其中 A/B/C/D/E/F/G/H 代表一个4位的数值，可用来表示v0~v15的寄存器。 AA/BB/.../HH代表一个8位的数值。 AAAA/BBBB/.../HHHH 代表一个16位的数值

空操作指令
空操作指令的助记符为nop。它的值为00，通知被用来作对齐代码之用，无实际操作。

数据操作指令
数据操作指令为move。move指令的原型为 move 目标，源。 move 指令根据字节码大小与类型不同，后面会跟上不同的后缀。
move-object/from16 vAA, vBBBB 为对象赋值。源寄存器为8位，目的寄存器为16位。
move-object/16 vAAAA,vBBBB 为对象复制。源寄存器与目的寄存器都为16位
move-result-wide vAA 将上一个invoke类型指令操作的双（没有-wide则是单）字非对象结果赋给vAA寄存器
move-result-object vAA 将上一个invoke类型指令操作的非对象结果赋给vAA寄存器
move-exception vAA 保存一个运行时发生的异常到vAA寄存器。这条指令必须是异常发生屎的异常处理器的一条指令。否则的话，指令无效。

返回指令
返回指令指的是函数结尾时运行的最后一条指令。共有以下四条返回指令：
return-void
return vAA
return-wide vAA
return-object vAA

数据定义指令
数据定义指令用来定义程序中用到的常量、字符串、类等数据。它的基础字节码为const。
const/4 vA,#+B 将数值符号扩展为32位后赋给寄存器 vA
const/16 vAA,#+BBBB 将数值符号扩展为32位后赋给寄存器 vAA
const vAA,#+BBBBBBBB 将数值付给寄存器vAA
const/high16 vAA,#+BBBB0000 将数值右边 0 扩展为32位后赋给寄存器vAA
const-wide/16 vAA,#+BBBB 将数值符号扩展64位后赋给寄存器对vAA
const-wide vAA,#+BBBBBBBBBBBBBBBB 将数值赋给寄存器对vAA
const-wide/high16 vAA,#+BBBB000000000000 将数值右边 0 扩展为64位后付给寄存器对 vAA
const-string vAA,string@BBBB 通过字符串索引构造一个字符串并赋给寄存器对 vAA
const-string/jumbo vAA,string@BBBBBBBB 通过字符串索引（较大）构造一个字符串并付给寄存器对vAA
const-class vAA,type@BBBB 通过类型索引获取一个类引用并付给寄存器 vAA
const-class/jumbo vAAAA,type@BBBBBBBB 通过给定的类型那个索引获取一个类索引并付给寄存器vAAAA（这条指令占用两个字节，值为0x00ff，是Android4.0中新增的指令）

锁指令
锁指令多用在多线程程序中对同一对象的操作。Dalvik指令集中有两条锁指令。
monitor-enter vAA 为指定的对象获取锁
monitor-exit vAA 释放指定的对象的锁

实例操作指令
与实例相关的操作包括实例的类型转换、检查及新建等
check-cast vAA,type@BBBB 将vAA寄存器中的对象引用转换成指定的类型，如果失败会抛出ClassCastException 异常。如果类型B 指定的是基本类型，对于非基本类型的A来说，运行时始终会失败。
instance-of vA,vB,type@CCCC 判断vB寄存器中的对象引用是否可以转换成指定的类型，如果可以vA寄存赋值为1，否则vA寄存器为0
new-instance vAA,type@BBBB 构造一个指定类型对象的新实例,并将对象引用赋值给vAA寄存器,类型符号type指定的类型不能是数组类。
check-cast/jumbo vAAAA,type@BBBBBBBB instance-of vAAAA, vBBBB, type@CCCCCCCC new-instance/jumbo vAAAA, type@BBBBBBBB这三个指令功能分别与上面三个指令分对应相同，只是寄存器值与指令的索引取值范围坑大（Android4.0中新增的命令）

数组操作指令
数组操作包括读取数组长度、新建数组、数组赋值、数组元素取值与赋值等操作。
array-length vA,vB 获取给定vB寄存器中数组的长度并将值赋给vA寄存器，数组长度指的是数组的条目个数。
new-array vA,vB,type@CCCC 构造指定类型（type@CCCC）与大小（vB）的数组，并将值赋给vA寄存器。
new-array/jumbo vAAAA,vBBBB,type@CCCCCCCC 指令功能与上一条指令相同，只是寄存器与指令的索引取值范围更大（Android4.0中新增的指令）
filled-new-array {vC,vD,vE,vF,vG},type@BBBB 构造指定类型（type@BBBB）与大小（vA）的数组并填充数组内容。vA寄存器是隐含使用的，除了指定数组的大小外还制订了参数的个数，vC~vG是使用到的参数寄存器序列
filled-new-array/range {vCCCC, ... ,vNNNN},type@BBBB 指定功能与上一条指令相同，只是参数寄存器使用range字节码后缀指定了取值范围，vC是第一个参数寄存器， N=A+C-1。
filled-new-array/jumbo {vCCCC, ... ,vNNNN},type@BBBBBBBB 指令功能与上一条指令相同，只是寄存器与指令的索引取值范围更大（Android4.0中新增的指令）
fill-array-data vAA, +BBBBBBBB 用指定的数据来填充数组，vAA寄存器为数组引用，引用必须为基础类型的数组，在指令后面会紧跟一个数据表
arrayop vAA,vBB,vCC 对vBB寄存器指定的数组元素进入取值与赋值。vCC寄存器指定数组元素索引，vAA寄存器用来寄放读取的或需要设置的数组元素的值。读取元素使用aget类指令，元素赋值使用aput指令，元素赋值使用aput类指令，根据数组中存储的类型指令后面会紧跟不同的指令后缀，指令列表有aget、aget-wide、aget-object、aget-boolean、aget-byte、aget-char、aget-short、aput、aput-wide、aput-boolean、aput-byte、aput-char、aput-short。

异常指令
Dalvik指令集有一条指令用来抛出异常
throw vAA 抛出vAA寄存器中指定类型的异常。

跳转指令
跳转指令用于从当前地址跳转到孩子定的偏移处。Dalvik指令集中有三种跳转指令：无条件跳转（goto）、分支跳转（switch）与条件跳转（if）。
goto +AA 无条件跳转到指定偏移处，偏移量AA不能为0
goto/16 +AAAA 无条件跳转到指定偏移处，偏移量AAAA不能为0。
goto/32 +AAAAAAAA 无条件跳转到指定偏移处。
packed-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值，BBBBBBBB指向一个packed-switch-payload格式的偏移表，表中的值是有规律递增的。
sparse-switch vAA,+BBBBBBBB 分支跳转指令。vAA寄存器为switch分支中需要判断的值，BBBBBBBB指向一个sparse-switch-payload格式的偏移表，表中的值是无规律的偏移表，表中的值是无规律的偏移量。
if-test vA,vB,+CCCC 条件跳转指令。比较vA寄存器与vB寄存器的值，如果比较结果满足就跳转到CCCC指定的偏移处。偏移量CCCC不能为0。if-test类型的指令有以下几条：
     ● if-eq 如果vA不等于vB则跳转。Java语法表示为 if(vA == vB)
     ● if-ne 如果vA不等于vB则跳转。Java语法表示为 if(vA != vB)
     ● if-lt 如果vA小于vB则跳转。Java语法表示为 if(vA < vB)
     ● if-le 如果vA小于等于vB则跳转。Java语法表示为 if(vA <= vB)
     ● if-gt 如果vA大于vB则跳转。Java语法表示为 if(vA > vB)
     ● if-ge 如果vA大于等于vB则跳转。Java语法表示为 if(vA >= vB)

if-testz vAA,+BBBB 条件跳转指令。拿vAA寄存器与 0 比较，如果比较结果满足或值为0时就跳转到BBBB指定的偏移处。偏移量BBBB不能为0。 if-testz类型的指令有一下几条：
     ● if-nez 如果vAA为 0 则跳转。Java语法表示为 if(vAA == 0)
     ● if-eqz 如果vAA不为 0 则跳转。Java语法表示为 if(vAA != 0)
     ● if-ltz 如果vAA小于 0 则跳转。Java语法表示为 if(vAA < 0)
     ● if-lez 如果vAA小于等于 0 则跳转。Java语法表示为 if(vAA <= 0)
     ● if-gtz 如果vAA大于 0 则跳转。Java语法表示为 if(vAA > 0)
     ● if-gez 如果vAA大于等于 0 则跳转。Java语法表示为 if(vAA >= 0)

比较指令
比较指令用于两个寄存器的值（浮点型或长整型）进行比较。它的格式为 cmpkind vAA,vBB,vCC，其中vBB寄存器与vCC寄存器是需要比较的两个寄存器或者两个寄存器对，比较的结果放到vAA寄存器。Dalvik指令集中共有 5 条比较指令。
cmpl-float 比较两个单精度浮点数。如果vBB寄存器小于vCC寄存器，则结果为1，相等则结果为0，大于的话结果为-1。
cmpg-float 比较两个单精度浮点数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。
cmpl-double 比较两个双精度浮点数。如果vBB寄存器小于vCC寄存器，则结果为1，相等则结果为0，大于的话结果为-1。
cmpg-double 比较两个双精度浮点数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。
cmp-long 比较两个长整型数。如果vBB寄存器大于vCC寄存器，则结果为1，相等则结果为0，小于的话结果为-1。

字段操作指令
字段操作指令用来对对象实例的字段进入读写操作。字段的类型那个可以是Java中有效的数据类型，对普通字段与静态字段操作有两中指令集，分别是iinstanceop vA,vB,field@CCCC 与 sstaticop vAA,field@BBBB
普通字段指令的指令前缀为i，如对普通字段读操作使用iget指令，写操作使用iput指令；静态字段的指令前缀为s，如对静态字段读操作使用sget指令，写操作使用sput指令。
根据访问的字段类型不同，字段操作指令后面会紧跟字段类型的后缀，如iget-byte指令表示读写实例字段的值类型为字节类型，iput-short指令表示设置实例字段的值类型为短整型。两类指令操作结果都是一样的，只是指令前缀与操作的字段类型不同。
普通字段操作指令有：iget、iget-wide、iget-object、iget-boolean、iget-byte、iget-char、iget-short、iput、iput-wide、iput-object、iput-boolean、iput-byte、iput-char、iput-short。
静态字段操作指令有：sget、sget-wide、sget-object、sget-boolean、sget-byte、sget-char、sget-short、sput、sput-wide、sput-object、sput-boolean、sput-byte、sput-char、sput-short。
在Android4.0系统中，Dalvik指令集中增加了 instanceop/jumbo vAAAA,vBBBB,field@CCCCCCCC 与sstaticop/jumbo vAAAA,field@BBBBBBBB 两类指令，它们与上面介绍的两类指令作用相同，只是在指令中增加了jumbo字节码后缀，且寄存器值与指令的索引取值范围更大。

方法调用指令
方法调用指令负责调用类实例的方法。它的基础指令为invoke，方法嗲用指令有 invoke-kind {vC,vD,vE,vF,vG},meth@BBBB 与 invoke-kind/range {vCCCC, ... ,vNNNN},meth@BBBB 两类，两类指令在作用上并无不同，只是后则在设置参数寄存器时使用了range来指定寄存器的范围。根据方法类型的不同，共有如下 5 条方法调用指令：
invoke-virtual 或 invoke-virtual/range 调用实例的虚方法
invoke-super 或 invoke-super/range 调用实例的父类方法
invoke-direct 或 invoke-direct/range 调用实例的直接方法
invoke-static 或 invoke-static/range 调用实例的静态方法
invoke-interface 或 invoke-interface/range 调用实例的接口方法

在Android4.0系统中，Dalvik指令集中增加了 invoke-kind/jumbo {vCCCC, ... ,vNNNN},meth@BBBBBBBB 这类指令，它与上面介绍的两类指令作用相同，只是在指令中增加了jumbo字节码后缀，且寄存器值与指令的索引取值范围更大。
方法调用的指令的返回值必须使用move-result-* 指令来获取。如下两条指令：
invoke-static {},Landroid/os/Parcel;->obtain()Landroid/osParcel;
move-result-object v0

数据转换指令
数据转换指令用于将一种类型的数值转换成另一种类型，它的格式为 unop vA,vB 。 vB寄存器或vB寄存器对存放需要转换的数据，转换后的结果保存在vA寄存器或vA寄存器对中。
neg-int 对整型数求补
not-int 对整型数求反
neg-long 对长整型求补
not-long 对长整型求反
neg-float 对单精度浮点型数求补
neg-double 对双精度浮点型数求补
int-to-long 将整型数转换为长整型
int-to-float 将整型数转换为单精度浮点型
int-to-double 将整型数转换为双精度浮点型
long-to-int 将长整型数转换为整型
long-to-float 将长整型数转换为单精度浮点型
long-to-double 将长整型数转换为双精度浮点型
float-to-int 将单精度浮点型数转换为整型
float-to-long 将单精度浮点型数转换为长整型
float-to-double 将单精度浮点型数转换为双精度浮点型
double-to-int 将双精度浮点型数转换为整型
double-to-long 将双精度浮点型数转换为长整型
double-to-float 将双精度浮点型数转换为单精度浮点型
int-to-byte 将整型转换为字节型
int-to-char 将整型转换为字符串
int-to-short 将整型转换为短整型

数据运算指令
数据运算指令包括算术运算指令与逻辑运算指令。算术运算指令主要进行数值间如加、减、乘、除、模、移位等运算，逻辑运算主要进行数值间与、或、非、异或等运算。数据运算指令有如下四类（数据运算时可能在寄存器或寄存器对间进行，下面的指令作用讲解时使用寄存器来描述）：
binop vAA,vBB,vCC 将vBB寄存器与vCC寄存器进行运算，结果保存到vAA寄存器
binop/2addr vA,vB 将vA寄存器与vB寄存器进行运算，结果保存到vA寄存器
binop/lit16 vA,vB,#+CCCC 将vB寄存器与常量CCCC进行运算，结果保存到vA寄存器
binop/lit8 vAA,vBB,#+CC 将vBB寄存器与常量CC进行运算，结果保存到vAA寄存器
后面3类指令比第1类指令分别多了addr、lit16、lit8等指令后缀。四类指令中基础字节码后面加上数据类型后缀，如-int或-long分别表示操作的数据类型那个为整型与长整型。第1类指令可归类如下：
add-type     vBB寄存器与vCC寄存器值进行加法运算（vBB + vCC）
sub-type     vBB寄存器与vCC寄存器值进行减法运算（vBB - vCC）
mul-type     vBB寄存器与vCC寄存器值进行乘法运算（vBB * vCC）
div-type     vBB寄存器与vCC寄存器值进除法运算（vBB / vCC）
rem-type     vBB寄存器与vCC寄存器值进行模运算（vBB % vCC）
and-type     vBB寄存器与vCC寄存器值进行与运算（vBB & vCC）
or-type     vBB寄存器与vCC寄存器值进行或运算（vBB | vCC）
xor-type     vBB寄存器与vCC寄存器值进行异或运算（vBB ^ vCC）
shl-type     vBB寄存器（有符号数）左移vCC位（vBB << vCC）
shr-type     vBB寄存器（有符号数）右移vCC位（vBB >> vCC）
ushr-type     vBB寄存器（无符号数）右移vCC位（vBB >> vCC）
其中基础字节码后面的-type可以是-int、-long、-float、-double。后面3类指令与之类似。

众生回避

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
超详细的Dalvik指令

Dalvik虚拟机比Java虚拟机执行速度快通过实例来对比Java字节码和Dalvik字节码的不同源码如下：public class Hello { public static void main(String[] args){ Hello hello = new Hello(); System.out.println(hello.foo(5,...
复制链接

扫一扫