【发布时间】:2020-05-19 12:35:34
【问题描述】:
Python 虚拟机是否需要 CPU 来执行字节码?是字节码转换成机器码然后CPU参与处理吗?
【问题讨论】:
-
你能澄清一下“是否需要”的意思吗?在标准硬件上运行的每个程序都需要一个 CPU,因为 CPU 是执行操作系统及其上的任何软件的东西。
标签: python virtual-machine cpu bytecode
Python 虚拟机是否需要 CPU 来执行字节码?是字节码转换成机器码然后CPU参与处理吗?
【问题讨论】:
标签: python virtual-machine cpu bytecode
为了在任何计算机上运行应用程序,其代码必须始终以某种方式转换为机器代码,然后由 CPU 执行。问题在于何时以及如何发生。
让我尝试向您展示 Python 如何有效地执行字节码。
想象一下,您计算机中的 CPU 只懂拉丁语。您想向它发送一封包含详细说明或请求的信,但您不会说拉丁语。因此,您将聘请翻译人员:为您将“英语”字母(或您使用的任何语言)翻译成拉丁语的人。
编译语言(如 C 或 Rust)会提取你的整个字母,将其全部翻译成拉丁文并真正完善它。结果是一封翻译后的信件,极具诗意并使用复杂的语言。另一方面,像 Python 这样的 解释器 一次翻译一个单词或一个句子。它更像是您在新闻中遇到的口译员,可以翻译外语人士所说的话。
从 C、Rust 或 Python 等语言到机器代码的完整翻译过程非常复杂,需要仔细分析原始程序代码。为了避免一遍又一遍地分析您的程序代码,Python 解释器将只执行一次,然后生成非常接近您的 Python 代码表示的 bytecode,但拆分为基本要素。
我们来看一个很简单的Python函数:
def f(x):
y = (x + 1)*(x - 1)
return y
此函数中的计算包括几个计算,所有这些都必须以正确的顺序执行。字节码反映了这一点:
LOAD_VAR x # x+1
LOAD_CONST 1
ADD
LOAD_VAR x # x-1
LOAD_CONST 1
SUBTRACT
MULTIPLY # ()*()
STORE_VAR y # y = ...
LOAD_VAR y
RETURN
确实,Python 中的字节码通常是 Python 代码本身的一种非常接近的表示,只是分解为“原子”简单操作的片段。
在内部,每个字节码指令都有一个数值(实际上适合一个字节,因此得名)。比如LOAD_VAR = 124、LOAD_CONST = 100、ADD = 23等。而局部变量和常量值也是用数字来表示的。因此,如果我们分配x = 01和y = 02,上面的代码就变成了:
124, 01, 100, 01, 23, 124, 01, 100, 01,
24, 20, 125, 02, 124, 02, 83
您将在下面找到一个简单而简约的“Python 字节码”解释器,它能够执行我们在开始时定义的函数。 actual bytecode interpreter of Python 是用 C 语言编写的,因此可以编译为高效的机器代码。但原理完全一样。
它使用 堆栈 来保存中间值。也就是说,每个操作的结果都附加到一个列表中。进一步处理这些结果的操作将它们从列表的末尾取出,做一些事情(比如将它们加在一起),然后将结果附加到列表中(但是在做减法或除法之类的事情时必须小心以保持正确的顺序)。
将字节码排列成指令和参数对很方便。一些指令(如 ADD)没有参数,所以在这种情况下我们只使用0。但是这里使用的代码仍然是上面介绍的字节码。
def execute(bytecode, consts, vars):
stack = []
for (instr, arg) in bytecode:
if instr == 20:
stack.append(stack.pop() * stack.pop())
elif instr == 23:
stack.append(stack.pop() + stack.pop())
elif instr == 24:
second = stack.pop()
first = stack.pop()
stack.append(first - second)
elif instr == 83:
return stack.pop()
elif instr == 100:
stack.append( consts[arg] )
elif instr == 124:
stack.append( vars[arg] )
elif instr == 125:
vars[arg] = stack.pop()
my_bytecode = [
(124, 1), (100, 1), (23, 0), (124, 1), (100, 1),
(24, 0), (20, 0), (125, 2), (124, 2), (83, 0)
]
my_consts = [ None, 1 ]
my_vars = [ x, 0 ]
execute(my_bytecode, my_consts, my_vars)
您实际上可以查看常量值列表(尽管它们实际上是元组,而不是列表),或者使用以下方法定义局部变量的顺序:
print(f.__code__.co_code) # prints the bytecode
print(f.__code__.co_consts) # prints (None, 1)
print(f.__code__.co_varnames) # prints ('x', 'y')
【讨论】:
OR 字节码在 PVM 上执行 - 哪个是正确的?请回答。
x+1 中,x 和1 都被压入堆栈,但只是执行了 ADD 指令。话虽如此,CPython 实际上在内部使用了许多巧妙的技巧来确保它在所有架构上运行相同。
PVM 只不过是一种将字节码转换为给定操作系统的机器码的软件。因此,Python 被称为解释语言,PVM 是解释器。回答您的问题:是的,代码最终由 PVM 转换为机器代码。 阅读更多here。
【讨论】:
eventually converted into python code 您可能希望更正此问题