【问题标题】:How are names and function bodies stored in CPython Code Objects?名称和函数体如何存储在 CPython 代码对象中?
【发布时间】:2017-10-27 23:32:03
【问题描述】:

我有一个 python 脚本。

def hello(self):
    return 6
print hello()

我在 CPython 中编译后反汇编

>>> c = compile(open('hello.py').read(), 'hello.py', 'exec')
>>> import dis
>>> dis.dis(c)
  1           0 LOAD_CONST               0 (<code object hello at 0x1006c9230, file "hello.py", line 1>)
              3 MAKE_FUNCTION            0
              6 STORE_NAME               0 (hello)

  3           9 LOAD_NAME                0 (hello)
             12 CALL_FUNCTION            0
             15 PRINT_ITEM
             16 PRINT_NEWLINE
             17 LOAD_CONST               1 (None)
             20 RETURN_VALUE

我很好奇&lt;code object hello at 0x1006c9230 ...&gt; 是如何存储在 CPython 代码对象中的。有co_code 函数,但它只打印出字节码指令。如果我序列化我得到的 CPython 代码对象

>>> import marshal
>>> marshal.dumps(c)
'c\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00@\x00\x00\x00s\x15\x00\x00\x00d\x00\x00\x84\x00\x00Z\x00\x00e\x00\x00\x83\x00\x00GHd\x01\x00S(\x02\x00\x00\x00c\x01\x00\x00\x00\x02\x00\x00\x00\x01\x00\x00\x00C\x00\x00\x00s\n\x00\x00\x00d\x01\x00}\x01\x00|\x01\x00S(\x02\x00\x00\x00Ni\x06\x00\x00\x00(\x00\x00\x00\x00(\x02\x00\x00\x00t\x04\x00\x00\x00selft\x01\x00\x00\x00x(\x00\x00\x00\x00(\x00\x00\x00\x00s\x08\x00\x00\x00hello.pyt\x05\x00\x00\x00hello\x01\x00\x00\x00s\x04\x00\x00\x00\x00\x01\x06\x01N(\x01\x00\x00\x00R\x02\x00\x00\x00(\x00\x00\x00\x00(\x00\x00\x00\x00(\x00\x00\x00\x00s\x08\x00\x00\x00hello.pyt\x08\x00\x00\x00<module>\x01\x00\x00\x00s\x02\x00\x00\x00\t\x03'

我知道

def hello(self):
    return 6

存储在转储中的某个位置,因为如果我将其更改为return 5,转储中的一个字节会从 6 切换到 5。

1) 有没有办法可以从 CPython 代码对象访问函数体。最接近我能得到它c.names 但这只会打印出一个字符串。我假设在幕后它是一个被序列化为字符串的 PyObject。我还想确认函数体确实存储在c.names

2) marshal dump 将函数存储为字节码指令还是未编译的文字?当我搜索操作码 \x83 (RETURN_VALUE) 时,我倾向于未编译的文字,它只在转储中出现一次。我相信这意味着当应该有两个时只有一个 return 语句:一次退出函数 hello,一次返回 None 以退出脚本。

版本

Python 2.7.13+ (heads/2.7:96f5020597, May 26 2017, 15:26:13)
[GCC 4.2.1 Compatible Apple LLVM 7.3.0 (clang-703.0.31)] on darwin
Type "help", "copyright", "credits" or "license" for more information.

【问题讨论】:

  • 这是很多问题。
  • &lt;code object hello at 0x1006c9230 ...&gt;”是什么意思?您的意思似乎与代码对象不同,除非您问的是代码对象如何存储代码对象的相当愚蠢的问题。
  • 是的,我确实在问代码对象如何存储代码对象。出于某种原因,我从未想过要调查co.co_consts

标签: python c compiler-construction bytecode cpython


【解决方案1】:

让我们分解一下。

首先,让我澄清一下 CPython 是如何存储函数的。解析函数时,CPython 将函数数据存储在 代码对象 中。 CPython 使用代码对象来存储函数、类和模块。然后将代表函数的代码对象序列化为特定的字节码格式。

函数的代码对象存放在它们的__code__属性中:

>>> def foo():
    pass

>>> 
>>> foo.__code__
<code object foo at 0x7f8bd86ce5d0, file "<pyshell#14>", line 1>
>>> 

这些代码对象包含与函数相关的各种数据,例如函数参数、引用的常量(例如1"Hello")和名称。函数的字节码存储在.co_code attrbiute 中。这是 CPython 运行您的函数时实际执行的内容:

>>> def foo():
    pass

>>> foo.__code__.co_code
b'd\x00\x00S' # bytecode for foo
>>> 

现在您已经了解了 CPython 的基本功能,我们可以解决您的具体问题。

有没有办法可以从 CPython 代码对象访问函数体。最接近我能得到它的 c.names 但这只会打印出一个字符串。我假设在幕后它是一个被序列化为字符串的 PyObject。我还想确认函数体确实存储在 c.names 中。

函数体没有存储在代码对象的co_name 属性中。如上所述,它存储在.co_code 属性中。你的另一个假设也有点偏离。从技术上讲,由于 Python 中的所有对象都“继承”PyObject,因此说函数体被序列化为 PyObject 序列化为字符串是正确的。但是,最好将其序列化为 PyStringObject,这是代表字符串的特定类型。

marshal dump 是将函数存储为字节码指令还是未编译的文字?当我搜索操作码 \x83 (RETURN_VALUE) 时,我倾向于未编译的文字,它只在转储中出现一次。我相信这意味着当应该有两个时只有一个 return 语句:一次退出函数 hello,一次返回 None 以退出脚本。

两者都没有。 marhsal.dumps() 接受一个代码对象,将整个代码对象序列化为 CPython 特定格式,并返回一个表示序列化代码对象的字节对象。但是,您的第二个陈述是正确的。在每个 Python 脚本结束时,都会返回隐式 None。这可以通过向dis.dis() 传递一个空参数来观察:

>>> import dis
>>> dis.dis("")
  1           0 LOAD_CONST               0 (None)
              3 RETURN_VALUE
>>> 

我知道&lt;code object hello at 0x1006c9230 ...&gt; 没有存储在原始c 的co_code 属性中。这是因为无论我如何更改 def hello() 的内部,都会给出相同的反汇编程序输出。需要明确的是,这是函数/脚本中的函数,而不仅仅是您在示例中给出的函数。

在您的具体示例中,变量c 是一个代码对象,它代表模块——而不是函数——“hello.py”。没错,函数 hello() 的代码对象不在co_code 中。它存储在模块的代码对象的co_consts 属性中:

>>> co = compile(open('hello.py').read(), 'hello.py', 'exec')
>>> co.co_consts
(<code object hello at 0x7fedcbd3dc00, file "hello.py", line 1>, 'hello', None)
>>> 

这是因为 Python 执行代码的方式。常量不直接存储在代码对象的字节码中。相反,它们存储在自己单独的元组中。每当在函数代码中引用一个常量时,实际常量存储在co_consts 中,并且对应于该常量在co_consts 中的位置的index 放入字节码中。 p>

hello() 的代码对象的反汇编程序输出永远不会改变的原因是,dis.dis() 所做的只是显示hello() 代码对象的字符串表示hello() 的代码对象确实在您更改代码时发生更改,但该更改由 dis 显示。它不显示hello()s 代码对象的实际更改 属性。

【讨论】:

  • 感谢您的回复,但我觉得我的问题没有得到解答。我知道&lt;code object hello at 0x1006c9230 ...&gt; 没有存储在原始cco_code 属性中。这是因为无论我如何更改 def hello() 的内部,都会给出相同的反汇编程序输出。需要明确的是,这是函数/脚本中的函数,而不仅仅是您在示例中给出的函数。
  • @kshikama 你的权利。我虽然你只想知道函数。我将添加到我的答案中,看看我是否可以进一步解释。
  • 很酷,将不胜感激!
  • co_consts!有趣的。这似乎暗示marshal.dump 将函数存储为字节码指令,因为 co.co_consts 的第一个索引是 CPython 代码对象这一事实意味着它实际上已被编译。你能确认一下吗?我的新假设是,我最初没有看到 2 \x83,因为除了使用特定的操作码之外,可能还有一种不同的方式来执行 return 5 的返回语句?
  • 其实nvm是我自己确认的。似乎我的错误是认为 \x83 与 83 相同,即 RETURN 操作码。事实上,83 是 'S' 而不是 \x83 (实际上是一个不同的十进制值)。元帅确实有两个“S”。这是确认代码:&gt;&gt;&gt; [ord(byte) for byte in co.co_consts[0].co_code] [100, 1, 0, 125, 1, 0, 124, 1, 0, 83]
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2021-12-25
  • 2010-10-01
  • 1970-01-01
  • 2012-05-09
  • 2011-08-10
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多