序列化具有依赖关系的python函数答案

【问题标题】：Serialize a python function with dependencies序列化具有依赖关系的python函数
【发布时间】：2014-10-15 18:53:26
【问题描述】：

按照 StackOverflow 上的许多建议（例如 dill、cloudpickle 等），我尝试了多种方法来腌制具有依赖关系的 python 函数，但似乎都遇到了一个我无法弄清楚的基本问题。

我有一个主模块，它试图从导入的模块中提取一个函数，通过 ssh 将其发送以在远程机器上解压并执行。

所以主要有：

    import dill (for example)
    import modulea

    serial=dill.dumps( modulea.func )
    send (serial)

在远程机器上：

        import dill
        receive serial
        funcremote = dill.loads( serial )
        funcremote()

如果被腌制和发送的函数是 main 本身定义的顶级函数，那么一切正常。当它们在导入的模块中时，加载函数会失败，并显示“未找到模块模块”类型的消息。

似乎模块名称与函数名称一起被腌制。我看不到任何方法可以“修复”pickle 以消除依赖关系，或者在接收器中创建一个虚拟模块以成为 unpickling 的接收器。

任何指针将不胜感激。

--prasanna

【问题讨论】：

在取消选择时替换函数的模块名称是一件很容易的事情。在序列化过程中，您可以用__main__ 替换任何__name__，瞧……它应该可以工作……也就是说，除非该函数在封闭模块中具有任何依赖项。那么它就会失败。
问题是 dill.loads 失败——它永远不会解开。正如您在下面的帖子中正确指出的那样，由于上述示例中的不可用，因此负载会消失。因此，事后重命名它并没有帮助。
我说的不是在事后重命名它，我说的是在加载时用自定义pickler替换属性。就像上面详述的那样。

标签： python pickle dill

【解决方案1】：

我是dill 作者。我在ssh 上做了这件事，但成功了。目前，dill 和任何其他序列化程序都通过引用来腌制模块……所以要成功传递文件中定义的函数，您必须确保相关模块也安装在另一台机器上。我不相信有任何对象序列化器可以直接序列化模块（即不是通过引用）。

话虽如此，dill 确实有一些选项可以序列化对象依赖项。例如，对于类实例，dill 中的默认设置是不通过引用序列化类实例……所以类定义也可以序列化并与实例一起发送。在dill 中，您还可以（使用一个非常新的功能）通过序列化文件来序列化文件句柄，而不是通过引用来进行。但是同样，如果您在模块中定义了一个函数，那么您就不走运了，因为模块是通过引用序列化的，非常普遍。

您也许可以使用dill 来执行此操作，但是，不是对对象进行酸洗，而是提取源代码并发送源代码。在pathos.pp和pyina、dill中，我们曾经提取过任何对象（包括函数）的源代码和依赖关系，并将它们传递给另一台计算机/过程/等但是，由于这不是一件容易的事，dill 也可以使用故障转移来尝试提取相关导入并将其发送而不是源代码。

您可以理解，希望这是一件很麻烦的事情（正如我在下面提取的函数的一个依赖项中所指出的那样）。但是，您的要求已在 pathos 包中成功完成，以通过 ssh 隧道端口将代码和依赖项传递到不同的机器。

>>> import dill
>>> 
>>> print dill.source.importable(dill.source.importable)
from dill.source import importable
>>> print dill.source.importable(dill.source.importable, source=True)
def _closuredsource(func, alias=''):
    """get source code for closured objects; return a dict of 'name'
    and 'code blocks'"""
    #FIXME: this entire function is a messy messy HACK
    #      - pollutes global namespace
    #      - fails if name of freevars are reused
    #      - can unnecessarily duplicate function code
    from dill.detect import freevars
    free_vars = freevars(func)
    func_vars = {}
    # split into 'funcs' and 'non-funcs'
    for name,obj in list(free_vars.items()):
        if not isfunction(obj):
            # get source for 'non-funcs'
            free_vars[name] = getsource(obj, force=True, alias=name)
            continue
        # get source for 'funcs'

#…snip… …snip… …snip… …snip… …snip… 

            # get source code of objects referred to by obj in global scope
            from dill.detect import globalvars
            obj = globalvars(obj) #XXX: don't worry about alias?
            obj = list(getsource(_obj,name,force=True) for (name,_obj) in obj.items())
            obj = '\n'.join(obj) if obj else ''
            # combine all referred-to source (global then enclosing)
            if not obj: return src
            if not src: return obj
            return obj + src
        except:
            if tried_import: raise
            tried_source = True
            source = not source
    # should never get here
    return

我想也可以围绕dill.detect.parents 方法构建一些东西，它提供了一个指向任何给定对象的所有父对象的指针列表......并且可以将任何函数的所有依赖项重建为对象......但这没有实现。

顺便说一句：要建立 ssh 隧道，只需这样做：

>>> t = pathos.Tunnel.Tunnel()
>>> t.connect('login.university.edu')
39322
>>> t  
Tunnel('-q -N -L39322:login.university.edu:45075 login.university.edu')

然后您可以使用ZMQ 或ssh 或其他任何方式在本地端口上工作。如果你想用ssh 这样做，pathos 也有内置的。

【讨论】：

是的，从昨天开始我就一直在玩这个。尝试一些更简单的东西——我的模块相当干净，因为我感兴趣的每个函数只使用模块中一小部分实用程序函数中的一个或两个。因此，我可以先对每个实用程序函数进行 dill/pickle 和发送，然后再发送我想要在该上下文中执行的函数。
顺便说一句，我会调查那些悲惨的隧道。我此时正在使用 execnet (codespeak.net/execnet/#)
如果你的模块只包含一个文件，你可以用dill.source.getsourcepickle模块，然后把函数作为一个对象pickle然后发送。或者，正如我在上面对您的问题的评论中提到的那样，您可以扩展 dill.Pickler 和 dill.Unpickler 检查任何功能的 __module__ 属性，如果给定模块不可用，则设置 __module__ = '__main__' 并且是只要没有缺少依赖项就应该可以工作。