【问题标题】:What is daemon process? Why is it created?什么是守护进程?为什么创建它?
【发布时间】:2018-09-12 07:03:48
【问题描述】:

我正在尝试将字符串转换为日期时间对象。这些字符串存储在 csv 列中。文件很大,我想多处理它。

我的代码如下所示:

def conv_datetime(file):
   return ([pd.to_datetime(j[3]) for j in file])

if __name__ == "__main__":
   n = 0
   file = pd.read_csv("csv_file",header=None,chunksize=200,skiprows=n)
   n += 200
   pro = mp.Process(target=conv_datetime,args=(file,))
   pro.deamon = False
   pro.start()
   pro.join()

我得到了:

AttributeError     
Traceback (most recent call last)
<ipython-input-1-5d16d82af0d2> in <module>()
     15     pro = mp.Process(target=conv_datetime,args=(file,))
     16     pro.deamon = False
---> 17     pro.start()
     18     pro.join()
     19 

C:\ProgramData\Anaconda33\lib\multiprocessing\process.py in start(self)
    103                'daemonic processes are not allowed to have children'
    104         _cleanup()
--> 105         self._popen = self._Popen(self)
    106         self._sentinel = self._popen.sentinel
    107         # Avoid a refcycle if the target function holds an indirect

C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _    Popen(process_obj)
    221     @staticmethod
    222     def _Popen(process_obj):
--> 223         return  _default_context.get_context().Process._Popen(process_obj)
    224 
    225 class DefaultContext(BaseContext):

C:\ProgramData\Anaconda33\lib\multiprocessing\context.py in _Popen(process_obj)
    320         def _Popen(process_obj):
    321             from .popen_spawn_win32 import Popen
--> 322             return Popen(process_obj)
    323 
    324     class SpawnContext(BaseContext):

C:\ProgramData\Anaconda33\lib\multiprocessing\popen_spawn_win32.py in __init__(self, process_obj)
     63             try:
     64                 reduction.dump(prep_data, to_child)
---> 65                 reduction.dump(process_obj, to_child)
     66             finally:
     67                 set_spawning_popen(None)

C:\ProgramData\Anaconda33\lib\multiprocessing\reduction.py in dump(obj, file, protocol)
     58 def dump(obj, file, protocol=None):
     59     '''Replacement for pickle.dump() using ForkingPickler.'''
---> 60     ForkingPickler(file, protocol).dump(obj)
     61 
     62 #

AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'

在有人为我提供代码解决方案之前,如果能够深入了解守护进程的工作原理,那将非常有帮助。

【问题讨论】:

  • 对不起。我已经添加了整个错误语句。
  • 没问题;既然您已经对其进行了编辑,这是一个很好的问题。
  • 你能给我一些参考迷你项目/github 链接,这些链接在我正在尝试做的类似丁字裤上工作吗?
  • 对不起,我不知道任何副手。我认为dill 的一些示例与您正在做的非常接近,如果您想使用它来代替标准的pickle
  • 顺便说一句,您似乎使用的是相当旧的 Anaconda 版本。如果是,可以升级吗?在过去的几年里,Python 3 中的multiprocessing 有了一些改进,Anaconda 还添加了新的预安装包(包括dillcloudpickle)。

标签: python csv datetime multiprocessing daemon


【解决方案1】:

如果您查看multiprocessing/process.py 代码(您似乎没有使用 Python 3.6,因此行号有点不同,但这部分代码没有变化),您可以很清楚地看到关于守护进程的字符串不相关;它只是 assert 的一部分,您的代码在几行之后由于完全不相关的原因而失败之前成功通过,没有任何问题。


实际问题出在第 105 行,错误信息中对此进行了解释:

AttributeError: Can't pickle local object '_make_date_converter.<locals>.converter'

您正在尝试将对象传递给无法腌制的子进程。这在multiprocessing 文档中进行了一些解释,例如,在Programming Guidelines 下,尽管这些文档假设您了解“泡菜”的含义,并且您已经阅读了文档的前面部分。您确实应该阅读前面的部分,并在文档中查找pickle,但基本思想是这样的:

multiprocessing 模块使用pickle 模块将参数传递给函数、从函数返回值、将值放入队列等。pickle 模块只能处理设计为腌制的数据类型。所以,有些类型不能用multiprocessing 传递。

在这种情况下,应该有一个非常简单的解决方法:只需传递文件名,然后让子进程读取它。当然,这不适用于更复杂的情况,但如果它适用于您的情况,请保持简单。

对于更复杂的情况,使用 Pandas 的通常解决方案是用第三方库(如 dillcloudpickle)替换标准pickler,这些库对 Pandas 有更多了解,并可以强制其成形以通过网络传递。 (或者,有时,将 multiprocess 本身替换为像 dask 这样的第三方库。)这并不难学习,但您确实需要查看选项,选择一个,并阅读有关如何挂上它,如果不需要,你可能不想这样做。


如果您仍然对什么是守护进程感兴趣,请参阅参考文档中的Processes。但简短的版本是,在这种情况下,守护进程是不会得到 joined 的进程——换句话说,当主进程完成时,您不必等待它完成,就像使用正常流程。

【讨论】:

    猜你喜欢
    • 2014-03-04
    • 2012-03-17
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2011-05-10
    • 1970-01-01
    相关资源
    最近更新 更多