【问题标题】:Can traing deep learning model using Intel Xeon CPU in tensorflow , solving short of gpu memory可以在tensorflow中使用Intel Xeon CPU训练深度学习模型,解决gpu内存不足的问题
【发布时间】:2019-04-28 21:33:30
【问题描述】:

NVidia GPU 最多有 16GB 内存,这限制了大型模型的训练。模型并行可能需要修改深度学习框架。使用 Intel 多核 CPU 训练 tensorflow 模型是否可行?能否给点硬件配置和性能方面的建议?

【问题讨论】:

  • 英特尔多核可能更适合这种情况。你不需要一个成熟的 CPU 来只做线性代数。最好有很多基本核心。

标签: tensorflow cpu


【解决方案1】:

您可以尝试使用英特尔 AI Devcloud,这是一种云托管的硬件和软件平台,可供开发人员、研究人员和初创公司学习并开始他们的人工智能项目。它具有英特尔® 至强® 可扩展处理器,每个处理器具有 24 个内核,具有 2 路超线程。每个处理器都可以访问 96 GB 的平台 RAM。

更多详情请参考以下链接。

https://ai.intel.com/devcloud/

您可以通过以下链接注册访问该平台30天。

https://software.intel.com/en-us/ai-academy/devcloud

您将收到一封欢迎邮件,其中包含用户名和密码。打开欢迎邮件中的超链接以获取有关如何连接和使用 Devcloud 的更多详细信息。 要在 Devcloud 上获得最佳性能,请更改并行线程和 OpenMP 设置(在代码内部或终端中),如下所示:

在终端中:

导出 OMP_NUM_THREADS="NUM_PARALLEL_EXEC_UNITS"

导出 KMP_BLOCKTIME="0"

导出 KMP_SETTINGS="1"

export KMP_AFFINITY="granularity=fine,verbose,compact,1,0"

内部代码:

导入操作系统

os.environ["OMP_NUM_THREADS"] = "NUM_PARALLEL_EXEC_UNITS"

os.environ["KMP_BLOCKTIME"] = "0"

os.environ["KMP_SETTINGS"] = "1"

os.environ["KMP_AFFINITY"]= "granularity=fine,verbose,compact,1,0"

更多优化细节请参考:

https://communities.intel.com/docs/DOC-112392

希望这会有所帮助。

【讨论】:

    猜你喜欢
    • 2020-06-08
    • 2021-10-01
    • 2021-05-05
    • 2021-06-03
    • 1970-01-01
    • 2020-11-10
    • 1970-01-01
    • 2016-08-23
    • 2017-03-30
    相关资源
    最近更新 更多