【发布时间】:2019-04-28 21:33:30
【问题描述】:
NVidia GPU 最多有 16GB 内存,这限制了大型模型的训练。模型并行可能需要修改深度学习框架。使用 Intel 多核 CPU 训练 tensorflow 模型是否可行?能否给点硬件配置和性能方面的建议?
【问题讨论】:
-
英特尔多核可能更适合这种情况。你不需要一个成熟的 CPU 来只做线性代数。最好有很多基本核心。
标签: tensorflow cpu
NVidia GPU 最多有 16GB 内存,这限制了大型模型的训练。模型并行可能需要修改深度学习框架。使用 Intel 多核 CPU 训练 tensorflow 模型是否可行?能否给点硬件配置和性能方面的建议?
【问题讨论】:
标签: tensorflow cpu
您可以尝试使用英特尔 AI Devcloud,这是一种云托管的硬件和软件平台,可供开发人员、研究人员和初创公司学习并开始他们的人工智能项目。它具有英特尔® 至强® 可扩展处理器,每个处理器具有 24 个内核,具有 2 路超线程。每个处理器都可以访问 96 GB 的平台 RAM。
更多详情请参考以下链接。
https://ai.intel.com/devcloud/
您可以通过以下链接注册访问该平台30天。
https://software.intel.com/en-us/ai-academy/devcloud
您将收到一封欢迎邮件,其中包含用户名和密码。打开欢迎邮件中的超链接以获取有关如何连接和使用 Devcloud 的更多详细信息。 要在 Devcloud 上获得最佳性能,请更改并行线程和 OpenMP 设置(在代码内部或终端中),如下所示:
在终端中:
导出 OMP_NUM_THREADS="NUM_PARALLEL_EXEC_UNITS"
导出 KMP_BLOCKTIME="0"
导出 KMP_SETTINGS="1"
export KMP_AFFINITY="granularity=fine,verbose,compact,1,0"
内部代码:
导入操作系统
os.environ["OMP_NUM_THREADS"] = "NUM_PARALLEL_EXEC_UNITS"
os.environ["KMP_BLOCKTIME"] = "0"
os.environ["KMP_SETTINGS"] = "1"
os.environ["KMP_AFFINITY"]= "granularity=fine,verbose,compact,1,0"
更多优化细节请参考:
https://communities.intel.com/docs/DOC-112392
希望这会有所帮助。
【讨论】: