【发布时间】:2013-06-06 14:28:43
【问题描述】:
我目前使用的是没有硬件 FPU 的 OMAP L138 处理器。我们将使用 FP 密集型算法处理光谱数据,因此 ARM 方面将不够用。我不是算法人,但一个是“动态时间扭曲”(我不知道这是什么意思,不)。初始性能数字是:
Core i7 笔记本电脑@ 2.9GHz:1 秒
树莓派 ARM1176 @ 700MHz:12 秒
OMAP L138 ARM926 @ 300MHz:193 秒
更糟糕的是,树莓派的价格大约是我正在使用的主板价格的 30%!
我确实有一个 TI C674x,它是 OMAP L138 中的另一个处理器。问题是我最好花几周时间尝试:
- 学习 DSPLINK、互操作库和工具链,更不用说为 Code Composer 付出高昂的代价或
- 扔掉 L138 并转移到像 Pandaboard 这样的 Dual Cortex A9,在此过程中可能会受到功率损失。
(当我查看 A8 上的 FPU 性能时,它并没有比 Rasp Pi 有所改进,但 Cortex A9 似乎是)。
我知道答案是“视情况而定”。这里的其他人have said 说“你解锁了一个令人难以置信的快速 DSP,如果分配正确的工作,它可以轻松胜过 Cortex-A8”但是对于定义的工作集,我最好还是跳到 A9,即使我不得不买一个以后外接DSP?
【问题讨论】:
-
如果不了解应用程序的更多信息,这是一个很难回答的问题:它是否商业化? (如果是这样,您不能为此使用 Pandaboard),您对算法的 IO 要求是什么(同样,评估板通常没有快速 IO,依此类推。
-
它是商业的,IO 似乎不是问题。从本质上讲,它归结为原始 FP 性能。在 FP DSP 上执行单精度或双精度加/减运算的速度与在 ARM Cortex A9 上的速度一样快。从另一篇文章中,答案似乎是“是的,如果优化正确”。那么问题就变成了:“即使节省电力,使用 DSP 是否值得花费成本/学习曲线/时间”?我倾向于说“不”。 (但后来我必须改变我目前的开发平台。)
-
我对商业用途的评论是因为 Pandaboard 没有量产,也不够强大(我怀疑 Raspberry Pi 也不是)。就原始性能而言,NEON 理论上每个内核一个周期可以执行两个单精度 FP MAC(但是有一个巨大的管道,这使得分支非常低效)。很难相信 DSP 会做的远不止这些。
-
有效点,非常值得注意。我目前正在使用 MityDSP SoM,它是商业的,但会在投入平台之前在 Pandaboard 或 Wandboard 上测试性能。我只需要对所有内容进行基准测试!谢谢。
标签: arm signal-processing ti-dsp