NumPy 直方图 - ValueError 范围参数必须是有限的 - 输入数组是可以的答案

【问题标题】：NumPy Histogram - ValueError range parameter must be finite - input array is okayNumPy 直方图 - ValueError 范围参数必须是有限的 - 输入数组是可以的
【发布时间】：2017-08-31 11:40:31
【问题描述】：

我很难理解这个错误，因为我会给你一个有效的例子，而我感兴趣的例子是不是。

我必须分析一组包含全年每小时价格的数据，称为sys_prices，经过各种转换后，它是一个有 8785 行（1 列）的numpy.ndarray 对象，每一行都是一个只有一个元素的 numpy.ndarray 项目，一个 numpy.float64 数字。

不工作的代码如下：

stop_day = 95
start_day = stop_day - 10 # 10 days before
stop_day = (stop_day-1)*24
start_day = (start_day-1)*24

pcs=[] # list of prices to analyse
for ii in range(start_day, stop_day):
    pcs.append(sys_prices[ii][0])

p, x = np.histogram(pcs, bins='fd')

*24 部分用于调整数据集中的索引，以遵守每小时分辨率。

我希望将列表pcs 提供给 histogram 方法，以便将我的直方图和 bin 边缘的值放入 p 和 x，分别。

我说我期望这是因为以下代码有效：

start_day = 1 
start_month = 1 
start_year = 2016 
stop_day = 1
stop_month = 2 
stop_year = 2016
num_prices = (date(stop_year, stop_month, stop_day) - date(start_year, start_month, start_day)).days*24

jan_prices = []
for ii in range(num_prices):
    jan_prices.append(sys_prices[ii][0])

p, x = np.histogram(jan_prices, bins='fd') # bin the data`

代码的不同之处在于，工作代码仅分析从一年中选定日期开始的任意时间段内的 10 天，而工作示例使用 1 月份的所有价格（例如第一个数据集的 744 个值）。

奇怪的事情：我为 stop_day 使用了不同的值，似乎 95 会引发错误，而 99 或 100 或 200 不会 .

你能帮帮我吗？

【问题讨论】：

向我们展示准确、完整的错误消息，包括堆栈跟踪。
听起来您的输入中包含无限或 NaN 值。
@user2357112 是的，听起来就是这样。但我不明白为什么相同的数据集，切片不同，有时会产生错误，有时不会。完整的错误是：Traceback (most recent call last): File "<ipython-input-2-ec3777e6831e>", line 11, in <module> p, x = np.histogram(pcs, bins='fd') # bin the data File "C:\Users\Filippo\Anaconda3\lib\site-packages\numpy\lib\function_base.py", line 669, in histogram 'range parameter must be finite.') ValueError: range parameter must be finite.
我输入function_base来理解它，似乎一些minimum和maximum变量是无限的NaN。考虑到数据集充满了浮点数，其中一些在十进制中有周期数，可能是这样吗？在将数字附加到列表中时，我已将 float 方法应用于数字：这能解决吗？

标签： python python-3.x numpy histogram valueerror

【解决方案1】：

我解决了，我无法发现数据集中有一个 NaN。

对于那些想知道如何发现它的人，我只是使用此代码来查找项目的索引：

nanlist=[]
for ii in range(len(array)):
    if numpy.isnan(array[ii]):
        nanlist.append(ii)

array 是您的容器。

【讨论】：

请注意，您可以使用np.argwhere(np.isnan(array))) 来执行该循环。
@DanD。谢谢，我不知道这种方法！它应该更快，对吧？
更重要的是它适用于多维数组。

【解决方案2】：

出现问题的原因是，默认情况下，直方图使用 min(pcs) 和 max(pcs) 来确定 bin 的最小和最大范围，但是由于数据集中有 nans，所以 min 和 max 变成了 nans。您可以使用np.nanmin 和np.nanmax 作为范围参数来解决此问题。

p, x = np.histogram(pcs, range=(np.nanmin(pcs), np.nanmax(pcs)) bins='fd')

我认为这比公认的答案更好，因为它不需要修改 pc。

【讨论】：

你好@kkawabat，谢谢你的回答！回顾以前的解决方案，这是一个无法工作的“修复”。相反，您的解决方案是实用且防错的。