【问题标题】:Correcting NaN values/loss for ANN in tensorflow在张量流中纠正 ANN 的 NaN 值/损失
【发布时间】:2020-11-21 19:58:53
【问题描述】:

我正在使用 tensorflow 运行流失模型并遇到 NaN 损失。仔细阅读,我发现我的数据中可能有一些 NaN 值,正如 print(np.any(np.isnan(X_test))) 所证实的那样。

我尝试过使用

def standardize(train, test):
    mean = np.mean(train, axis=0)
    std = np.std(train, axis=0)+0.000001
    X_train = (train - mean) / std
    X_test = (test - mean) /std
    return X_train, X_test

但仍然会得出 NaN 值。

如果有帮助,这里是完整的代码:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import tensorflow as tf

dataset = pd.read_excel('CHURN DATA.xlsx')
X = dataset.iloc[:, 2:45].values
y = dataset.iloc[:, 45].values

from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X[:, 1] = le.fit_transform(X[:,1])

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(),[0])], remainder = 'passthrough')
X = np.array(ct.fit_transform(X))

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)

ann = tf.keras.models.Sequential()
ann.add(tf.keras.layers.Dense(units = 43, activation = 'relu'))
ann.add(tf.keras.layers.Dense(units = 43, activation = 'relu'))
ann.add(tf.keras.layers.Dense(units = 1, activation = 'sigmoid'))
ann.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])
ann.fit(X_train, y_train, batch_size = 256, epochs = 50)

【问题讨论】:

  • dataset = pd.read_excel('CHURN DATA.xlsx')之后添加dataset = dataset.dropna()
  • 这行得通,但它丢弃了 80% 的数据。正如下面所建议的,我在某些输入中使用负值(透支的支票账户余额等)
  • 它丢弃了 80% 的数据,因为 dropna 函数一旦找到 nan 就会删除整行,即使它只有一个。请改用 fillna。

标签: python tensorflow machine-learning nan


【解决方案1】:

您尚未替换 nan 值。您的数据中可能还有一些 inf-inf 值。您可以将它们都替换为0

对于数据框

X.replace([np.inf, -np.inf], np.nan, inplace=True)
X = X.fillna(0)

或者如果你的数据在一个 numpy 数组中

X[np.isnan(X)] = 0

X[X == np.inf] = 0 
X[X == -np.inf] = 0

【讨论】:

  • 我正在处理某些输入中的负值(透支的支票账户余额等)。当我尝试这个时,我得到以下错误'numpy.ndarray'对象没有属性'replace'
  • 我假设您的数据位于数据框中,但显然数据位于 numpy 数组中。因此,您可以将数据转换为数据框并使用上面的解决方案,也可以使用:X[X == np.inf] = 0 X[X == -np.inf] = 0。我已经编辑了我的答案。
  • 我在对分类变量进行编码后运行了`X[X == np.inf] = 0 X[X == -np.inf] = 0`,但仍然得到 print(np.any(np .isnan(X_test))) = True 之后,仍然遇到 nan 损失
  • 也运行这个X[np.isnan(X)] = 0。另外,您将此替换方法放在代码中的什么位置?
  • 成功了!我将` X.replace([np.inf, -np.inf], np.nan, inplace=True) X = X.fillna(0) `用于数据框中的整个数据集dataset.replace([np.inf, -np.inf], np.nan, inplace=True) dataset = dataset.fillna(0) 。模型运行平稳,最终精度为 0.99。谢谢!!
猜你喜欢
  • 2018-12-07
  • 2021-03-26
  • 2018-02-03
  • 2018-09-18
  • 1970-01-01
  • 2018-12-16
  • 1970-01-01
  • 2018-07-04
  • 1970-01-01
相关资源
最近更新 更多