轻型 GBM 模型的贝叶斯优化答案

【问题标题】：Bayesian optimization for a Light GBM Model轻型 GBM 模型的贝叶斯优化
【发布时间】：2019-09-26 08:18:51
【问题描述】：

我能够通过贝叶斯优化成功地提高我的 XGBoost 模型的性能，但是在使用 Light GBM（我的首选）时我可以通过贝叶斯优化实现的最佳效果比我使用默认值所能达到的效果要差超参数并遵循标准的提前停止方法。

通过贝叶斯优化进行调优时，我确保将算法的默认超参数包含在搜索表面中，以供参考。

下面的代码显示了来自 Light GBM 模型的 RMSE，其中默认超参数使用 seaborn 的 diamonds 数据框作为我的工作示例：

#pip install bayesian-optimization

import seaborn as sns
from sklearn.model_selection import train_test_split
import lightgbm as lgb
from bayes_opt import BayesianOptimization

df = sns.load_dataset('diamonds')

df["color"] = df["color"].astype('category')
df["color_cat"] = df["color"].cat.codes
df = df.drop(["color"],axis = 1)

df["cut"] = df["cut"].astype('category')
df["cut_cat"] = df["cut"].cat.codes
df = df.drop(["cut"],axis = 1)

df["clarity"] = df["clarity"].astype('category')
df["clarity_cat"] = df["clarity"].cat.codes
df = df.drop(["clarity"],axis = 1)

y = df['price']
X = df.drop(['price'], axis=1)

seed = 7
test_size = 0.3
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=test_size,random_state=seed)

train_lgb = lgb.Dataset(X_train, y_train)
eval_lgb = lgb.Dataset(X_test, y_test, reference = train_lgb)

params = { 'objective': 'regression',
  'metric': 'RMSE',
  'learning_rate': 0.02}
lgb_reg = lgb.train(params, train_lgb, num_boost_round = 10000, early_stopping_rounds=50, verbose_eval = 100, valid_sets=eval_lgb)

结果

OUT:
Training until validation scores don't improve for 50 rounds.
Early stopping, best iteration is:
[1330 (n_estimators)] valid_0's rmse: 538.728

这里我尝试实现贝叶斯优化和得到的 RMSE 值：

def modelFitter(colsampleByTree, subsample,maxDepth, num_leaves):   
    model = lgb.LGBMRegressor(learning_rate=0.02, n_estimators=10000, max_depth=maxDepth.astype("int32"), subsample=subsample, colsample_bytree=colsampleByTree,num_leaves=num_leaves.astype("int32"))

    evalSet  = [(X_test, y_test)]
    model.fit(X_train, y_train, eval_metric="rmse", eval_set=evalSet, early_stopping_rounds=50, verbose=False)

    bestScore = model.best_score_[list(model.best_score_.keys())[0]]['rmse']

    return -bestScore

# Bounded region of parameter space
pbounds = {'colsampleByTree': (0.8,1.0), 'subsample': (0.8,1.0), 'maxDepth': (2,5), 'num_leaves': (24, 45)}

optimizer = BayesianOptimization(
    f=modelFitter,
    pbounds=pbounds,
    random_state=1)

optimizer.maximize(init_points=5,n_iter=5)  #n_iter=bayesian, init_points=random

结果

iter    |  target   | colsam... | maxDepth  | num_le... | subsample |
-------------------------------------------------------------------------
|  1        | -548.7    |  0.8834   |  4.161    |  24.0     |  0.8605   |
|  2        | -642.4    |  0.8294   |  2.277    |  27.91    |  0.8691   |
|  3        | -583.5    |  0.8794   |  3.616    |  32.8     |  0.937    |
|  4        | -548.7    |  0.8409   |  4.634    |  24.58    |  0.9341   |
|  5        | -583.5    |  0.8835   |  3.676    |  26.95    |  0.8396   |
|  6        | -548.7    |  0.8625   |  4.395    |  24.29    |  0.8968   |
|  7        | -548.7    |  0.8435   |  4.603    |  24.42    |  0.9298   |
|  8        | -551.5    |  0.9271   |  4.266    |  24.11    |  0.8035   |
|  9        | -548.7    |  0.8      |  4.11     |  24.08    |  1.0      |
|  10       | -548.7    |  0.8      |  4.44     |  24.45    |  0.9924   |

在贝叶斯优化过程中生成的 RMSE（-1 x “目标”）应该比 LightGBM 的默认值生成的要好，但我无法获得更好的 RMSE（寻找更好/高于-538.728 通过上述实现的“正常的”提前停止过程）。

maxDepth 和 num_leaves 应该是整数；看起来有一张公开票可以强制执行（即引入“ptypes”）：https://github.com/fmfn/BayesianOptimization/pull/131/files

贝叶斯优化在 LightGBM 中似乎没有找到更好的解决方案，但在 XGBoost 中却找到了更好的解决方案，这是有原因的吗？

【问题讨论】：

您的编码相关问题是什么？这看起来像是属于 stats-exchange
嗨@Yuca - 我上面提到的代码中有什么东西导致贝叶斯优化不起作用吗？
请回答我的问题。那我可以回答你的:)
是的，我真诚地认为你在那里可能会有更好的机会。我没有给你答案，因为它需要高度专业化和大量空闲时间来回答，这是这里的稀有商品。所以你可能需要等待很多时间或在 codereview 中发帖
您是否尝试将LGBMRegressor 与默认参数匹配并查看结果指标？原因是本机 API (lgb.train) 和 scikit-learn API (LGBMRegressor) 的默认值可能不同（它们不应该如此，但我不确定作者是否提供任何保证）。此外，您在本机 API 中使用的默认值是 max_depth=-1，而您的优化边界与此不同。限制深度会导致不同的树结构

标签： python pandas bayesian hyperparameters lightgbm

【解决方案1】：

这个问题属于 stats.SE；我鼓励你在 Meta 那里问为什么它不相关。它可能有点过于宽泛，因为可能有几个可能的原因造成差异。

1) 仔细检查您正在优化的超参数空间在两个模型中是否一致。（pbounds 参数现在似乎只在 LGBM 模型中定义）

2) 如果搜索空间的范围太小，默认值可能会有一个局部最大值，这通常是一个启发式的、经验法则“相当不错”的默认值集。

3) 两者都是 Gradient Boost 模型，但它们确定最佳分割值的方法不同。这意味着您的解决方案空间可能会从算法的角度开发出不同的最佳值，这只能从其给定的架构中进行最佳猜测，如果优化功能发生变化，您可能会偶然开发出最好的-采用默认 LGBM 超参数值的解决方案。

4) 如果您正在查看一个极其次优的搜索空间，类似于查看一个小的子空间，您最终会在最大值处得到平庸的结果，这大大低于默认设置。（这就像在海洋中寻找一座山峰，而默认可能是某个当地的小山。）

【讨论】：

【解决方案2】：

对于回归，我设法使用 lightgbm 包中的 cv 函数实现了改进的结果。

BayesianOptimization() 中的“黑匣子”函数返回 l1-mean 的最小值。

def black_box_lgbm():
    params = {...} #Your params here
    cv_results = lgb.cv(params, train_data, nfold=5, metrics='mae', verbose_eval = 200, stratified=False)
    return min(cv_results['l1-mean'])

在BayesianOptimization() 上调用maximize() 并获取具有最低l1 错误的结果后，我重新训练了一个模型并与默认值进行了比较。与默认值相比，这始终导致 MSE 较低。

【讨论】：