【发布时间】:2019-03-09 02:14:20
【问题描述】:
我正在尝试构建Regression 模型,并且正在寻找一种方法来检查特征和目标变量之间是否存在任何相关性?
这只是我的示例dataset
Loan_ID Gender Married Dependents Education Self_Employed ApplicantIncome\
0 LP001002 Male No 0 Graduate No 5849
1 LP001003 Male Yes 1 Graduate No 4583
2 LP001005 Male Yes 2 Graduate Yes 3000
3 LP001006 Male Yes 0 Not Graduate No 2583
4 LP001008 Male No 3+ Graduate No 6000
CoapplicantIncome LoanAmount Loan_Amount_Term Credit_History Area Loan_Status
0.0 123 360.0 1.0 Urban Y
1508.0 128.0 360.0 1.0 Rural N
0.0 66.0 360.0 1.0 Urban Y
2358.0 120.0 360.0 1.0 Urban Y
0.0 141.0 360.0 1.0 SemiUrban Y
我正在尝试根据上述可用功能预测LoanAmount 列。
我只是想看看特征和目标变量之间是否存在相关性。我尝试了LinearRegression、GradientBoostingRegressor,但我几乎无法获得大约0.30 - 0.40% 的准确度。
我应该使用哪些算法、参数等来进行更好的预测?
【问题讨论】:
-
请校对:您的标题与您的实际问题无关(相关性在此上下文中具有非常具体的含义,不一定与预测有关)...
-
首先,由于这是回归,
0.30 - 0.40是 R 平方值而不是准确度。其次是 0.30-0.40% 还是 30-40%?第三,仅根据此信息预测贷款金额将是一项艰巨的任务,您将需要更多数据和更多功能(因为贷款金额不仅取决于银行,还取决于申请人(他想要多少 - 这可能非常低于或高于银行所能提供的)。但是你可以预测'Loan_Status'(分类任务)。 -
@VivekKumar 那么我如何预测 Loan_Status 呢?除了使用
labelencoder()之外,在继续分类任务之前我应该做的任何步骤? -
首先尝试使用与
LinearRegression, GradientBoostingRegressor相同的数据集,然后将其与LogisticRegression, GradientBoostingClassifier等分类器一起使用。 -
我不这么认为。您的任何功能是否有两个以上的值?使用与获取传递给 LinearRegression 的
fit()的数据相同的处理。
标签: python-3.x machine-learning scikit-learn linear-regression correlation