XGBoost实战

XGBoost实战1.XGBoost参数1.1常规参数GeneralParameters      booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。     &nbsp…

大家好,又见面了,我是你们的朋友全栈君。

1.XGBoost参数
1.1常规参数General Parameters
      booster[default=gbtree]:选择基分类器,可以是:gbtree,gblinear或者dart。gbtree和draf基于树模型,而gblinear基于线性模型。
      slient[default=0]:是否有运行信息输出,设置为1则没有运行信息输出。
      nthread[default to maximum number of threads available if not set]:线程数,默认使用能使用的最大线程数。
      num_pbuffer [set automatically by xgboost, no need to be set by user]:预测缓冲区的大小,通常设置为训练实例的数量。缓冲区用于保存最后一个提升步骤的预测结果。
      num_feature [set automatically by xgboost, no need to be set by user]:boosting过程中用到的特征维数,设置为特征个数。
1.2模型参数Booster Parameters
      eta[default=0.3]:收缩参数,也即学习率。用于更新叶节点权重时,乘该系数,避免步长过大。参数值越大,越可能无法收敛。把eta设置的小一些,小的学习率可以使后面的学习更加仔细。通常最后设置eta为0.01~0.2。
      min_child_weight[default=1]:每个叶子里面的h的和至少是多少,这个参数非常影响结果,控制叶子节点中二阶导的和的最小值,该参数越小,越容易过拟合。
      max_depth[default=6]:每棵树的最大深度,该参数设置越大,越容易过拟合。建议通过交叉验证(xgb.cv ) 进行调参。通常取值:3-10。
      max_leaf_nodes:最大叶节点数,和max_depth类似。
      gamma[default=0]:后剪枝时,用于控制是否后剪枝。模型在默认情况下,对于一个节点的划分只有在其loss function得到结果大于0的情况下才进行,而gamma 给定了所需的最低loss function的值。gamma值使得算法更conservation,且其值依赖于loss function,在模型中应该进行调参。
      max_delta_step[default=0]:该参数可以使得更新更加平缓,如果取0表示没有约束,如果取正值则使得更新步骤更加保守,防止更新时迈的步子太大。通常不需要设置这个值,但在使用logistics 回归时,若类别极度不平衡,则调整该参数可能有效果。
      subsample[default=1]:样本随机样本,该参数越大,越容易过拟合,但设置过大也会造成过拟合。
      colsample_bytree[default=1]:列采样,对每棵树生成时用的特征进行列采样,一般设置为0.5-1
      lambda[default=1]:模型的L2正则化参数,参数越大,越不容易过拟合。
      alpha[default=0]:模型的L1正则化参数,参数越大,越不容易过拟合。
      scale_pos_weight[default=1]:如果取值大于0,在类别样本偏斜时,有助于快速收敛。
1.3学习任务参数(Learning Task Parameters)
      objective[default=reg:linear]:定义最小化损失函数类型,常用参数:
      binary:logistic –二元分类的逻辑回归模型,返回预测概率(p(y=1|x,w))
      multi:softmax –使用softmax objective的多类分类模型,返回预测的分类。这里需要设置一个额外的num_class参数,表示类的个数。
      multi:softprob –与softmax相同,但是返回每个数据点属于每个类的预测概率。
      eval_metric[default according to objective]:用于衡量验证数据的参数,即是各评价标准,常用参数如下:
            rmse – root mean square error
            mae – mean absolute error
            logloss – negative log-likelihood
            error – Binary classification error rate (0.5 threshold)
            merror – Multiclass classification error rate
            mlogloss – Multiclass logloss
            auc: Area under the curve
            seed[default=0]:随机种子,用于产生可复现的结果。
      这里,xgboost与sklearn的命名风格有点区别,如:
            eta->learning_rate
            lambda->reg_lambda
            alpha->reg_alpha
2.代码实战
引入库

import numpy as np
from xgboost import XGBClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

加载数据,并将数据集切分成训练集和测试集

# load data
dataset =np.loadtxt('pima-indians-diabetes.csv',delimiter=',')
# split data into X and y
X = dataset[:,0:8]
y = dataset[:,8]
# split data into train and test sets
X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.33,random_state=7)

进行拟合

# fit model with train data
model = XGBClassifier()
model.fit(X_train,y_train)

进行预测

# make predictions for test data
y_pre = model.predict(X_test)
predictions = [round(value) for value in y_pre]
# evaluate predictions
accuracy = accuracy_score(y_test,predictions)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

输出结果:Accuracy: 77.95%

查看训练过程verbose=False不打印过程

eval_set = [(X_test,y_test)]
model = XGBClassifier()
model.fit(X_train,y_train,early_stopping_rounds=20,
		  eval_metric='logloss',eval_set=eval_set,verbose=True)
y_pre = model.predict(X_test)
predictions = [round(value) for value in y_pre]
# evaluate predictions
accuracy = accuracy_score(y_test, predictions)
print("Accuracy: %.2f%%" % (accuracy * 100.0))

输出结果:

[0]	validation_0-logloss:0.660186
Will train until validation_0-logloss hasn't improved in 10 rounds.
[1]	validation_0-logloss:0.634854
[2]	validation_0-logloss:0.612239
[3]	validation_0-logloss:0.593118
[4]	validation_0-logloss:0.578303
[5]	validation_0-logloss:0.564942
……
[42]	validation_0-logloss:0.492369
Stopping. Best iteration:
[32]	validation_0-logloss:0.487297

Accuracy: 77.56%

用XGBoost衡量特征的重要程度

from xgboost import plot_importance
import matplotlib.pyplot as plt
plot_importance(model)
plt.show()

在这里插入图片描述
找到最好的学习率

from sklearn.model_selection import GridSearchCV,StratifiedKFold
model = XGBClassifier()
eta = [0.0001, 0.001, 0.01, 0.1, 0.2, 0.3]
param_grid = dict(eta=eta)
kfold = StratifiedKFold(n_splits=10,shuffle=True,random_state=7)
grid_search = GridSearchCV(model,param_grid=param_grid,
						   scoring='neg_log_loss',n_jobs=-1,cv=kfold,iid=True)
grid_result = grid_search.fit(X_train,y_train)
# summarize results
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
params = grid_result.cv_results_['params']
for mean, param in zip(means, params):
    print("%f  with: %r" % (mean, param))

KFold和StratifiedKFold的区别
StratifiedKFold 分层采样交叉切分,确保训练集,测试集中各类别样本的比例与原始数据集中相同。KFold交叉采样,按顺序取。
下面是对数据进行四等分采样的结果:
      (1)StratifiedKFold切分结果如下:
            Train: [1 3 4 5 6 7] | test: [0 2]
            Train: [0 2 4 5 6 7] | test: [1 3]
            Train: [0 1 2 3 5 7] | test: [4 6]
            Train: [0 1 2 3 4 6] | test: [5 7]
      (2)KFold切分结果如下:
            Train: [2 3 4 5 6 7] | test: [0 1]
            Train: [0 1 4 5 6 7] | test: [2 3]
            Train: [0 1 2 3 6 7] | test: [4 5]
            Train: [0 1 2 3 4 5] | test: [6 7]

参考文章:
https://www.cnblogs.com/mengnan/p/9307632.html
https://blog.csdn.net/wzmsltw/article/details/50994481

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/142804.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • CentOS搭建Ghost博客

    CentOS搭建Ghost博客

    2021年6月1日
    127
  • 常见的计算机病毒种类有,五种常见的计算机病毒种类有哪些

    常见的计算机病毒种类有,五种常见的计算机病毒种类有哪些五种常见的计算机病毒种类有系统病毒、蠕虫病毒、木马病毒、脚本病毒、宏病毒。计算机病毒(ComputerVirus)是编制者在计算机程序中插入的破坏计算机功能或者数据的代码,能影响计算机使用,能自我复制的一组计算机指令或者程序代码。计算机病毒是人为制造的,有破坏性,又有传染性和潜伏性的,对计算机信息或系统起破坏作用的程序。它不是独立存在的,而是隐蔽在其他可执行的程序之中。计算机中病毒后,轻则影响机…

    2022年5月3日
    57
  • JAVA之文件操作[通俗易懂]

    JAVA之文件操作[通俗易懂]Console此类包含多个方法,可访问与当前Java虚拟机关联的基于字符的控制台设备(如果有)。虚拟机是否具有控制台取决于底层平台,还取决于调用虚拟机的方式。如果虚拟机从一个交互式命令行开始启动,且没有重定向标准输入和输出流,那么其控制台将存在,并且通常连接到键盘并从虚拟机启动的地方显示。如果虚拟机是自动启动的(例如,由后台作业调度程序启动),那么它通常没有控制台。如果此虚拟机具

    2025年7月17日
    0
  • 对比学习、自监督学习的理解「建议收藏」

    对比学习、自监督学习的理解「建议收藏」自监督学习定义:自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信息来提高学习表征的质量,通过这种构造监督信息对网络进行训练,从而可以学习到对下游任务具有价值的表征。辅助任务(pretext):可以认为是一种为达到特定训练任务而设计的间接任务。pretext任务的好处是为了简化原任务的求解,在深度学习中就是避免人工标记样本,实现无监督的语义提取。Pretext任务可以进一步理解为:对目标任务有帮助的辅助任务。主要pretexttask包括:图像旋转、图像着色、图像修复。下游任务:图

    2022年9月14日
    0
  • 毕业前写了20万行代码,让我从成为同学眼里的面霸

    毕业前写了20万行代码,让我从成为同学眼里的面霸作者:小傅哥博客:https://bugstack.cn沉淀、分享、成长,让自己和他人都能有所收获!????一、前言20万行代码写完,毕业了找一份工作不是问题!刚一毕业因为找不到工作,就得报名去参加Java培训的大有人在。并不是说参加培训就不好,只不过以你现在这个毕业的时间点参加,就会显得特别匆忙。因为你的压力既来自于培训还需要花家里一笔不小的费用,也有同班同学已经找到一份不错的工作开始赚钱的比对。大学四年其实有足够的时间让你学会编程,也能从一个较长时间的学习中,知道自己适合不适合做程序员。

    2022年6月12日
    20
  • qmake:配置qmake

    qmake:配置qmake一、属性qmake有一个持久化配置系统,它允许在qmake中设置一次属性,并在每次调用qmake时查询它。可以在qmake中设置一个属性:qmake-setPROPERTYVALUE您可以从qmake检索此信息,如下所示:qmake-queryPROPERTYqmake-query//列出内置属性以下是内置属性:QMAKE_SPEC:在主机构建期间解析并存储在QMAKESPEC变量中的主机mkspec的短名称

    2022年5月19日
    64

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号