机器学习网格搜索寻找最优参数[通俗易懂]

机器学习网格搜索寻找最优参数[通俗易懂]整理一下前阶段复习的关于网格搜索的知识:程序及数据请到github上下载GridSearch练习网格搜索是将训练集训练的一堆模型中,选取超参数的所有值(或者代表性的几个值),将这些选取的参数及值全部列出一个表格,并分别将其进行模拟,选出最优模型。上面是数据集的可视化分布图,具体代码如下:%matplotlibinlineimportpandasaspdimpo…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

整理一下前阶段复习的关于网格搜索的知识:

程序及数据 请到github 上 下载 GridSearch练习

网格搜索是将训练集训练的一堆模型中,选取超参数的所有值(或者代表性的几个值),将这些选取的参数及值全部列出一个表格,并分别将其进行模拟,选出最优模型。

上面是数据集的可视化分布图,具体代码如下:

%matplotlib inline
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('data/grid.csv',header=None)
X = data[[0,1]]
y = data[2]
#print(y)
X_blue = data[data[2]== 0]
X_red = data[data[2]== 1]
plt.scatter(X_blue[0],X_blue[1],c='blue',edgecolor='k',s=50)
plt.scatter(X_red[0],X_red[1],c='red',edgecolor='k',s=50)
plt.xlim(-2.05,2.05)
plt.ylim(-2.05,2.05)

采用决策树来训练数据

from sklearn.tree import DecisionTreeClassifier
clf = DecisionTreeClassifier(random_state=42)
clf.fit(X_train,y_train)

train_predictions = clf.predict(X_train)
test_predictions = clf.predict(X_test)
print(clf.get_params())

数据分类可视化自定义函数的代码如下:

def plot_model(X, y, clf):
    plt.scatter(X_blue[0],X_blue[1],c='blue',edgecolor='k',s=50)
    plt.scatter(X_red[0],X_red[1],c='red',edgecolor='k',s=50)

    plt.xlim(-2.05,2.05)
    plt.ylim(-2.05,2.05)
    plt.grid(False)
    plt.tick_params(
        axis='x',
        which='both',
        bottom='off',
        top='off')

    r = np.linspace(-2.1,2.1,300)
    s,t = np.meshgrid(r,r)
    s = np.reshape(s,(np.size(s),1))
    t = np.reshape(t,(np.size(t),1))
    h = np.concatenate((s,t),1)

    z = clf.predict(h)

    s = s.reshape((np.size(r),np.size(r)))
    t = t.reshape((np.size(r),np.size(r)))
    z = z.reshape((np.size(r),np.size(r)))

    plt.contourf(s,t,z,colors = ['blue','red'],alpha = 0.2,levels = range(-1,2))
    if len(np.unique(z)) > 1:
        plt.contour(s,t,z,colors = 'k', linewidths = 2)
    plt.show()

数据集分类的可视化显示:

plot_model(X, y, clf)

 机器学习网格搜索寻找最优参数[通俗易懂]

 从上面的界限可视化上来看是处于过拟合的状态,因为在训练数据的时候未设定参数,超参数 max_depth=None 时候,训练数据时候一直到决策树的最底层的叶子节点结束,所以就出现了过拟合的状态。

模型复杂度曲线可视化

from sklearn.model_selection import ShuffleSplit
from sklearn.model_selection import validation_curve
#from sklearn.tree import DecisionTreeRegressor

def ModelComplexity(X, y):
    """ Calculates the performance of the model as model complexity increases.
        The learning and testing errors rates are then plotted. """
    
    # Create 10 cross-validation sets for training and testing
    cv = ShuffleSplit(X.shape[0], test_size = 0.2, random_state = 42)

    # Vary the max_depth parameter from 1 to 10
    max_depth = np.arange(1,11)
    
    scorer = make_scorer(f1_score)

    # Calculate the training and testing scores
    train_scores, test_scores = validation_curve(DecisionTreeClassifier(), X, y, \
        param_name = "max_depth", param_range = max_depth, cv = cv, scoring =scorer)

    # Find the mean and standard deviation for smoothing
    train_mean = np.mean(train_scores, axis=1)
    train_std = np.std(train_scores, axis=1)
    test_mean = np.mean(test_scores, axis=1)
    test_std = np.std(test_scores, axis=1)

    # Plot the validation curve
    plt.figure(figsize=(7, 5))
    plt.title('Decision Tree Classifier Complexity Performance')
    plt.plot(max_depth, train_mean, 'o-', color = 'r', label = 'Training Score')
    plt.plot(max_depth, test_mean, 'o-', color = 'g', label = 'Validation Score')
    plt.fill_between(max_depth, train_mean - train_std, \
        train_mean + train_std, alpha = 0.15, color = 'r')
    plt.fill_between(max_depth, test_mean - test_std, \
        test_mean + test_std, alpha = 0.15, color = 'g')
    
    # Visual aesthetics
    plt.legend(loc = 'lower right')
    plt.xlabel('Maximum Depth')
    plt.ylabel('Score')
    plt.ylim([-0.05,1.05])
    plt.show()

ModelComplexity(X, y)

机器学习网格搜索寻找最优参数[通俗易懂]

从上面的复杂度曲线图可以看出,在max_depth=4 的时候 ,训练集和测试集的得分是最接近的,在向右的时候,测试集的得分就呈下降趋势, 虽然此时训练集的得分很高,但训练集的得分下降了,这说明在测试集上模型没有很好的拟合数据,就是过拟合状态了。

下面来采用网格搜索来寻找最优参数,本例中以 max_depth 和min_samples_leaf 这两个参数来进行筛选

from sklearn.model_selection import GridSearchCV
clf = DecisionTreeClassifier(random_state=42)
scorer = make_scorer(f1_score)

parameters = {'max_depth':[2,4,6,8,10],'min_samples_leaf':[2,4,6,8,10], 'min_samples_split':[2,4,6,8,10]}
grid_obj = GridSearchCV(clf, parameters, scoring=scorer)
grid_obj.fit(X_train,y_train)

best_clf = grid_obj.best_estimator_
print(grid_obj.best_params_)

best_clf.fit(X_train,y_train)
best_train_predictions = best_clf.predict(X_train)
best_test_predictions = best_clf.predict(X_test)

print('The training F1 Score is', f1_score(best_train_predictions, y_train))
print('The testing F1 Score is', f1_score(best_test_predictions, y_test))
plot_model(X, y, best_clf)

机器学习网格搜索寻找最优参数[通俗易懂]

上面是通过网格搜索得出的最优模型来模拟出来的分类界限可视化图,可以从图中很直观的看出,划分的效果好了很多。

下面看下决策树的分支示意图:图一 是优化前 max_depth=None 的情况,图二 是网格搜索出的最优模型

机器学习网格搜索寻找最优参数[通俗易懂]

                                                                                                 图1 :优化前

    

机器学习网格搜索寻找最优参数[通俗易懂]

                                                                                图二:网格搜索的最优模型

具体代码在程序中,请大家自行阅读。

最后给出网格搜索前后的模型对比示意图:(学习曲线的可视化程序在github 的源码中,请大家自行下载查看 网格搜索练习

机器学习网格搜索寻找最优参数[通俗易懂]

时间关系,写的比较粗糙,请大家多提宝贵意见,我会逐步改进! 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/184203.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • mysql分页的limit参数「建议收藏」

    Mysql的分页的两个参数select*fromuserlimit1,21表示从第几条数据开始查(默认索引是0,如果写1,从第二条开始查)2,表示这页显示几条数据

    2022年4月15日
    50
  • reaver 使用方法和技巧

    reaver 使用方法和技巧reaver非常的不错,为我们ceng网带了最大的方便,使用简单,我来讲一下自己使用心得吧!第一步,如果用虚拟机用vmware的,总会出现鼠标不灵点不到地方,换了一个6.0.2build-59824版本后,鼠标变的非常的好用。但是自己还是想用新版,所以在网上看到说是选择linux系统就可以,自己就打开–编辑虚拟机设置—选项—虚拟名称—linux—ubuntu,试了一下鼠

    2022年5月4日
    76
  • 计算机专业的男生喜欢你,男生真心喜欢你的五个表现

    计算机专业的男生喜欢你,男生真心喜欢你的五个表现原标题:男生真心喜欢你的五个表现男生真心喜欢你的五个表现。不知从什么时候起,“爱”成了一个不太确切的词。像是,我们平时跟人业务联系,表达感谢都会直接说,“爱你哦”,情绪却未丝丝入扣地跟上。“爱”被滥用得廉价了,“喜欢”这个词才更小心翼翼了起来。而我也跟万千少女一样,饱受“他究竟喜欢我吗?”这一终极拷问的困扰。现代人的真心,被层层规则与圈套拢住,是要费点机灵脑筋,拨云才能见日的。每天翻新暧昧的说辞…

    2022年7月25日
    14
  • 利用Pycharm连接服务器[通俗易懂]

    利用Pycharm连接服务器[通俗易懂]利用Pycharm连接服务器前言当下,很多深度学习的模型需要高配置的设备来跑,本地的pc可能无法满足要求。所以就需要利用服务器来训练,但是在服务器上操作代码不是很方便。利用Pycharm可以在本地编写/修改代码,能够同步到服务器上,并且能直接在本地利用pycharm运行同步到服务器上的代码。非常的方便。-前提一台装有anaconda的服务器,本地装了专业版的pycharm。操作步骤步骤一:在pycharm上使用服务器的python环境用pycharm任意打开一个项目,从工具栏中选择Fil

    2022年8月29日
    3
  • mysql数据库备份和还原的命令_Mysql数据库备份和还原常用的命令

    mysql数据库备份和还原的命令_Mysql数据库备份和还原常用的命令Mysql数据库备份和还原常用的命令是进行Mysql数据库备份和还原的关键,没有命令,什么都无从做起,更谈不上什么备份还原,只有给系统这个命令,让它去执行,才能完成Mysql数据库备份和还原的操作,下面就是操作的常用命令。一、备份命令1、备份MySQL数据库的命令mysqldump-hhostname-uusername-ppassworddatabasename>backupf…

    2022年5月4日
    56
  • 20针JLINK与10针JTAG的连接方法「建议收藏」

    20针JLINK与10针JTAG的连接方法「建议收藏」三星S3C6410的底板Jtag接口是10针,而普通的Jlink的接口是20针。因此就需要接口转换:

    2022年5月10日
    40

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号