集成学习-Voting

集成学习-Voting一、什么是集成学习集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的”弱学习器”。上面的描述来自百度百科,看定义的话知道是基于‘弱学习器’的,很多讲集成学习的教程都会先讲决策树,然后讲到随机森林和GBDT,也就是bagging和boosting,…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全家桶1年46,售后保障稳定

集成学习-Voting

 

一、什么是集成学习

       集成学习是使用一系列学习器进行学习,并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。一般情况下,集成学习中的多个学习器都是同质的”弱学习器”。

      上面的描述来自百度百科,看定义的话知道是基于‘弱学习器’的,很多讲集成学习的教程都会先讲决策树,然后讲到随机森林和GBDT,也就是bagging和boosting,其实还有更简单的集成学习思路,也就是voting,也就是投票原则,可能太简单了,很少见人讨论过,觉得对于实际的业务来讲作用应该蛮好的,所以总结下。

 二、具体思想

       少数服从多数,假定有5个分类器,有3个分类为正样本,2个分类为负样本,按照HardVoting的思想就是投票,你的正样本多就是你了,与之思想不太一样的就是Soft Voting,也就是每个人投票的权重不一样,在基于概率的分类模型中,如果一个模型有90%的概率判定为正样本,另一个模型有40%的概率判定为正样本,这2个模型的加权投票概率就是65%(也就是求个平均)。

      

三、Hard Voting的简单例子

1、首先,写入数据集,然后看下数据的大致分布

import numpy as np
import matplotlib.pyplot as plt

from sklearn import datasets

X, y = datasets.make_moons(n_samples=500, noise=0.3, random_state=42)

plt.scatter(X[y==0,0],X[y==0,1])
plt.scatter(X[y==1,0],X[y==1,1])
plt.show()

from sklearn.model_selection import train_test_split

X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=666)

Jetbrains全家桶1年46,售后保障稳定

2、,然后,先用逻辑回归尝试下

from sklearn.linear_model import LogisticRegression

#这里使用默认的参数
log_clf = LogisticRegression()
log_clf.fit(X_train,y_train)
log_clf.score(X_test,y_test)

结果:0.824

3、再用SVM跑下

from sklearn.svm import SVC

svm_clf = SVC()
svm_clf.fit(X_train,y_train)
svm_clf.score(X_test,y_test)

结果是:0.88

4、再用决策树跑下

from sklearn.tree import DecisionTreeClassifier

dt_clf = DecisionTreeClassifier()
dt_clf.fit(X_train,y_train)
dt_clf.score(X_test,y_test)

结果:0.832

5、我们把3个结果汇总起来,取2个相同的

y_predict1 = log_clf.predict(X_test)
y_predict2 = svm_clf.predict(X_test)
y_predict3 = dt_clf.predict(X_test)

y_predict = np.array((y_predict1+y_predict2+y_predict3)>=2,dtype='int')

from sklearn.metrics import accuracy_score

accuracy_score(y_test, y_predict)

结果是:0.88

6、这里的结果有一点提升(虽然并不是很明显)

然后我们用sklearn封装好的模块来跑一下,这里的voting=’hard’就对应了集成的方式

from sklearn.ensemble import VotingClassifier

voting_clf = VotingClassifier(estimators=[
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC()),
    ('dt_clf',DecisionTreeClassifier())
],voting='hard')

voting_clf.fit(X_train, y_train)

voting_clf.score(X_test,y_test)

这里我的结果是:0.88,和自己计算的结果是一样的,这个结果不是太好

四、Soft Voting简单例子(前提是每一个模型都能估计概率)

前提:分类器都可以计算分类概率

对于SVM也可以计算概率,(这点我是不太懂),具体使用是调整下面这个参数为True

probablility:boolean,optional(default=False)

http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html

下面我们使用Soft Voting

from sklearn.ensemble import VotingClassifier

#决策树这里加个随机种子是为了每次跑的结果保持一致
voting_clf2 = VotingClassifier(estimators=[
    ('log_clf',LogisticRegression()),
    ('svm_clf',SVC(probability=True)),
    ('dt_clf',DecisionTreeClassifier(random_state=666))
],voting='soft')

voting_clf2.fit(X_train, y_train)
voting_clf2.score(X_test,y_test)

结果是:0.856

这就是voting的大致过程。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/230609.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java卸载 安装错误_Java卸载后无法重新安装 提示已安装过[通俗易懂]

    java卸载 安装错误_Java卸载后无法重新安装 提示已安装过[通俗易懂]龙歌这款游戏需要在玩之前安装一个java的插件,有时候由于错误的安装或卸载java会造成虽然已经删除了java插件,但是重新安装java时系统提示已经安装了一个版本,而无法重新安装。在Windows中,如果本地安装过Java,但存在问题无法使用,需要重新安装同版本的Java时,会出现下面的提示:原因是原有Java安装目录已经被删除或损坏了,不过在注册表还残留了安装信息,如果用360和优化大师清除注…

    2022年5月19日
    41
  • 面向新手的Web服务器搭建(一)——IIS的搭建[通俗易懂]

    面向新手的Web服务器搭建(一)——IIS的搭建[通俗易懂]很多童鞋说自己是做移动开发的,想挂个简单的WebAPI,可是服务器又不会搭,这样一来测试就成了问题。看看网上的教程,发现略难懂,而且大多是一个转一个,没价值,所以干脆写几篇文章讲讲简单的Web服务器怎么搭,让不太涉及Web的童鞋快速上手。

    2022年5月8日
    90
  • linux lefse分析,科学网-linux本地化进行lefse分析-林国鹏的博文

    linux lefse分析,科学网-linux本地化进行lefse分析-林国鹏的博文注:参考来自网络,如侵权则删。##对应于上述A-F6个模块,本地版的命令行操作示例如下#A,设置LEfSe的数据格式,详情format_input.py-h#-c,指定class的行(必须指定);-s,指定sub_class的行(可缺省);#-u,指定subject_id的行(可缺省);-o,设置归一化值,默认-1即不执行标准化#注:版本问题,有时format_in…

    2022年4月29日
    53
  • 一文搞懂双亲委派模型「建议收藏」

    一文搞懂双亲委派模型「建议收藏」类加载器虚拟机设计团队把类加载阶段中的“通过一个类的全限定名来获取此类的二进制字节流”这个动作放到Java虚拟机外部去实现,以便让应用程序自己决定如何去获取所需要的类。实现这个动作的代码模块称为“类加载器”。从Java虚拟机的角度来讲,只存在以下两种不同的类加载器:启动类加载器(BootstrapClassLoader),使用C++实现,是虚拟机自身的一部分所有其它类的加载…

    2022年4月19日
    50
  • 接口测试简介以及接口测试用例设计思路

    接口测试简介以及接口测试用例设计思路接口测试简介1.什么是接口接口就是内部模块对模块,外部系统对其他服务提供的一种可调用或者连接的能力的标准,就好比usb接口,他是系统向外接提供的一种用于物理数据传输的一个接口,当然仅仅是一个接口是不能进行传输的,我们还的对这个接口怎么进行传输进行进行一些设置和定义。开发所谓的接口是模块模块之间的一种连接,而测试眼中的接口是一种协议(对接口的功能的一种定义)2.接口的种类和分类外部接…

    2022年6月28日
    30
  • 安卓中activity的生命周期_activity生命周期调用顺序

    安卓中activity的生命周期_activity生命周期调用顺序Android开发—-Activity生命周期Activity作为四大组件之首,也是使用最频繁的一种组件。本文将主要讲解Activity生命周期,包括正常情况下的Activity生命周期和异常情况下的Activity生命周期。1.正常情况下的Activity生命周期所谓正常情况下的生命周期,是指有用户参与的情况下,Activity所经过的生命周期的改变。正常情况下,Activity会经历如下过程。…

    2022年8月16日
    10

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号