sklearn库的功能_numpy库

sklearn库的功能_numpy库sklearn是目前python中十分流行的用来实现机器学习的第三方包,其中包含了多种常见算法如:决策树,逻辑回归、集成算法等。即使你还不太懂机器学习的具体过程,依旧可以使用此库进行机器学习操作,因为其对各种算法进行了良好的封装,可以在不了解算法实现过程的情况下使用算法,所以可以把sklearn库当作学习过程中的一个过度,如果你想快速建立一个模型,这也是一个不错的选择。数据导入skle…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

sklearn是目前python中十分流行的用来实现机器学习的第三方包,其中包含了多种常见算法如:决策树,逻辑回归、集成算法等。

即使你还不太懂机器学习的具体过程,依旧可以使用此库进行机器学习操作,因为其对各种算法进行了良好的封装,可以在不了解算法实现过程的情况下使用算法,所以可以把 sklearn 库当作学习过程中的一个过度,如果你想快速建立一个模型,这也是一个不错的选择。


数据导入

sklearn 内含有很多数据集,可以用来练手,一些小规模数据可以直接使用,但大规模数据要下载

内部小规模数据的导入方式:

from sklearn import datasets

boston = datasets.load_boston()	# 导入波士顿房价数据
iris = datasets.load_iris() # 导入鸢尾花数据
diabetes = datasets.load_diabetes()	# 导入糖尿病数据
digits = datasets.load_digits()	# 导入手写数字集数据

提取特征和目标,以手写数字集为例:

X = digits.data # 获得其特征向量
y = digits.target # 获得样本label

若使用外部的数据集,则需要另行导入,比如以 csv 文件存储的信息,可以选择使用 Pandas 库导入:

import pandas as pd

df = pd.read_csv('load.csv')

数据预处理

如果原始数据不太标准,为避免后期学习过程太长,可以先对数据进行处理

使用模块

from sklearn import preprocessing

标准化

scaler = preprocessing.StandardScaler().fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

归一化

scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

正则化:

normalized = preprocessing.normalize(X, norm='...')

拆分数据集

为了查看训练出的模型的效果,需要将数据拆分为训练集和测试集,一部分用于训练另一部分用于验证

from sklearn.mode_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=1)

test_size 为测试集的比例,random_state 为随机种子


选择模型

举几个例子

from sklearn.svm import SVC	# 支持向量机
model = SVC(C=1.0, kernel=’rbf’, gamma=’auto’)

from sklearn import neighbors	# KNN
model = neighbors.KNeighborsClassifier(n_neighbors=5, n_jobs=1) # 分类
model = neighbors.KNeighborsRegressor(n_neighbors=5, n_jobs=1) # 回归

from sklearn.neural_network import MLPClassifier	# 神经网络
model = MLPClassifier(activation='relu', solver='adam', alpha=0.0001)

模型训练

sklearn 为所有模型提供了非常相似的接口,这样就使训练和验证过程有一个同一的方法

上面所有模型都以 model 变量表示,下面直接运用:

model.fit(X_train, y_train)	# 拟合模型
model.predict(X_test)	# 模型预测
model.get_params()	# 获得这个模型的参数
model.score(X_test, y_test)	# 为模型进行打分
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/180915.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • swagger常用注解[通俗易懂]

    一、swagger常用注解1、与模型相关的注解两个注解:@ApiModel:用在模型类上,对模型类做注释;@ApiModelProperty:用在属性上,对属性做注释2、与接口相关的注解六个注解:@Api:用在controller上,对controller进行注释;@ApiOperation:用在API方法上,对该API做注释,说明API的作用;

    2022年4月14日
    54
  • 13个免费资源网站,你想要的全都有!【各类宝藏资源,建议收藏】

    13个免费资源网站,你想要的全都有!【各类宝藏资源,建议收藏】前言前段时间,博主写了一篇文章关于如何用Python自制一款音乐播放器,有不少粉丝私信我说,这些高颜值UI设计模板都是从哪里找的,可以把网址分享出来嘛~当然没问题,今天就把多年收藏整理的各类资源网站全都分享出来,都是完全免费的“资源”网站,质量非常高,一起来看看吧!1.虫部落网址:https://search.chongbuluo.com功能特点:聚合搜索平台,集成了100多个搜索引擎,包含了搜问题、找图片、听音乐、下文档资料、查代码等等,各种需要这个网站都有。其中还包含了学术搜索引擎,非常适

    2022年7月17日
    76
  • python游戏代码200行_python 贪吃蛇

    python游戏代码200行_python 贪吃蛇python语言,总所周知是比较简单的,而且代码也不会像java那样多,下面就使用python的第三方库pygame进行开发一个贪吃蛇游戏。1.pygame的安装直接在cmd当中使用pipinstallpygame进行安装。或者在pycharm当中自动导入安装也OK2.全局变量的定义在代码当中会使用到很多这种变量的值,直接在最开始进行定义,后面获取变量即可W=600#屏幕宽H=400#高fps=12#帧率size=(W,H)ROW=

    2022年8月11日
    10
  • SVN服务器备份_svn服务器迁移

    SVN服务器备份_svn服务器迁移SVN数据备份、还原、适用情况、部分异常处理等介绍。介绍三种主要备份方式:hotcopy、dump以及svnsync。

    2022年10月2日
    1
  • Linux常用打包压缩命令

    Linux常用打包压缩命令简介Linux上常用的压缩/解压工具,介绍了zip、rar、tar的使用。文件打包和压缩Linux上的压缩包文件格式,除了Windows最常见的*.zip、*.rar、.7z后缀的压缩文件,还有.gz、.xz、.bz2、.tar、.tar.gz、.tar.xz、tar.bz2文件后缀名说明*.zipzip程序打包压缩的文件*.rarrar程序压…

    2022年5月6日
    37
  • android studio usb连接手机_android studio怎么用真机调试

    android studio usb连接手机_android studio怎么用真机调试    Android开发者第一步学习的应该就是真机调试了。但是很多初次接触androidstudio的同学还是不知道如何用真机调试,今天我就给大家写一个教程,希望可以帮到需要的人。   我使用的是一款国家电网定制机型。Android版本为:5.0.2。     1.先用usb线把你的测试手机连接到你的电脑上,并且安装驱动(由于机子型号不同,安装方式有差异,可以根据你的机子百度安装…

    2025年11月10日
    5

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号