数据挖掘项目一般多少钱_预测类数据挖掘项目

数据挖掘项目一般多少钱_预测类数据挖掘项目数据挖掘项目(一)第一次实践数据挖掘。虚心学习。基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析首先要对数据进行评估,数据的大小来决定使用工具。本数据为金融数据,目的为预测贷款用户是否会逾期。导入数据importpandasaspdimportnumpyasn…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

数据挖掘项目(一)


第一次实践数据挖掘。虚心学习。


基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析


首先要对数据进行评估,数据的大小来决定使用工具。


本数据为金融数据,目的为预测贷款用户是否会逾期。

  1. 导入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
  1. 删除无关的特征
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)
data1.info()
  1. 缺省值处理(以下参考88080917代码)
print(df.isnull().sum())
count=0
for i in range(85):
    if df.isnull().sum()[i]>250:
        count=count+1
print(count)
print(max(fd.isnull().sum()))

  1. 剔除,填充,合并
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = True)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing
CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 
CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])

data3.reset_index(drop=True, inplace=True)
data2.reset_index(drop=True, inplace=True) 
CityDataFrame.reset_index(drop=True, inplace=True) 
dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/197076.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vim查找指令

    vim查找指令一、vi查找:当你用vi打开一个文件后,因为文件太长,如何才能找到你所要查找的关键字呢?在vi里可没有菜单-〉查找,不过没关系,你在命令模式下敲斜杆(/)这时在状态栏(也就是屏幕左下脚)就出现了“/”然后输入你要查找的关键字敲回车就可以了。如果你要继续查找此关键字,敲字符n就可以继续查找了。值得注意的是“/”是向下查找,而“?”是向上查找,而在键盘定义上“?”刚好是“/”的上档符。二、vi替换:vi/vim中可以使用:s命令来替换字符串以前只会使用一种格式来全文替换,今天发现该命令有很多种写法

    2022年6月29日
    51
  • kettle工具使用一二三[通俗易懂]

    kettle工具使用一二三[通俗易懂]1:关于ID生成器。如果一个转化流程里的两个分支分别使用了GenerateID组件,请注意“计数器名称”,这个很重要。1)如果改名字不同,则最总汇总结果中的id是会分别生成的,也就是说会出现重复的id。2)如果名字相同,最终结果中id是不会重复的。2:关于序列生成器首先抱歉,上面所说的“GenerateID“组件,其实指的就是序列生成器。kettle5.3中包含两个序列生成器组件,一个…

    2022年10月12日
    2
  • 宽带猫改成桥接模式_电信光猫路由模式

    宽带猫改成桥接模式_电信光猫路由模式目前大多数家庭宽带默认是在光猫直接拨号上网的,如果你想要改为自己的路由器拨号比较麻烦,需要光猫的超级管理员账号才可以进后台修改,但是光猫的超级管理员账号会被运营商远程修改,一般也不会告诉用户,最简单的方式就是打电话给装维师傅,让他帮你把光猫修改为桥接模式,但是最近好多地方的运营商不给修改了,理由是目前的光猫都是智能光猫,业务自动下发的,无法修改,今天就教你修改光猫为桥接模式,而且不让运营商远程修改超级管理员密码,下面以移动光猫吉比特HG6543C4为例演示,其他光猫同理。1.找到光猫背面的设备i信息(管理地

    2022年10月8日
    3
  • QT(C++)面试总结

    QT(C++)面试总结参考博客QT信号槽机制的优缺点(1)问题:为什么Qt使用信号与槽机制而不是传统的回调函数机制进行对象间的通信呢?回调函数的本质是“你想让别人的代码执行你的代码,而别人的代码你又不能动”这种需求下产生的。回调函数是函数指针的一种用法,如果多个类都关注某个类的状态变化,此时需要维护一个列表,以存放多个回调函数的地址。对于每一个被关注的类,都需要做类似的工作,因此这种做法效率低,不灵活。(2)解决办法Qt使用信号与槽机制来解决这个问题,程序员只需要指定一个类含有哪些信号函数、哪些槽函数,Qt会处理信

    2022年6月25日
    24
  • restsharp.dll_restbed

    restsharp.dll_restbed一、RestSharp简绍RestSharp是一个轻量的,不依赖任何第三方的组件或者类库的Http的组件。RestSharp具体以下特性;1、支持.NET3.5+,Silverlight4,WindowsPhone7,Mono,MonoTouch,MonoforAndroid,CompactFramework3.5等  2、通过NuGet方便引入到任何项目(In…

    2025年10月9日
    2

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号