数据挖掘项目一般多少钱_预测类数据挖掘项目

数据挖掘项目一般多少钱_预测类数据挖掘项目数据挖掘项目(一)第一次实践数据挖掘。虚心学习。基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析首先要对数据进行评估,数据的大小来决定使用工具。本数据为金融数据,目的为预测贷款用户是否会逾期。导入数据importpandasaspdimportnumpyasn…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

数据挖掘项目(一)


第一次实践数据挖掘。虚心学习。


基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析


首先要对数据进行评估,数据的大小来决定使用工具。


本数据为金融数据,目的为预测贷款用户是否会逾期。

  1. 导入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
  1. 删除无关的特征
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)
data1.info()
  1. 缺省值处理(以下参考88080917代码)
print(df.isnull().sum())
count=0
for i in range(85):
    if df.isnull().sum()[i]>250:
        count=count+1
print(count)
print(max(fd.isnull().sum()))

  1. 剔除,填充,合并
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = True)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing
CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 
CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])

data3.reset_index(drop=True, inplace=True)
data2.reset_index(drop=True, inplace=True) 
CityDataFrame.reset_index(drop=True, inplace=True) 
dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/197076.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • Java内存管理

    Java内存管理

    2020年11月12日
    199
  • mybatis返回值为map类型时怎么处理_构造函数不能有返回类型

    mybatis返回值为map类型时怎么处理_构造函数不能有返回类型最有用到mybatis返回一个map结果集,然后就针对性的在网上找了一些相关大牛的总结:1.mybatis返回map结果集-红尘中人·杨哥-博客园2.MyBatis返回Map|码农网然后经过自己的测试终于可以应用实际业务中1、如果你确定返回的数据只有一条,你可以这样整xml中:<selectid=”searchncomedateByInvestID”resultMap=”java.util.HashMap”>selectt1.invest.

    2022年10月4日
    2
  • WSAStartup函数的用途

    我们先来看看WSAStartup函数的原型intPASCALFARWSAStartup(WORDwVersionRequired,LPWSADATAlpWSAData);    可以这么理解,第一个参数提供必要信息(为了加载套接字库),第二个参数获取相关信息(获取相关信息)。看看下面的程序就明白了(其中wVersion比较重要):          WSACl

    2022年4月7日
    55
  • 如何成为大数据架构师_业务架构师和数据架构师

    如何成为大数据架构师_业务架构师和数据架构师要想成为架构师这几点你必须关注!架构不是一个职业而是一种能力,每一种架构师只不过是在不同的领域里面使用不同的技术,没有什么可对比,就好比如你问一个篮球明星和一个足球明星有什么区别一样!01架构师需要考虑四个问题1.确定系统干什么不干什么,也就是说系统的边界在哪里?2.确定架构内部的模块与模块之间的关系,以及模块与外部之间的关系是什么?3.架构确定以后,有能力去指导…

    2025年5月28日
    6
  • Java知多少(53)使用Java创建自己的异常子类

    Java知多少(53)使用Java创建自己的异常子类

    2021年9月6日
    63
  • 图像质量评价方法PSNR+SSIM&&评估指标SROCC,PLCC

    图像质量评价方法PSNR+SSIM&&评估指标SROCC,PLCCupdate:2018-04-07今天发现ssim的计算里面有高斯模糊,为了快速计算,先对每个小块进行计算,然后计算所有块的平均值。可以参考源代码实现,而且代码实现有近似的在里面!matlab中中图

    2022年8月3日
    16

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号