数据挖掘项目一般多少钱_预测类数据挖掘项目

数据挖掘项目一般多少钱_预测类数据挖掘项目数据挖掘项目(一)第一次实践数据挖掘。虚心学习。基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析首先要对数据进行评估,数据的大小来决定使用工具。本数据为金融数据,目的为预测贷款用户是否会逾期。导入数据importpandasaspdimportnumpyasn…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

数据挖掘项目(一)


第一次实践数据挖掘。虚心学习。


基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析


首先要对数据进行评估,数据的大小来决定使用工具。


本数据为金融数据,目的为预测贷款用户是否会逾期。

  1. 导入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
  1. 删除无关的特征
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)
data1.info()
  1. 缺省值处理(以下参考88080917代码)
print(df.isnull().sum())
count=0
for i in range(85):
    if df.isnull().sum()[i]>250:
        count=count+1
print(count)
print(max(fd.isnull().sum()))

  1. 剔除,填充,合并
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = True)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing
CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 
CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])

data3.reset_index(drop=True, inplace=True)
data2.reset_index(drop=True, inplace=True) 
CityDataFrame.reset_index(drop=True, inplace=True) 
dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/197076.html原文链接:https://javaforall.net

(0)
上一篇 2025年9月14日 下午2:01
下一篇 2025年9月14日 下午2:43


相关推荐

  • android线程间通信的几种方法_Android进程间和线程间通信方式

    android线程间通信的几种方法_Android进程间和线程间通信方式进程:是具有一定独立功能的程序关于某个数据集合上的一次运行活动,进程是系统进行资源分配和调度的一个独立单位。线程:是进程的一个实体,是CPU调度和分派的基本单位,它是比进程更小的能独立运行的基本单位。线程自己基本上不拥有系统资源,只拥有一些在运行中必不可少的资源(如程序计数器,一组寄存器和栈),但是它可与同属一个进程的其他的线程共享进程所拥有的全部资源。区别:(1)、一个程序至少有一个进程,一个进…

    2026年4月17日
    6
  • linux软件_LINUX教程

    linux软件_LINUX教程常用指令ls      显示文件或目录   -l     列出文件详细信息l(list)   -a     列出当前目录下所有文件及目录,包括隐藏的a(all)mkdir    创建目录   -p     创建目录,若无父目录,则创建p(parent)cd       切

    2026年4月16日
    6
  • Windows 自己主动关机命令 shuntdown

    Windows 自己主动关机命令 shuntdown

    2021年12月1日
    64
  • leetcode二叉树的层次遍历_完全二叉树的中序序列

    leetcode二叉树的层次遍历_完全二叉树的中序序列LeetCode二叉树中序遍历1.1题目描述给定一个二叉树的根节点root,返回它的中序遍历。1.2示例示例:输入:root=[1,null,2,3]输出:[1,3,2]2.1解题2.1.1解题方法:递归二叉树的中序遍历方法:按照“左(子树)→中→右”顺序遍,可以使用递归方式进行遍历Java版解题/***Definitionforabinarytreenode.*publicclassTreeNode{*intval

    2025年11月14日
    3
  • promptings是什么意思啊(think again)

    原文:http://windowsxp.mvps.org/890859.htm 当你通过Web方式的WindowsUpdates或者Windows自动更新安装完KB890859补丁后,系统依然不断提示此更新未安装,不断弹出安装对话框,可能的原因是一个或者多个主要的Windows文件未能成功地被此Hotfix更新或者覆盖导致,需要校验此更新是否成功,打开%WINDIR%/system32目录,

    2022年4月14日
    57
  • pycharm连接mysql数据库操作「建议收藏」

    pycharm连接mysql数据库操作「建议收藏」pycharm怎么能连接到数据库呢?打开pycharm,然后选择右侧的database 然后选择添加数据来源,选择mysql ,然后再右侧输入host地址 ,database是你数据库的名称,还有你远程登陆的用户和密码,这里要提示下驱动的问题,最下面需要添加驱动,我这里已经添加过了,输入的账户和密码没有问题,可以进行testConnection进行验证连接成功没有问题就可…

    2022年8月29日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号