欠采样与过采样方法

全栈程序员-站长 • 2026年3月17日下午9:01 • 未分类 • 阅读 3

欠采样与过采样方法使用 SMOTE 过采样时应先切分训练集和验证集再对训练集进行过采样否则将会导致严重的过拟合 https beckernick github io oversampling modeling 使用方法 X train X val y train y val train test split train df predictors train df target

1、使用SMOTE进行过采样

使用方法：

X_train, X_val, y_train, y_val = train_test_split(train_df[predictors], train_df[target], test_size=0.15, random_state=1234)

from imblearn.over_sampling import SMOTE oversampler = SMOTE(ratio='auto', random_state=np.random.randint(100), k_neighbors=5, m_neighbors=10, kind='regular', n_jobs=-1) os_X_train, os_y_train = oversampler.fit_sample(X_train,y_train)

from collections import Counter print('Resampled dataset shape {}'.format(Counter(os_y_train)))

注意，过采样之后就不能直接把Pandas.DataFrame数据传入模型，特征名称已改变

model=XGBClassifier( learning_rate =0.1, n_estimators=1000, max_depth=5, min_child_weight=1, gamma=0, subsample=0.8, colsample_bytree=0.8, objective= 'binary:logistic', nthread=-1, scale_pos_weight=1, seed=27 ) model.fit( os_X_train, os_y_train, eval_set=[(X_val.values, y_val)], early_stopping_rounds=3, verbose=True, eval_metric='auc' )

2、欠采样，也叫下采样

def down_sample(df): """ 欠采样 """ df1 = df[df['acc_now_delinq'] == 1] df2 = df[df['acc_now_delinq'] == 0] df3 = df2.sample(frac=0.1) return pd.concat([df1, df3], ignore_index=True)

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请联系我们举报，一经查实，本站将立刻删除。

发布者：全栈程序员-站长，转载请注明出处：https://javaforall.net/220194.html原文链接：https://javaforall.net

赞 (0)

0 0

关于作者

全栈程序员-站长

133.5K 文章

3 粉丝

本网站汇聚当前互联网主流语音，持续更新，欢迎关注公众号“全栈程序员社区”

未来新一代计算机发展趋势有,未来计算机的发展趋势

上一篇 2026年3月17日下午9:01

SOA 案例研究(转)

下一篇 2026年3月17日下午9:01

深入解析结构化异常处理(SEH) – by Matt Pietrek

深入解析结构化异常处理(SEH) – by Matt Pietrek深入解析结构化异常处理 SEH byMattPietre

全栈程序员-站长
2026年3月19日
2
元宝

全链路开源+PBR物理渲染！Hunyuan3D-2.1本地部署教程：重新定义工业级3D生成

全链路开源+PBR物理渲染！Hunyuan3D-2.1本地部署教程：重新定义工业级3D生成

全栈程序员-站长
2026年3月13日
2
软件著作权人享有的权利

软件著作权人享有的权利2019 独角兽企业重金招聘 Python 工程师标准 gt gt gt

全栈程序员-站长
2026年3月17日
2
extjs_03_grid(添加数据)

extjs_03_grid(添加数据)

全栈程序员-站长
2022年1月8日
62
C# 中使用正则表达式 Regex.Matches方法的几个应用[转]

C# 中使用正则表达式 Regex.Matches方法的几个应用[转]

全栈程序员-站长
2021年11月17日
54
华为s2700交换机配置vlan_同一交换机vlan互通

华为s2700交换机配置vlan_同一交换机vlan互通原标题：华为S5700系列配置实例华为S5700系列配置一、#telnet远程登录步骤一：创建VLAN，并配置交换机VLAN的管理IP#创建vlansystem-view[Quidway]vlanxxx(vlanID)[Quidway-vlanID]quit#配置管理IP[Quidway]interfacevlanID[Quidway-VlanifID]ipaddress…

全栈程序员-站长
2026年1月26日
5

发表回复

关注全栈程序员社区公众号