数据挖掘工程师知识集锦

数据挖掘工程师知识集锦全栈工程师开发手册 作者 栾鹏 python 开发大全 系列文章 精品教程数据挖掘的技术过程 数据清理 消除噪音或不一致数据 数据集成 多种数据源可以组合在一起 数据选择 从数据库中提取与分析任务相关的数据 数据变换 数据变换或统一成适合挖掘的形式 如 通过汇总或聚集操作 数据挖掘 基本步骤 使用智能方法提取数据模式 模式评估 根据某种兴趣度度量 识


数据挖掘工程师知识集锦

全栈工程师开发手册 (作者:栾鹏)

python开发大全、系列文章、精品教程

数据挖掘的技术过程:

  1. 数据清理(消除噪音或不一致数据)
  2. 数据集成(多种数据源可以组合在一起)
  3. 数据选择(从数据库中提取与分析任务相关的数据)
  4. 数据变换(数据变换或统一成适合挖掘的形式;如,通过汇总或聚集操作)
  5. 数据挖掘(基本步骤,使用智能方法提取数据模式)
  6. 模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)
  7. 知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)。

这里写图片描述

这里写图片描述

可以挖掘的数据类型:

关系数据库、数据仓库、事务数据库、空间数据库、时间序列数据库、文本数据库和多媒体数据库。

关系数据库:是表的集合,每个表都赋予一个唯一的名字。每个表包含一组 属性(列或字段),并通常存放大量 元组(记录或行)。关系中的每个元组代表一个被唯一关键字标识的对象,并被一组属性值描述。

事务数据库:由一个文件组成,其中每个记录代表一个事务。通常,一个事务包含一个唯一的事务标识号(trans_ID),和一个组成事务的项的列表(如,在商店购买的商品)

数据抽样:

  1. 抽样方法
    有许多抽样技术,但是这里只介绍少数最基本的抽样技术和它们的变形。最简单的抽样是简单随机抽样(simple random sampling)。对于这种抽样,选取任何特定项的概率相等。随机抽样有两种变形(其他抽样技术也一样):(1) 无放回抽样–每个选中项立即从构成总体的所有对象集中删除;(2) 有放回抽样–对象被选中时不从总体中删除。在有放回抽样中,相同的对象可能被多次抽出。当样本与数据集相比相对较小时,两种方法产生的样本差别不大。但是,对于分析,有放回抽样较为简单,因为在抽样过程中,每个对象被选中的概率保持不变。
    当总体由不同类型的对象组成,每种类型的对象数量差别很大时,简单随机抽样不能充分地代表不太频繁出现的对象类型。当分析需要所有类型的代表时,这可能出现问题。例如,当为稀有类构建分类模型时,样本中适当地提供稀有类是至关重要的,因此需要提供具有不同频率的感兴趣的项的抽样方案。分层抽样(stratified sampling)就是这样的方法,它从预先指定的组开始抽样。在最简单的情况下,尽管每组的大小不同,但是从每组抽取的对象个数相同。另一种变形是从每一组抽取的对象数量正比于该组的大小。
    例2.8 抽样与信息损失 一旦选定抽样技术,就需要选择样本容量。较大的样本容量增大了样本具有代表性的概率,但也抵消了抽样带来的许多好处。反过来,使用较小容量的样本,可能丢失模式,或检测出错误的模式。图2-9a显示包含8 000个二维点的数据集,而图2-9b和图2-9c显示从该数据集抽取的容量分别为2 000和500的样本。该数据集的大部分结构都出现在2 000个点的样本中,但是许多结构在500个点的样本中丢失了。


数据预处理

分箱法:

可以挖掘的模式类型:

挖掘频繁模式、关联和相关性

用于预测分析的分类与回归

聚类分析

离群点分析

使用的技术

这里写图片描述

面向的应用类型

商务智能、web搜索引擎

在挖掘中需要注意的东西

源数据特征方面:

数据间相似性和相异性的度量:

数据预处理方面(清洗、集承、归约、变换):

这里写图片描述

数据结果方面:

数据挖掘算法

分类器与聚类算法不同。聚类算法是非监督算法,只是对一群输入对象进行分组,每组属于什么类别是不知道的。而分类器是在没有任何数据前就已经定好了拥有哪些类。分类器是监督算法。对一批已知所属分类的数据集进行统计训练。然后再对新来的数据进行判定属于哪个分类。

分类过程概述:首先有一批已知分类的数据集。对每个输入对象提取特征,根据输入对象的特征属性和输入对象的所属分类,计算分类与特征属性之间的概率关系,以此来实现样本的训练。当对新的输入对象进行预测所属分类时,提取新输入对象的特征,根据训练好的概率,判断输入对象属于每个分类的概率。

python机器学习算法

参考:https://blog.csdn.net/luanpeng/article/details/

python机器学习库教程

参考:https://blog.csdn.net/luanpeng/article/details/

分类模型的评判

用什么评估:

混淆矩阵(Confusion Matrix)分析

怎么评估:

交叉验证

评估结果:

一个模型在训练数据上能够获得比其他模型更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个模型出现了过拟合的现象。出现这种现象的主要原因是训练数据中存在噪音或者训练数据太少。

例如下图

这里写图片描述

可以看出在a中虽然完全的拟合了样本数据,但对于b中的测试数据分类准确度很差。而c虽然没有完全拟合样本数据,但在d中对于测试数据的分类准确度却很高。过拟合问题往往是由于训练数据少等原因造成的。

由测量的样本数据,估计一个假定的模型/函数。根据拟合的模型是否合适?可分为以下三类:

欠拟合:

这里写图片描述

合适的拟合:

这里写图片描述

过拟合:

这里写图片描述

大数据工程师基技能图谱:

这里写图片描述

在博客的文章中我们会尽量给出数据中所设计的技术教程。

其中数据可视化中,我们给出了echart教程http://blog.csdn.net/luanpeng/article/details/

python中给出numpy和pandas库的使用

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/203249.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月19日 下午10:15
下一篇 2026年3月19日 下午10:15


相关推荐

  • eclipse 自动补全提示会卡死[通俗易懂]

    eclipse 自动补全提示会卡死[通俗易懂]这是Eclipse3.6版本的特有问题,想彻底解决此问题的话,还是建议换为3.5/3.4;在保持版本不变的前提下,可以按如下方法优化下:解决办法:1.找到你的JDK安装目录下的src.zip文件;2.打开eclipse:Window菜单->Preference->Java->InstalledJREs;3.在列表中选择你eclipse正在使用的JRE,然后Edit;

    2022年10月15日
    4
  • Android触摸事件_android设置按钮点击事件

    Android触摸事件_android设置按钮点击事件在Android系统中,手势的识别是通过.OnGestureListener接口来实现的,利用,摸屏的Fling、Scroll等方法可以进行滑动或翻页效果的实现;触摸屏相关的事件,是通过onTouchListener来实现的。我们可以通过MotionEvent的getAction()方法来获取Touch事件的类型,包括ACTION_DOWN,ACTION_MOVE,ACTION_UP,

    2025年9月16日
    10
  • grep命令的使用

    grep是UNIX和LINUX中使用最广泛的命令之一。grep允许对文本文件进行模式查找。如果找到匹配模式,grep打印包含模式的所有行。grep支持基本正则表达式,也支持其扩展集。grep有三种变

    2021年12月24日
    48
  • 编程打开控制面板及各项

    编程打开控制面板及各项程序打组件服务C:\WINDOWS\system32\Com\comexp.msc注销程序路径C:\WINDOWS\system32\logoff.exe智能ABC的用户词库位置C:\DocumentsandSettings\用户名\ApplicationData\Microsoft\IME\winabc造字程序的路径C:\WINDOWS\system32\eudcedit.exe语言栏显示…

    2022年7月21日
    17
  • AI Agent(智能体)行业专题报告:从技术概念到场景落地

    AI Agent(智能体)行业专题报告:从技术概念到场景落地

    2026年3月15日
    2
  • flowable 流程引擎总结

    flowable 流程引擎总结最近公司使用Flowable开发了自己的OA系统,因此对Flowable的相关内容进行如下总结一、Flowable是什么目前最新版是Flowable6.4.2(2019年07月26日)官网地址:https://www.flowable.org/github地址:https://github.com/flowableFlowable是一个使用Java编写的轻量级业务流程引擎,使用ApacheV2license协议开源。2016年10月,Activiti工作流引.

    2022年10月20日
    7

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号