数据挖掘笔记——概念学习

数据挖掘笔记——概念学习nbsp nbsp nbsp nbsp 概念学习可近似为分类问题 例如一个小孩子看过几种鸟的图片 如果再给他一张另外一种没见过的鸟的图片 他还是可以认出这是只鸟 换句话说他已经建立了 鸟 这一概念 进而根据一些特征进行判断是或不是属于这个概念 一 概念和概念学习的定义 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp 概念是在一个更大的集合里面定义一个对象或者事物的子集 或者说是一个从更大的集合里面学到的布尔函数 nbsp nbsp nbsp nbsp nbsp nbsp nbsp nbsp 概念学习 指自动地给出概念的定义

    概念学习可近似为分类问题,例如一个小孩子看过几种鸟的图片,如果再给他一张另外一种没见过的鸟的图片,他还是可以认出这是只鸟,换句话说他已经建立了“鸟”这一概念,进而根据一些特征进行判断是或不是属于这个概念。

一、概念和概念学习的定义

        概念是在一个更大的集合里面定义一个对象或者事物的子集,或者说是一个从更大的集合里面学到的布尔函数。

        概念学习,指自动地给出概念的定义。也就是说概念学习是从训练数据中学到一个符合训练数据的二元函数。从机器学习的角度,也可以说概念学习是一个在假设空间中的假设搜索问题。

例子:

概念:“days on which my friend enjoys water sports”

学习任务:从其他属性里面预测enjoysport的值

数据挖掘笔记——概念学习

假设是属性的合取,是一个约束向量,例如

        属性的取值有三种,1)任意取值都可以
   2)其中某个值,注意是某一个值而不是多值的组合,例如

  3)任意取值都不可以
数据挖掘笔记——概念学习


实例的项集:指属性名。例如:

要学习的概念叫做目标概念:即enjoysport的取值c:X->{0,1}

训练数据:实例x的集合和目标概念的值即

概念学习过程:在假设空间中寻找一个合适的假设,h:X->{0,1},对任意的x,使得h(x)=c(x)

总结一下:

给出:实例X(属性集合),目标函数c{0,1},假设空间H,训练数据

求:合适的 数据挖掘笔记——概念学习

注:数据挖掘笔记——概念学习

1.属性没有析取,只有合取,例如如果第一个实例Sky取Sunny,那么假设中该项取Sunny,此时再有一个实例Sky取Cloudy,此时假设该项将改为<?>,而不是

2.对于上式案例,不同的实例有3*2*2*2*2*2=96

    假设空间:句法上的不同假设(每个属性包含
和<数据挖掘笔记——概念学习>)有 5*4*4*4*4*4=5120

                      语义上的不同假设(所有含数据挖掘笔记——概念学习都看作一个假设即不可行)有1+4*3*3*3*3*3=973

二、搜索方法

1.find-S算法

初始假设先设为最具体的假设:<数据挖掘笔记——概念学习,数据挖掘笔记——概念学习,数据挖掘笔记——概念学习,数据挖掘笔记——概念学习,数据挖掘笔记——概念学习,数据挖掘笔记——概念学习>

训练

For each positive training instance x For each attribute constraint ai ∈ h If the constraint ai ∈ h is satisfied by x then do nothing else replace ai ∈ h by the next more general constraint that is satisfied by x Output hypothesis 

例子

数据挖掘笔记——概念学习

评价:find-S只考虑正样本(目标概念为1)不考虑负样本

2.List-Then-Eliminate

   正负训练样本都考虑进来,找到的是一个假设的集合,要表示这个假设集合只需要找到其假设边界即可。

数据挖掘笔记——概念学习

例如上图中最上层的即为假设集合的最具体边界,记为S,最下层即为集合的最一般边界,记为GG

初始化:G <- { 
  } S <- {<,,,,,>} 遍历训练集 d = < x, c (x) > If d 是个正例 对G:移出G中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设 
对S:移出S中与d不一致的所有假设;如果一个假设h与d一致且G中有比h更一般的假设,那么将该假设加入S
If d 是个负例 对S:移出S中与d不一致(即假设得到的概念与样本真实概念取值不符)的所有假设 对G:移出G中与d不一致的所有假设;如果一个假设h与d一致且S中有比h更具体的假设,那么将该假设加入G

      上面的算法不太好理解,大体上可以想象一下先画出假设集合的两界G和S,遇到正例调整S使得S更一般化,遇到负例调整G使得G能具体化,调整之后两边界就从两头慢慢接近。

数据挖掘笔记——概念学习

数据挖掘笔记——概念学习

学习到一个假设集合如何使用呢:

数据挖掘笔记——概念学习

三、归纳偏置

       上面的描述还存在一个问题,由于假设空间只能合取,那么可能会出现假设不存在的情况,例如下面例子:

x1 = 
  
    + x2 = 
   
     此时的假设S : { ?, Warm, Normal, Strong, Cool, Change> } x3 = 
    
      - 
     
    
  

       这时不存在同时满足x1x2x3的假设,要想找到满足三样本的假设引入无偏学习,无偏假设中一定会存在满足的假设(一般无偏假设为样本的析取)。即上例中假设如下:

S : { Sunny, Warm, Normal, Strong, Cool, Change> } ∨{Cloudy, Warm, Normal, Strong, Cool, Change> }

 既然一定会包含样本,为什么不一直使用无偏假设?因为无偏假设不具有泛化性,它只是样本的简单析取,无法形成某种模式进行判断。

   最后归纳偏置是什么?网友Alex267 讲的很好,这里直接引用一下:“我觉得无偏学习有点类似于枚举法,如果我们没见过那个实例就无法对他进行分类,而有偏学习则相当于得到一个函数关系式,我们可以根据函数式去预测一个实例的类别,而归纳偏置就是函数关系式遵守的规则,比如斜率,截距之类。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/225512.html原文链接:https://javaforall.net

(0)
上一篇 2026年3月17日 上午9:09
下一篇 2026年3月17日 上午9:10


相关推荐

  • nginx和apache的区别[通俗易懂]

    nginx和apache的区别[通俗易懂]简单的说apachehttpd和nginx都是web服务器,但两者适应的场景不同,也就是两者专注于解决不同的问题。apachehttpd:稳定、对动态请求处理强,但同时高并发时性能较弱,耗费资源多。nginx:高并发处理能力强、擅长处理静态请求、反向代理、均衡负载。在这篇文章详细列出了apache与nginx的13个异同点,下面我们来一一分析其原理。1、nginx相对于apache的优点:轻量级,同样起web服务,比apache占用更少的内存及资源,抗并发,nginx处理请求是异

    2022年6月13日
    47
  • Latex换行和空格

    Latex换行和空格\\表示换行\quad表示大概1.5个英文字母宽度的空格\qquad表示大概3个英文字母宽度的空格

    2022年5月15日
    89
  • ExecuteNonQuery()返回值问题[通俗易懂]

    ExecuteNonQuery()返回值问题[通俗易懂]1.使用update,insert,delete等对数据库中表行进行操作的时候,返回值为所操作的行数(若该条语句未作用在任何一行,则返回0)2.使用alter添加表空间数据文件,create创建表,drop删除表等操作时返回值为03.数据库连接字符串http://blog.csdn.net/cddchina/article/details/46046

    2025年10月31日
    2
  • python字典详解_python字典取值

    python字典详解_python字典取值字典字典的key和value一一对应的,字典是可变的,也是有序的(python3.6版本开始字典有序),可迭代的增加元素当key不存在时,直接赋值a={"status"

    2022年7月29日
    16
  • acwing-371. 牧师约翰最忙碌的一天(2-SAT)「建议收藏」

    acwing-371. 牧师约翰最忙碌的一天(2-SAT)「建议收藏」牧师约翰在 9 月 1 日这天非常的忙碌。有 N 对情侣在这天准备结婚,每对情侣都预先计划好了婚礼举办的时间,其中第 i 对情侣的婚礼从时刻 Si 开始,到时刻 Ti 结束。婚礼有一个必须的仪式:站在牧师面前聆听上帝的祝福。这个仪式要么在婚礼开始时举行,要么在结束时举行。第 i 对情侣需要 Di 分钟完成这个仪式,即必须选择 Si∼Si+Di 或 Ti−Di∼Ti 两个时间段之一。牧师想知道他能否满足每场婚礼的要求,即给每对情侣安排Si∼Si+Di 或 Ti−Di∼Ti,使得这些仪式的时

    2022年8月9日
    6
  • 简述android触屏事件的处理_移动端touch事件有哪些

    简述android触屏事件的处理_移动端touch事件有哪些本文介绍了Android系统中触屏事件的相关知识,包括触屏事件的产生,分类,触屏事件序列,以及触屏事件在代码中的表示方式。了解这些内容,是理解Android触屏事件的分发,拦截和处理的基础。

    2025年10月19日
    4

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号