softmax为什么使用指数函数?(最大熵模型的理解)

softmax为什么使用指数函数?(最大熵模型的理解)

 

解释1:

他的假设服从指数分布族

解释2:

最大熵模型,即softmax分类是最大熵模型的结果。

关于最大熵模型,网上很多介绍:

在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,其原则是承认已知事物(知识),且对未知事物不做任何假设,没有任何偏见。

所以,最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

参考网址:

https://blog.csdn.net/xg123321123/article/details/54286514

对于输入x,判断类别y

如果使他满足最大熵模型,则条件概率满足公式:

<span>softmax为什么使用指数函数?(最大熵模型的理解)</span>

其中wi(i=1,2,...m)wi(i=1,2,…m)为拉格朗日乘子。如果大家也学习过支持向量机,就会发现这里用到的凸优化理论是一样的,接着用到了拉格朗日对偶也一样。

最大熵模型这里引入了一个特征函数的概念:

可以定义为:

<span>softmax为什么使用指数函数?(最大熵模型的理解)</span>

为什么需要特征函数?比较容易理解的是,特征函数其实是一个用户接口,我们可以通过定制特征函数来控制模型的训练。

注意,f(x,y)必须是实数函数,而最大熵模型一般要求这个函数是一个二值函数。也就是说通过这个特征函数把x和y之间千丝万缕的关系转化成了一个实数值。

 

至此,我们可以看到softmax的表达式和最大熵模型的最优求解的表达式形式上是相似的,如果我们用θx表达最大熵中Wf(x,y)就得到了softmax的表达式。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/119462.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • java json对象转map_java引用对象

    java json对象转map_java引用对象1.由json字符串转换成Map对象如json字符串:{“contend”:[{“bid”:“22”,“carid”:“0”},{“bid”:“22”,“carid”:“0”}],“result”:100,“total”:2}下面直接附代码://json字符串Stringjsondata=”{\”contend\”:[{\”bid\”:\”22\”,\”carid\”:\”0\”},{\”bid\”:\”22\”,\”carid\”:\”0\”}],\”result\”:100,\”total\”

    2022年8月23日
    8
  • SQL更改表字段为自增标识

    下面是SQL语句:推荐:http://www.cnblogs.com/roucheng/p/mssqlindex.html

    2021年12月25日
    43
  • Java异常类型及处理

    Java异常类型及处理前言:Java异常,大家都很熟悉。但是对于具体怎么分类的,JVM对其怎么处理的,代码中怎么处理的,应该怎么使用,底层怎么实现的等等,可能就会有些不是那么清晰。本文基于此详细捋一下异常类型,实现以及使用时应怎么注意。一、异常实现及分类1.先看下异常类的结构图上图可以简单展示一下异常类实现结构图,当然上图不是所有的异常,用户自己也可以自定义异常实现。上图已经足够帮我们解释和理解异常…

    2022年5月19日
    37
  • phpstorm 2021 3月份 激活码破解方法

    phpstorm 2021 3月份 激活码破解方法,https://javaforall.net/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

    2022年3月15日
    41
  • 汇川plc编程实例梯形图_plc梯形图100实例详解

    汇川plc编程实例梯形图_plc梯形图100实例详解原文链接:汇川技术小型PLC梯形图编程系列教程(一):小型PLC型号H123U简介&nbsp;&nbsp;&nbsp;&nbsp;本人目前一直玩的都是汇川技术自己的PLC、伺服、变频器等等。所以本系列小型PLC梯形图编程教程,就以汇川技术的小型PLC作为平台,汇川的3种小型PLC-H1U,H2U,H3U。编程指令基本一致,H3U更高级一点,3U程序存储可以达到64k步,1k=1000步…

    2025年10月22日
    3
  • TiDB 分布式数据库搭建[通俗易懂]

    TiDB 分布式数据库搭建

    2022年3月5日
    102

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号