深度学习之softmax损失函数[通俗易懂]

深度学习之softmax损失函数[通俗易懂]深度学习之softmax损失函数归一化向量的每个元素均大于0小于1,且和为1,所以可以将其看作归属各个类别的概率。损失函数可以看作真实类别的负对数概率,希望其越小。importnumpyasnpD=784K=10N=128#scores是分值矩阵,每行代表一个样本scores=np.random.randn(N,K)print(scores.shape)#样本标签y=np.random.randint(K,size=N)print(y.shape)#指数化分值矩

大家好,又见面了,我是你们的朋友全栈君。

深度学习之softmax损失函数

  • 归一化向量的每个元素均大于0小于1,且和为1 ,所以可以将其看作归属各个类别的概率。
  • 损失函数可以看作真实类别的负对数概率,希望其越小。
  • 优化:基于模型得到分值向量,根据损失函数评价参数的好坏,寻找最优的参数,是损失最小。
  • 优化方法:梯度下降法,牛顿法

机器学习一般包含两类参数:超参数和参数。超参数的数目通常不多,在10以内; 参数的数目可能很多,如卷积神经网络中有近千万个参数(权重)。曲线拟合中,方程的次数就是超参数,多项式的系数是参数。这两种参数的调参方式不同,超参数的取值一般是人工设定的,参数值是根据参数优化算法自动寻优的。目前出现了很多超参数自动优化算法。

import numpy as np

D=784 # 数据维度
k=10 # 类别数
N=128 # 样本数量

#scores是分值矩阵,每行代表一个样本
scores=np.random.randn(N,K)
print(scores.shape)
#样本标签
y = np.random.randint(K,size=N)
print(y.shape)
#指数化分值矩阵
exp_scores=np.exp(scores)
#得到样本归一化系数, 对每一行求和
# axis = 0,代表同一列
# axis = 1,代表同一行
exp_scores_sum=np.sum(exp_scores,axis=1)
print(exp_scores_sum.shape)
#样本真实类别的归一化分值, 矩阵索引方式
correct_probs=exp_scores[range(N),y]/exp_scores_sum
print(correct_probs.shape)
#负对数损失函数
correct_logprobs=-np.log(correct_probs)
print(correct_logprobs.shape)
#平均损失函数
data_loss=np.sum(correct_logprobs)/N
print(data_loss.shape)
(128, 10)
(128,)
(128,)
(128,)
(128,)
()
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/153130.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • vue2 renrne 引入tinymce[通俗易懂]

    vue2 renrne 引入tinymce[通俗易懂]tinymce1.引入和原始使用下载地址:https://www.tiny.cloud/get-tiny/self-hosted/语言包地址:https://www.tiny.clou

    2022年7月2日
    79
  • qq群泄露数据库_QQ群聊天记录全部人都可以看到吗

    qq群泄露数据库_QQ群聊天记录全部人都可以看到吗目录:基本介绍漏洞截图迅雷下载截图百度云下载截图       这年头,用户资料都可以论斤卖了,无论是快递单上的用户信息,还是酒店的开房记录,还是网站的登陆密码,只要黑客想要,都能手到擒来。这不,根据乌云的报告,18号下午QQ群的用户资料被大量泄漏了!据乌云平台上漏洞提交者“路人甲@乌云”称,该漏洞可能是腾讯早期的漏洞被利用抓取,相关数据可以

    2022年9月27日
    5
  • matlab自带的插值函数interp1的四种插值方法

    matlab自带的插值函数interp1的四种插值方法分段线性插值,临近插值,球面插值,三次多项式插值!!

    2022年6月14日
    29
  • 使用Python对股票数据进行数据分析(一)-计算日线行情、5日均线、10日均线行情并显示

    使用Python对股票数据进行数据分析(一)-计算日线行情、5日均线、10日均线行情并显示使用Python对股票数据进行数据分析(一)-计算日线行情、5日均线、10日均线行情并显示各种炒股软件上可以显示各种技术指标,可以帮助投资者进行技术分析。这些股市中的这些指标都是怎么计算出来的呢?这里使用python的pandas库来进行计算。后期可能使用一些专门金融分析的库,比如talib库等进行分析。一、获取数据这里需要获取的数据是股票的日线行情,这里使用tushare进行获取,以…

    2025年7月23日
    4
  • 自我学习总结之——NFV

    自我学习总结之——NFVNFV–DFC1.什么是NFV?网络功能虚拟化NFV(NetworkFunctionsVirtualization)在NFV出现之前设备的专业化很突出,具体设备都有其专门的功能实现,而之后设备的控制平面与具体设备进行分离,不同设备的控制平面基于虚拟机,虚拟机基于云操作系统,这样当企业需要部署新业务时只需要在开放的虚拟机平台上创建相应的虚机,然后在虚拟机上安装相应功能的软件包即可。这种方式…

    2025年10月9日
    5
  • Faster R-CNN算法

    Faster R-CNN算法  FasterR-CNN算法是作者RossGirshick对FastR-CNN算法的一种改进。FastR-CNN在速度和精度上都有了不错的结果,但仍有一些不足之处。FasterR-CNN算法同样使用VGG-16网络结构,检测速度在GPU上达到5fps(包括候选区域的生成),准确率也有进一步的提升。在ILSVRC和COCO2015竞赛中获得多个项目的第一名。在FasterR-CNN中提出了区域生成网络(RegionProposalNetwork,RPN),将候选区域的提取和FastR-C

    2025年10月5日
    3

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号