计算两个矩阵之间的欧式距离「建议收藏」

计算两个矩阵之间的欧式距离「建议收藏」在我们使用k-NN模型时,需要计算测试集中每一点到训练集中每一点的欧氏距离,即需要求得两矩阵之间的欧氏距离。在实现k-NN算法时通常有三种方案,分别是使用两层循环,使用一层循环和不使用循环。使用两层循环分别对训练集和测试集中的数据进行循环遍历,计算每两个点之间的欧式距离,然后赋值给dist矩阵。此算法没有经过任何优化。num_test=X.shape[0]num_…

大家好,又见面了,我是你们的朋友全栈君。

在我们使用k-NN模型时,需要计算测试集中每一点到训练集中每一点的欧氏距离,即需要求得两矩阵之间的欧氏距离。在实现k-NN算法时通常有三种方案,分别是使用两层循环,使用一层循环和不使用循环。

使用两层循环

分别对训练集和测试集中的数据进行循环遍历,计算每两个点之间的欧式距离,然后赋值给dist矩阵。此算法没有经过任何优化。

num_test = X.shape[0]
    num_train = self.X_train.shape[0]
    dists = np.zeros((num_test, num_train)) 
    for i in xrange(num_test):
      for j in xrange(num_train):
        ##################################################################### # TODO: # # Compute the l2 distance between the ith test point and the jth # # training point, and store the result in dists[i, j]. You should # # not use a loop over dimension. # #####################################################################
        # pass
        dists[i][j] = np.sqrt(np.sum(np.square(X[i] - self.X_train[j])))
        ##################################################################### # END OF YOUR CODE # #####################################################################
    return dists

使用一层循环

使用矩阵表示训练集的数据,计算测试集中每一点到训练集矩阵的距离,可以对算法优化为只使用一层循环。

def compute_distances_one_loop(self, X):
    """ Compute the distance between each test point in X and each training point in self.X_train using a single loop over the test data. Input / Output: Same as compute_distances_two_loops """
    num_test = X.shape[0]
    num_train = self.X_train.shape[0]
    dists = np.zeros((num_test, num_train))
    for i in xrange(num_test):
      ####################################################################### # TODO: # # Compute the l2 distance between the ith test point and all training # # points, and store the result in dists[i, :]. # #######################################################################
      # pass
      dists[i] = np.sqrt(np.sum(np.square(self.X_train - X[i]), axis = 1))
      ####################################################################### # END OF YOUR CODE # #######################################################################
    return dists

不使用循环

运算效率最高的算法是将训练集和测试集都使用矩阵表示,然后使用矩阵运算的方法替代之前的循环操作。但此操作需要我们对矩阵的运算规则非常熟悉。接下来着重记录如何计算两个矩阵之间的欧式距离。

记录测试集矩阵P的大小为M*D,训练集矩阵C的大小为N*D(测试集中共有M个点,每个点为D维特征向量。训练集中共有N个点,每个点为D维特征向量)
Pi P i 是P的第i行,记 Cj C j 是C的第j行
Pi=[Pi1Pi2PiD] P i = [ P i 1 P i 2 ⋯ P i D ] Cj=[Cj1Cj2CjD] C j = [ C j 1 C j 2 ⋯ C j D ]


首先计算 Pi P i Cj C j 之间的距离dist(i,j)
d(Pi,Cj)=(Pi1Cj1)2+(Pi2Cj2)2++(PiDCjD)2=(P2i1+P2i2++P2iD)+(C2j1+C2j2++C2jD)2×(Pi1Cj1+Pi2Cj2++PiDCiD)=Pi2+Cj22×PiCTj d ( P i , C j ) = ( P i 1 − C j 1 ) 2 + ( P i 2 − C j 2 ) 2 + ⋯ + ( P i D − C j D ) 2 = ( P i 1 2 + P i 2 2 + ⋯ + P i D 2 ) + ( C j 1 2 + C j 2 2 + ⋯ + C j D 2 ) − 2 × ( P i 1 C j 1 + P i 2 C j 2 + ⋯ + P i D C i D ) = ‖ P i ‖ 2 + ‖ C j ‖ 2 − 2 × P i C j T


我们可以推广到距离矩阵的第i行的计算公式
dist[i]=(Pi2Pi2Pi2)+(C12C22CN2)2×Pi(CT1CT2CTN)=(Pi2Pi2Pi2)+(C12C22CN2)2×PiCT d i s t [ i ] = ( ‖ P i ‖ 2 ‖ P i ‖ 2 ⋯ ‖ P i ‖ 2 ) + ( ‖ C 1 ‖ 2 ‖ C 2 ‖ 2 ⋯ ‖ C N ‖ 2 ) − 2 × P i ( C 1 T C 2 T ⋯ C N T ) = ( ‖ P i ‖ 2 ‖ P i ‖ 2 ⋯ ‖ P i ‖ 2 ) + ( ‖ C 1 ‖ 2 ‖ C 2 ‖ 2 ⋯ ‖ C N ‖ 2 ) − 2 × P i C T


继续将公式推广为整个距离矩阵
dist=P12P22PM2P12P22PM2P12P22PM2+C12C12C12C22C22C22CN2CN2CN22×PCT d i s t = ( ‖ P 1 ‖ 2 ‖ P 1 ‖ 2 ⋯ ‖ P 1 ‖ 2 ‖ P 2 ‖ 2 ‖ P 2 ‖ 2 ⋯ ‖ P 2 ‖ 2 ⋮ ⋮ ⋱ ⋮ ‖ P M ‖ 2 ‖ P M ‖ 2 ⋯ ‖ P M ‖ 2 ) + ( ‖ C 1 ‖ 2 ‖ C 2 ‖ 2 ⋯ ‖ C N ‖ 2 ‖ C 1 ‖ 2 ‖ C 2 ‖ 2 ⋯ ‖ C N ‖ 2 ⋮ ⋮ ⋱ ⋮ ‖ C 1 ‖ 2 ‖ C 2 ‖ 2 ⋯ ‖ C N ‖ 2 ) − 2 × P C T

表示为python代码:

def compute_distances_no_loops(self, X):
    """ Compute the distance between each test point in X and each training point in self.X_train using no explicit loops. Input / Output: Same as compute_distances_two_loops """
    num_test = X.shape[0]
    num_train = self.X_train.shape[0]
    dists = np.zeros((num_test, num_train)) 
    #########################################################################
    # TODO: #
    # Compute the l2 distance between all test points and all training #
    # points without using any explicit loops, and store the result in #
    # dists. #
    # #
    # You should implement this function using only basic array operations; #
    # in particular you should not use functions from scipy. #
    # #
    # HINT: Try to formulate the l2 distance using matrix multiplication #
    # and two broadcast sums. #
    #########################################################################
    # pass
    dists = np.sqrt(-2*np.dot(X, self.X_train.T) + np.sum(np.square(self.X_train), axis = 1) + np.transpose([np.sum(np.square(X), axis = 1)]))
    #########################################################################
    # END OF YOUR CODE #
    #########################################################################
    return dists
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/150938.html原文链接:https://javaforall.net

(0)
上一篇 2022年6月19日 上午8:46
下一篇 2022年6月19日 上午9:00


相关推荐

  • Vue菜鸟教程

    Vue框架快速入门1.Vue的认识1.1什么是Vue?Vue是一个开源的javascript框架,并且Vue支持mvc和mvvm两种模式。Vue是一个构建数据驱动的web界面的渐进式框架。采用自底向上增量开发的设计。Vue.js的目标是通过尽可能简单的API实现响应的数据绑定和组合的视图组件,是又一个js库。MVC:Model(模型),View(视图),Controller(…

    2022年4月9日
    10.1K
  • C语言异或简单用法

    C语言异或简单用法代码如下 include stdio h intmain 异或的用法 3 3 00 3 3 找出数组里面单独的数字 intarr 1 2 3 4 5 6 1 2 3 4 5 6 8 inti 0 intuni n 0 intsz sizeof arr sizeof arr 0 for i 0 i stdio h

    2026年3月18日
    2
  • 失去焦点和获得焦点发生事件(js)「建议收藏」

    失去焦点和获得焦点发生事件(js)「建议收藏」失去焦点:onblur=”hanshu(this)”获得焦点:onfocus=”hanshu(this)”{     alert(‘请确认您输入格式是否正确!’);   }//函数名:chksafe//功能介绍:检查是否含有,//,///参数说明:要检查的字符串//返回值:0:是 1:不是functionchksafe(a)

    2022年6月30日
    27
  • 栈溢出攻击

    栈溢出攻击什么是栈溢出攻击向缓冲器填入过多的数据 超出边界 导致数据外溢 同时利用缓冲器溢出改写数据 改变程序执行流程 执行 shellcode 之所以会有缓冲区溢出的可能 主要是因为栈空间内保存了函数的返回地址 该地址保存了函数调用结束后后续执行的指令的位置 对于计算机安全来说 该信息是很敏感的 如果有人恶意修改了这个返回地址 并使该返回地址指向了一个新的代码位置 程序便能从其它位置继续执行

    2026年3月18日
    2
  • 豆包p图英雄合照ai替换教程

    豆包p图英雄合照ai替换教程

    2026年3月15日
    1
  • ADRC学习心得(持续更新)[通俗易懂]

    ADRC学习心得(持续更新)[通俗易懂]两年前第一次接触到PID觉得很高深,很神奇;后来逐渐觉得单纯的PID小儿科了,又了解到专家PID,模糊PID,神经网络PID这些改进算法,再后来又知道了ADRC,便感控制领域浩如烟海,所学不过沧海一粟。然便纵真理无穷,进一寸自有一寸的欢喜。不敢说看了几篇论文,听了几节报告,做了几次仿真,就吃透ADRC了,不过只是一些粗浅的理解,记录一行歪歪斜斜的足迹。以便回首过眼云烟之时,可以安慰自己一句,我已经飞过。一、系统有关概念1、系统的状态空间模型描述一个系统,最常用的数学模型有:微分方程传递函数状

    2022年5月19日
    79

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号