字符串匹配之KMP—全力解析

字符串匹配之KMP—全力解析

大家好,又见面了,我是全栈君,祝每个程序员都可以多学几门语言。

近日,一同学面试被问到字符串匹配算法,结果因为他使用了暴力法,直接就跪了(如今想想这种面试官真的是不合格的,陈皓的一篇文章说的非常好,点击阅读)。字符串匹配方法大概有:BF(暴力破解法), 简化版的BM,KMP,BM,普通情况下,大家听说最多的应该就是KMP算法了。之前学习过,因为时间间隔比較大,记不太清楚了,今天上网查了下,发现写KMP的文章是不少,可是真正清楚简洁就没有了(july的文章太繁琐),所以自己就研究了一晚上,弄清楚了kmp的计算过程,也就在此分享下。

1. 假设你如今全然不知道KMP是个神马玩意,请先阅读 阮一峰《字符串匹配的KMP算法》

KMP算法最难理解的是就是next数组的计算过程,在此分享下我所理解的kmp算法以及next数组的计算过程(假设看前面理论比較头大,能够先看后面样例的计算过程,在回过头来看理论就会释怀):

     1. next数组的计算过程: 
          申明:next数组下标从0算起, 定义next[0]=-1, next[1]=0; 模式串记为T[ ]
          假如求 T中 j+1 位的next[j+1]:
          将其 前一位(模式字符)的内容与其前一位的next值(next[j])的内容(T[next[j]])进行比較:
               假设它们相等(T[j]==T[next[j]]),则next[j+1] = next[j]+1;
               假设他们不相等,则继续向前寻找,直到找到next值相应的内容与前一位相等为止,则在这个next值上加一;
               假设直到第一位都没有与之相等,则next[j+1] = 0;           
           例: 有模式串 “abaababc”
          j=0时,next[0] = -1 ; j=1时,next[1] = 0;
          j=2时,t1!=t0, k=next[0]=-1, next[2]=0;
          j=3时,t2==t0, next[3] = next[2]+1 = 1;
          j=4时,k=next[3]=1, t3!=T[1], k=next[1]=0, T[3]==T[0], next[4]=next[1]+1 = 1;
          j=5时,k=next[4]=1, T[4]==T[1], next[5]=next[4]+1=2;
          j=6时,k=next[5]=2, T[5]==T[2], next[6]=next[5]+1=3;
          j=7时,k=next[6]=3, T[6]!=T[3], k=next[3]=1, T[6]==T[1], next[7]=next[3]+1 = 2;



字符串匹配之KMP---全力解析

      

     2. 上述算法的实现:
     
       //update 2014-04-19 10:08
       void calNext(const char *T, int *next){
          int n = strlen(T);
          if(n<=0) return ;
          next[0] = -1;
          next[1] = 0;
          int j=0, k=-1;
          while(j<n){
               if(k==-1 || T[j]==T[k]){
                    ++j;
                    ++k;
                    next[j] = k;
               }
               else  k = next[k];
          }
     }
     3. KMP主算法:
          设置比較起始下标: i=0, j=0;
          循环直到 i+m>n 或者 T中全部字符都以比較完成
               a. 假设 S[i]==T[j], 则继续比較S和T的下一个字符; 否则
               b. 将 j=next[j], 从这位置開始继续进行比較;
               c. 假设j==-1, 则将 i 和 j 分别加1, 继续比較;
          假设T中全部字符均比較完成,则返回匹配的起始下标,否则返回-1;
     4. KMP算法实现:

     
       //update 2014-04-19 10:08
       int kmpmatch(const char *S, const char *T){
          if(S==NULL || T==NULL) return -1;
          int n = strlen(S);
          int m = strlen(T);
          int next[m];
          calNext(T, next);
          int i=0, j=0;
          while(i+m<=n){
               for( ; j<m&&i<n&&S[i]==T[j]; ++i, ++j) ;
               if(j==m) return i-m;
               j = next[j];
               if(j==-1){
                    ++i;
                    ++j;
               }
          }
          return -1;
     }
举例: 设主串 S=”ababcabcacbab”, 模式 T=”abcac”
          依照上述方法计算得next[]={-1,0,0,0,1}


字符串匹配之KMP---全力解析



字符串匹配之KMP---全力解析


本篇文章主要关注next数组的计算及kmp主算法的实现。
要了解next数组是什么?
为什么要这么计算next数组?
參见下一篇文章(字符串匹配之KMP算法(续)—还原next数组 )

.

假设你认为本篇对你有收获,请帮顶。

另外,我本人开通了微信公众号–分享技术之美,我会不定期的分享一些我学习的东西.
你能够搜索公众号:
swalge
 或者扫描下方二维码关注我
字符串匹配之KMP---全力解析

(转载文章请注明出处: http://blog.csdn.net/swagle/article/details/23969683 )

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。

发布者:全栈程序员-站长,转载请注明出处:https://javaforall.net/118913.html原文链接:https://javaforall.net

(0)
全栈程序员-站长的头像全栈程序员-站长


相关推荐

  • redis雪崩原因_什么是redis雪崩

    redis雪崩原因_什么是redis雪崩1、每天和技术水友,提三个问题。不喜勿喷。redis雪崩效应:1、redis缓存的时间同时失效或者无效的key,落地到db层,导致db层压力过大,引发一系列的功能不可用解决措施:以下穷逼公司解决方案:1、redis设置时间加入随机时间2、数据量少考虑加入本地缓存3、限流(TODO:用户体验不好)4、互斥锁(TODO:用的不好,系统分分钟down掉)5、定时任务(TODO:小心点,别乱塞)此乃富有公司最终解决方案6、加服务器(最终解决方案,一台不行加10台)…

    2022年9月14日
    0
  • 根据请求的后缀判断他应该返回什么样的content_type

    根据请求的后缀判断他应该返回什么样的content_type

    2021年7月2日
    93
  • 基于麦克风阵列的声源定位_python播放声音模块

    基于麦克风阵列的声源定位_python播放声音模块上一篇文章说到odas_web界面非常难安装,并且运行也很卡。所以我自己用python写了一个界面程序,用来接收odas处理完的结果。这个界面程序与odas之间是通过socket连接的,界面作为服务器,odas作为客户端,由于有两路数据,所以各有两个服务器和客户端。但是实际绘制在界面上的是SSL的结果,不是SST的结果。其实我也试过SST的结果,从直观的感受而言,效果会比SSL差一些,实时性不是很高,我的理解SST的好处是可以跟踪音源是否有活动。

    2022年9月2日
    5
  • 渝粤锂电一体机800A_渝粤锂电池怎么样

    渝粤锂电一体机800A_渝粤锂电池怎么样选择题题目:英国经济学家罗宾斯的著名论文《轮经济科学的性质和意义》发表于()题目:亚当˙斯密的《国富论》发表于()题目:西方经济学产生的根本原因是()题目:西方主流经济学家主要采用下列哪种方法论来进行经济学研究()题目:微观行为与宏观结果甚至可能是背离的。对此,萨缪尔森在他经典的教科书上曾打过一个精辟的比方。他说,好比在一个电影院看电影,有人被前面的人挡住了视线,如果他站起来的话,他看电影的效果将会改善。因此,站起来就微观而言是合理的。但是,如果大家都站起来的话,则大家看电影的效果都不能

    2022年10月23日
    0
  • 几种常见GC算法介绍「建议收藏」

    几种常见GC算法介绍「建议收藏」本文主要是对常用的GC算法(引用计数法、标记-清除法、复制算法、标记-清除算法)作出相关的说明,并对相关知识做简单的介绍。一、什么是堆?    堆指用于动态(即执行程序时)存放对象的内存空间。而这个对象,在面向对象的编程中,它指“具有属性和行为的事物”,然而在GC的世界中,对象表示的是“通过应用程序利用的数据的集合”。具体到Java堆,它是所有线程共享的一块内存区域,在虚拟机启动时创…

    2022年6月16日
    25
  • 史上最简单的 MyBatis 教程(一)

    史上最简单的 MyBatis 教程(一)1简介MyBatis是支持普通SQL查询,存储过程和高级映射的优秀持久层框架,其几乎消除了所有的JDBC代码和参数的手工设置以及结果集的检索。MyBatis使用简单的XML或注解用于配置和原始映射,将接口和Java的POJOs(PlainOldJavaObjects,普通的Java对象)映射成数据库中的记录。MyBatis应用程序大都使用SqlSessionFac

    2025年7月22日
    0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

关注全栈程序员社区公众号