AcWing--831.KMP字符串

小新-杂货铺

已于 2025-02-26 20:50:22 修改

阅读量793

点赞数 25

CC 4.0 BY-SA版权

分类专栏： acwing 算法基础课知识点解析/模版题文章标签：算法数据结构 c++ 学习

于 2025-02-26 20:47:24 首次发布

本文链接：https://blog.csdn.net/m0_73646108/article/details/145887542

acwing 算法基础课知识点解析/模版题专栏收录该内容

20 篇文章

订阅专栏

题目：

给定一个字符串 S，以及一个模式串 P，所有字符串中只包含大小写英文字母以及阿拉伯数字。

模式串 P 在字符串 S 中多次作为子串出现。

求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

输入格式

第一行输入整数 N，表示字符串 P 的长度。

第二行输入字符串 P。

第三行输入整数 M，表示字符串 S 的长度。

第四行输入字符串 S。

输出格式

共一行，输出所有出现位置的起始下标（下标从 0 开始计数），整数之间用空格隔开。

数据范围

1≤N≤105
1≤M≤106
3
aba
5
ababa
输出样例：
0 2
难度：简单
时/空限制：1s / 256MB
总通过数：137573
总尝试数：269545
来源：
模板题

算法标签

挑战模式

模版代码：

#include<iostream>
using namespace std;

const int N=100010,M=1000010;

int n,m;
int ne[N];
char p[N],s[M];

int main()
{
    cin>>n>>p+1>>m>>s+1;
    
    for(int i=2,j=0;i<=n;i++)
    {
        while(j&&p[i]!=p[j+1]) j=ne[j];
        if(p[i]==p[j+1]) j++;
        ne[i]=j;
    }
    
    for(int i=1,j=0;i<=m;i++)
    {
        while(j&&s[i]!=p[j+1]) j=ne[j];
        if(s[i]==p[j+1]) j++;
        if(j==n)
        {
            printf("%d ",i-n);
            j=ne[j];
        }
    }
}

分析：

（1）前置知识点

首先要了解两个概念：“前缀"和"后缀”。 "前缀"指除了最后一个字符以外，一个字符串的全部头部组合；"后缀"指除了第一个字符以外，一个字符串的全部尾部组合。举例：p=abac

前缀：a，ab，aba

后缀：c，ac，bac

（2）KMP原理

一个字符串S和一个更短的字符串P，求出模式串 P 在字符串 S 中所有出现的位置的起始下标。

两个字符串一位一位比较，若对应位置一样，则继续比较，P字符串的所有字符比较完毕，则表示在字符串S中找到了子串P。

暴力做法是比较S[ 0 ]和P[ 0 ]，若相等则继续比较S[ 1 ]和P[ 1 ]......，

若出现一位不相等则再从S[ 1 ]和P[ 0 ]开始从新比较。

KMP的优化就是记住一些信息，使得重新比较的时候可以不用从头（P[ 0 ]）开始比较，减少时间开销。

（3）举例说明

想看详细举例说明的朋友，这位大佬写的很好，这里就不赘述啦：

字符串匹配——KMP算法_字符串匹配算法-CSDN博客

（4）KMP难点

对于模式串，如何找到它以每一个点为终点的后缀和前缀相等的最大长度。
例如：模式串为abaab，最前面的两个字符“ab”和最后面的两个字符“ab”相等，所以前缀和后缀相等的最大值为2，即next[4]=2
ps：next[N]这样定义可能会报错，因为在头文件里用过了，所以可以用ne[N]来代替next[N]

代码详解：

#include <iostream>

using namespace std;

const int N = 100010, M = 1000010;

int n, m;
int ne[N]; // next[]数组，用于记录模式串p中以每一个点为终点的字符串中前缀和后缀相等的最大长度
char p[N],s[M] ;//p用于存模式串，s用于存字符串

int main()
{
    cin >> n >> p + 1 >> m >> s + 1;//p+1直接跳过了的一个p[0]，从p[1]开始存字符串，下标从1开始

    // 得到next数组
    // 其实思路和KMP匹配类似，只不过这里是p和p本身匹配
    for (int i = 2, j = 0; i <= n; i ++ )//从i=2,j+1=1(j=0)开始，也就是从p的第一第二个元素开始匹配
    {
        
        while (j && p[i] != p[j + 1]) j = ne[j];
        if (p[i] == p[j + 1]) j ++ ;
        ne[i] = j; // ne[1]恒等于0，因为p的第一个字符没有前后缀，就谈不上前后缀相等的最大长度。实际上p和s的第一个元素都不相等了，那就直接p后移一位从头开始匹配呗
        //ne[i] = j，即p[1,j]（下标为1~j的前缀）=p[i+1-j,i]（以i为终点的后缀），解释：以i为终点的后缀和从1开始的前缀这两段字符串完全一样，且此时后缀的长度最长，长度为j。
    }

    // KMP匹配过程
    for (int i = 1, j = 0; i <= m; i ++ )
    {
        // i是从1开始，j是从0开始，所以i和j始终错开一位，所以是s[i]和p[j+1]匹配
        // 有一位不匹配时，p字符串就要往后移动，移动位数=j-ne[j]，又j=j-移动位数，所以等价于j=ne[j](因为j是从0开始的)
        // 举例：p=ABCDABD,前6位都匹配了，但是最后一位不匹配，所以p得往后移。但是前6位“ABCDAB”中前缀AB和后缀AB相等，即ne[5]=2,所以j=ne[5]=2
        while (j && s[i] != p[j + 1]) j = ne[j];//j没有退回起点（若j=0即j退回起点了，就要重新开始匹配），且s和p有一个字符不匹配了。就要将模版串向后移动最少的长度，使得匹配可以继续进行下去
        if (s[i] == p[j + 1]) j ++ ; // s[i]和p[j+1]匹配上了，j++，指针往后移动一位，准备匹配下一个字符
        if (j == n) // 匹配成功
        {
            printf("%d ", i - n); // 注意下标i是从1开始的，不是0
            j = ne[j]; // 匹配成功后，p再往后移动，准备下一轮匹配
        }
    }
}