目录
题目:
给定一个字符串 S,以及一个模式串 P,所有字符串中只包含大小写英文字母以及阿拉伯数字。
模式串 P 在字符串 S 中多次作为子串出现。
求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
输入格式
第一行输入整数 N,表示字符串 P 的长度。
第二行输入字符串 P。
第三行输入整数 M,表示字符串 S 的长度。
第四行输入字符串 S。
输出格式
共一行,输出所有出现位置的起始下标(下标从 0 开始计数),整数之间用空格隔开。
数据范围
1≤N≤105
1≤M≤1063 aba 5 ababa
输出样例:
0 2
难度:简单 时/空限制:1s / 256MB 总通过数:137573 总尝试数:269545 来源: 算法标签
挑战模式
模版代码:
#include<iostream>
using namespace std;
const int N=100010,M=1000010;
int n,m;
int ne[N];
char p[N],s[M];
int main()
{
cin>>n>>p+1>>m>>s+1;
for(int i=2,j=0;i<=n;i++)
{
while(j&&p[i]!=p[j+1]) j=ne[j];
if(p[i]==p[j+1]) j++;
ne[i]=j;
}
for(int i=1,j=0;i<=m;i++)
{
while(j&&s[i]!=p[j+1]) j=ne[j];
if(s[i]==p[j+1]) j++;
if(j==n)
{
printf("%d ",i-n);
j=ne[j];
}
}
}
分析:
(1)前置知识点
首先要了解两个概念:“前缀"和"后缀”。 "前缀"指除了最后一个字符以外,一个字符串的全部头部组合;"后缀"指除了第一个字符以外,一个字符串的全部尾部组合。举例:p=abac
前缀:a,ab,aba
后缀:c,ac,bac
(2)KMP原理
一个字符串S和一个更短的字符串P,求出模式串 P 在字符串 S 中所有出现的位置的起始下标。
两个字符串一位一位比较,若对应位置一样,则继续比较,P字符串的所有字符比较完毕,则表示在字符串S中找到了子串P。
暴力做法是比较S[ 0 ]和P[ 0 ],若相等则继续比较S[ 1 ]和P[ 1 ]......,
若出现一位不相等则再从S[ 1 ]和P[ 0 ]开始从新比较。
KMP的优化就是记住一些信息,使得重新比较的时候可以不用从头(P[ 0 ])开始比较,减少时间开销。
(3)举例说明
想看详细举例说明的朋友,这位大佬写的很好,这里就不赘述啦:
(4)KMP难点
对于模式串,如何找到它以每一个点为终点的后缀和前缀相等的最大长度。
例如:模式串为abaab,最前面的两个字符“ab”和最后面的两个字符“ab”相等,所以前缀和后缀相等的最大值为2,即next[4]=2
ps:next[N]这样定义可能会报错,因为在头文件里用过了,所以可以用ne[N]来代替next[N]
代码详解:
#include <iostream>
using namespace std;
const int N = 100010, M = 1000010;
int n, m;
int ne[N]; // next[]数组,用于记录模式串p中以每一个点为终点的字符串中前缀和后缀相等的最大长度
char p[N],s[M] ;//p用于存模式串,s用于存字符串
int main()
{
cin >> n >> p + 1 >> m >> s + 1;//p+1直接跳过了的一个p[0],从p[1]开始存字符串,下标从1开始
// 得到next数组
// 其实思路和KMP匹配类似,只不过这里是p和p本身匹配
for (int i = 2, j = 0; i <= n; i ++ )//从i=2,j+1=1(j=0)开始,也就是从p的第一第二个元素开始匹配
{
while (j && p[i] != p[j + 1]) j = ne[j];
if (p[i] == p[j + 1]) j ++ ;
ne[i] = j; // ne[1]恒等于0,因为p的第一个字符没有前后缀,就谈不上前后缀相等的最大长度。实际上p和s的第一个元素都不相等了,那就直接p后移一位从头开始匹配呗
//ne[i] = j,即p[1,j](下标为1~j的前缀)=p[i+1-j,i](以i为终点的后缀),解释:以i为终点的后缀和从1开始的前缀这两段字符串完全一样,且此时后缀的长度最长,长度为j。
}
// KMP匹配过程
for (int i = 1, j = 0; i <= m; i ++ )
{
// i是从1开始,j是从0开始,所以i和j始终错开一位,所以是s[i]和p[j+1]匹配
// 有一位不匹配时,p字符串就要往后移动,移动位数=j-ne[j],又j=j-移动位数,所以等价于j=ne[j](因为j是从0开始的)
// 举例:p=ABCDABD,前6位都匹配了,但是最后一位不匹配,所以p得往后移。但是前6位“ABCDAB”中前缀AB和后缀AB相等,即ne[5]=2,所以j=ne[5]=2
while (j && s[i] != p[j + 1]) j = ne[j];//j没有退回起点(若j=0即j退回起点了,就要重新开始匹配),且s和p有一个字符不匹配了。就要将模版串向后移动最少的长度,使得匹配可以继续进行下去
if (s[i] == p[j + 1]) j ++ ; // s[i]和p[j+1]匹配上了,j++,指针往后移动一位,准备匹配下一个字符
if (j == n) // 匹配成功
{
printf("%d ", i - n); // 注意下标i是从1开始的,不是0
j = ne[j]; // 匹配成功后,p再往后移动,准备下一轮匹配
}
}
}
时间复杂度分析:
时间复杂度为O(2m),即O(n),是最优时间复杂度了。
解释:for 循环 m 次,其中 j++ 最多会执行 m 次,而 while 循环每次执行时,j 都会减小(因为定义限定了 ne[ j ] < j ),j最多会减 m 次。
j 等于 1,while 循环最多会减 1 次;j 等于 2 ,while 循环最多会减 2 次……j 等于 m,while 循环最多会减 m 次,所以时间复杂度=O(1+2+……+m)=O([(1+m)*m]/2)->O(2m)->O(n)