动态规划——最短编辑距离

一、问题描述

        最短编辑距离(Minimum Edit Distance),也被称为Levenshtein距离,是一种计算两个字符串间的差异程度的字符串度量(string metric)。我们可以认为Levenshtein距离就是从一个字符串修改到另一个字符串时,其中编辑单个字符(比如替换、插入、删除)所需要的最少次数。                           简单例子:                                                                                                                                                给定两个单词word1,word2,找到最少的修改操作次数,使得将word1转换成word2,操作包含替换,插入,删除。

        1.替换操作:将某个字符替换成另一个字符

        2.插入操作:在某两个字符中间插入一个新的字符

        3.删除字符:删除某一个字符

        例如,word1=‘ssitten’,word2=‘sitting’,其中最短的编辑操作为

        将 word1 的第一个‘ s ’删除;将‘ e ’替换成‘ i ’;末尾处插入字符‘ g ’,所以编辑距离为3

二、动态规划

        不妨先想一想,两个字符串的最短编辑距离,只需要考虑对其中一个字符串操作即可,所以最短编辑距离的最大值一定不超过两个字符串长度的较大值(只对较短字符串进行替换和插入操作)。                                                                                                                                                         在动态规划思想中,将问题转化成一个个子问题来解决,即如何根据上述三种操作方式推导。定义 F[ i ][ j ] 为字符串1中 1 ~ i 和字符串2 1 ~ j 中的最短编辑距离,将字符串从末尾开始比较有以下递推公式。

        1.当两个字符串末尾相同时 (word1 = "intention’, word2 = ’execution‘ )

       F[9][9]=F[8][8] \, \, \, \, \, \, \, \, \, \, \, \, (s1[9]==s2[9])

                此时不需要任何操作     F[i][j]=F[i-1][j-1]   即可

        2.当两个字符串末尾不相同时,有以下三种操作。

        ① 替换操作 

        直接将 word1 中的末尾字符替换成 word2 中的末尾字符,操作数+1,此时情况为 case1 易理解。

        F[i][j]=F[i-1][j-1]+1

        ②插入操作

        在 word1 的末尾后面插入 word2 的末尾字符,操作数+1,举例说明

        例如上述样例    word1=‘ssitten’,word2=‘sitting’   此时在 word1 末尾加上 ‘ g ’ ,word1 和 word2 此时末尾字符相同,即同上述情况相同有

        F[i][j]=F[i][j-1]+1

        ③ 删除操作

        直接删除 word1 末尾的元素,考虑 F[ i-1 ] [ j ]

        F[i][j]=F[i-1][j]+1

        再考虑初始条件         F[i][0]=i \, \, \, \, \, \, \, \, \, \, F[0][j] = j

         则递推公式为:

 三、代码部分

        

#include<stdio.h>
#include<string.h>
using namespace std;
#include<iostream> 
int f[2001][2001],n;
char s1[10001],s2[10001];
int main()
{
	scanf("%s",s1);
	scanf("%s",s2);
	int l1=strlen(s1),l2=strlen(s2);
	for(int i=l1-1;i>=0;i--)
		s1[i+1]=s1[i];
	for(int j=l2-1;j>=0;j--)
		s2[j+1]=s2[j];
	for(int i=1;i<=l1;i++) f[i][0]=i;
	for(int i=1;i<=l2;i++) f[0][i]=i;
	for(int i=1;i<=l1;i++)
	for(int j=1;j<=l2;j++)
	{
		if(s1[i]==s2[j])
			f[i][j]=f[i-1][j-1];
		else 
		{
			f[i][j]=min(min(f[i-1][j-1]+1,f[i-1][j]+1),f[i][j-1]+1);  // 替换 删除 插入 
		}
	}
	printf("%d",f[l1][l2]);
	return 0; 
}

### 基于最小编辑距离与字符串相似度的模糊匹配算法 #### 定义与概念 Levenshtein 距离,也称为编辑距离,是指两个字符串之间由一个转换成另一个所需的最少编辑操作次数。这些编辑操作包括插入、删除和替换字符[^3]。 对于给定的两个字符串 \( a \) 和 \( b \),最短编辑距离能够衡量两者之间的差异程度。通常情况下,这种距离越小,则表明这两个字符串越相似;反之则不那么相似。该方法广泛应用于自然语言处理中的拼写纠正、语音识别以及生物信息学等领域。 #### 计算方式 为了计算两个字符串间的 Levenshtein 距离,可以采用动态规划的方式来进行求解。具体来说: - 创建一个二维数组 `dp` 来存储中间状态的结果; - 初始化边界条件:当其中一个串为空时,另一串到其的距离即为其自身的长度; - 对于每一个位置 `(i, j)` ,如果对应的字符相同,则不需要额外的操作,继承自上一步的状态即可;如果不相等,则取三种可能情况下的最小值加一作为当前位置的结果——分别是左边(表示插入)、上方(表示删除)还有左上的斜角方向(代表替换)。最终矩阵右下角元素便是所求得的最短编辑距离。 ```java public class LevenshteinDistance { public static int computeEditDistance(String str1, String str2){ int[][] dp = new int[str1.length() + 1][str2.length() + 1]; for (int i = 0; i <= str1.length(); i++) { for (int j = 0; j <= str2.length(); j++) { if(i == 0){ dp[i][j] = j; }else if(j == 0){ dp[i][j] = i; }else{ dp[i][j] = Math.min(dp[i - 1][j],Math.min(dp[i][j - 1], dp[i - 1][j - 1])) + 1; if(str1.charAt(i - 1) == str2.charAt(j - 1)){ dp[i][j] = Math.min(dp[i][j], dp[i - 1][j - 1]); } } } } return dp[str1.length()][str2.length()]; } } ``` #### 字符串相似度评估 通过上述过程得到两字符串间具体的编辑距离之后,可以根据此来估算它们之间的相似度。一种常见的做法是以最大长度减去实际发生的变换数目的形式给出比例分数,以此反映二者接近的程度。例如 abc 和 abe 的编辑距离为 1,在总长为 3 的前提下,相似度可被量化为 \( 1-\frac{1}{3}=0.667 \)[^2]。 #### 应用场景 这类基于最短编辑距离的技术特别适用于那些需要进行近似查找的任务环境之中,比如搜索引擎内部实现关键词纠错功能或是数据库查询语句里支持部分输入完成自动补全等功能模块的设计开发当中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值