上篇中,我们了解到HMM的相关知识,并且知道HMM属于概率有向图模型,接下来,让我们一起学习总结概率无向图模型——条件随机场(Conditional Random Field, CRF)。
思维导图
概率无向图模型
概率无向图模型又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。
模型定义
设有联合概率分布P(Y),由无向图G=(V,E)表示,V表示结点集合,E表示边集合,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。 设有联合概率分布P(Y),由无向图G=(V,E)表示,V表示结点集合,E表示边集合,\\在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足\\成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。 设有联合概率分布P(Y),由无向图G=(V,E)表示,V表示结点集合,E表示边集合,在图G中,结点表示随机变量,边表示随机变量之间的依赖关系。如果联合概率分布P(Y)满足成对、局部或全局马尔可夫性,就称此联合概率分布为概率无向图模型或马尔可夫随机场。
马尔可夫性
成对马尔可夫性
如图上,一共有10个结点(即10个随机变量),任意找两个没有边直接连接的结点,假设有两个随机变量(u,v)没有边相连,剩下的8个随机变量记为O,当给定O时,u和v是独立的,即P(u,v|O)=P(u|O)P(v|O)。
局部马尔可夫性
如上图,任意找一个结点v,与v有边相连的所有结点记为W,其余5个结点记为O,当给定W时,v和O是独立的,即P(v,O|W)=P(v|W)P(O|W)。
全局马尔可夫性
一共有8个结点(即有8个随机变量),取中间两个随机变量记为集合C,当将集合C从图中删掉之后,那么剩下的6个结点分成了两个部分,可知左边的3个结点和右边的3个结点没有任何边将它们相连,当给定C时,A和B是独立的,即P(A,B|C)=P(A|C)P(B|C)。
注意:以上三种马尔可夫性都是等价的。
为什么说这三个马尔可夫性是等价的?这里等价的意思为任意一个结点满足成对马尔可夫性等价于任意一个结点满足局部马尔可夫性,也等价于这些结点满足全局马尔可夫性。
概率无向图模型的因子分解
无向图模型提供了一种分析随机变量之间关系的手段,当已知一组随机变量,能很清楚表达随机变量之间关系的方法是联合概率分布P(Y),根据已知的无向图模型,可以得到联合概率分布P(Y)的形式。
团:在无向图模型中有一些结点(随机变量),这些结点中任意两个结点都有边相连,这些随机变量组成的集合称为团。如图,Y1和Y2有一条边相连,Y1,Y2可以称为一个团,同理Y2和Y3有一条边相连,Y2,Y3也可以称为一个团,不能将Y1,Y2,Y4称为一个团,因为Y1和Y4之间是没有边相连的,Y1,Y2,Y3可以组成一个团。
**最大团:**当给定一个团,在该团中不能再加进任何一个结点使其成为更大的团,比如Y1,Y2,Y3就是一个最大团。
Hammersley−Clifford定理:概率无向图模型的联合概率分布P(Y)可以表示为如下形式:P(Y)=1Z∏CΨC(YC) Z=∑Y∏CΨC(YC) 其中,C是无向图的最大团,YC是C的结点对应的随机变量,ΨC(YC)是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的,ΨC(YC)=exp−E(YC)。E(YC)称为能量函数。 Hammersley-Clifford定理:\\ 概率无向图模型的联合概率分布P(Y)可以表示为如下形式:\\P(Y)=\frac{1}{Z} \prod_C \Psi_C(Y_C) \ Z=\sum_Y \prod_C \Psi_C(Y_C) \\其中,C是无向图的最大团,Y_C是C的结点对应的随机变量,\Psi_C(Y_C)是C上定义的严格正函数,\\乘积是在无向图所有的最大团上进行的,\Psi_C(Y_C) = \exp{-E(Y_C)}。E(Y_C)称为能量函数。 Hammersley−Clifford定理:概率无向图模型的联合概率分布P(Y)可以表示为如下形式:P(Y)=Z1C∏ΨC(YC) Z=Y∑C∏ΨC(YC) 其中,C是无向图的最大团,YC是C的结点对应的随机变量,ΨC(YC)是C上定义的严格正函数,乘积是在无向图所有的最大团上进行的,ΨC(YC)=exp−E(YC)。E(YC)称为能量函数。
条件随机场(CRF)的的定义与形式
线性链条件随机场
如果只考察随机变量Y=(Y1,Y2,⋯ ,Yn),这些变量是用无向边连接的,属于无向图(马尔可夫随机场),但现在有另一组随机变量X=(X1,X2,⋯ ,Xn),对每个随机变量Y都产生影响,由于X已知,在无向图中就添加了它,X为条件,X和Y合起来称为条件随机场,由于Y是线性连接的,所以称为线性链条件随机场。P(Yv∣X,Yw,w≠v)=P(Yv∣X,Yw,w∼v),其中v表示任意一个结点,w≠v表示v以外的所有结点,w∼v表示与v有边连接的所有结点,上述等式表示给定X,Y,w的条件下,给定其他所有结点v的分布等于给定和它相邻的结点v的分布,其实是局部马尔可夫性。 如果只考察随机变量Y=(Y_1,Y_2,\cdots,Y_n),这些变量是用无向边连接的,属于无向图(马尔可夫随机场),\\但现在有另一组随机变量X=(X_1,X_2,\cdots,X_n),对每个随机变量Y都产生影响,由于X已知,\\在无向图中就添加了它,X为条件,X和Y合起来称为条件随机场,由于Y是线性连接的,所以称为线性链条件随机场。\\P(Y_v|X,Y_w,w \neq v) = P(Y_v|X,Y_w,w \sim v),其中v表示任意一个结点,w \neq v表示v以外的所有结点\\,w \sim v表示与v有边连接的所有结点,上述等式表示给定X,Y,w的条件下,给定其他所有结点v的分布\\等于给定和它相邻的结点v的分布,其实是局部马尔可夫性。 如果只考察随机变量Y=(Y1,Y2,⋯,Yn),这些变量是用无向边连接的,属于无向图(马尔可夫随机场),但现在有另一组随机变量X=(X1,X2,⋯,Xn),对每个随机变量Y都产生影响,由于X已知,在无向图中就添加了它,X为条件,X和Y合起来称为条件随机场,由于Y是线性连接的,所以称为线性链条件随机场。P(Yv∣X,Yw,w=v)=P(Yv∣X,Yw,w∼v),其中v表示任意一个结点,w=v表示v以外的所有结点,w∼v表示与v有边连接的所有结点,上述等式表示给定X,Y,w的条件下,给定其他所有结点v的分布等于给定和它相邻的结点v的分布,其实是局部马尔可夫性。
简化形式
P(y∣x)=1Z(x)exp∑k=1Kwkfk(y,x)其中Z(x)=∑yexp∑k=1Kwkfk(y,x)fk(yi−1,yi,xi)={ tk(yk,yi,x,i),k=1,2,⋯ ,K1sl(yi,x,i),k=K1+l;l=1,2,⋯ ,K2wk={ λk,k=1,2,⋯ ,K1μl,k=K1+l;l=1,2,⋯ ,K2tk,sl是两个特征函数,通常,特征函数tk,sl取值为1或0,当满足特征条件时取值为1,否则为0,tk是关于yi,yi−1特征函数,sl是关于yi特征函数,函数tk称为转移特征,函数sl称为状态特征。条件随机场的参数是λk,μl。 P(y|x)=\frac{1}{Z(x)} \exp \sum_{k=1}^K w_k f_k(y,x)\\其中Z(x)=\sum_y \exp \sum_{k=1}^K w_k f_k(y,x) \\ f_k(y_{i-1},y_i,x_i)= \left \{ \begin{array}{l} t_k(y_k,y_i,x,i), \quad k = 1,2,\cdots,K_1 \\ s_l(y_i,x,i), \quad k=K_1+l;l=1,2,\cdots,K_2 \end{array} \right. \\ w_k = \left \{ \begin{array}{l} \lambda_k,\quad k = 1,2,\cdots,K_1 \\ \mu_l, \quad k=K_1+l;l=1,2,\cdots,K_2 \end{array} \right. \\ t_k,s_l是两个特征函数,通常,特征函数t_k,s_l取值为1或0,当满足特征条件时取值为1,否则为0,\\t_k是关于y_i,y_{i-1}特征函数,s_l是关于y_i特征函数,函数t_k称为转移特征,函数s_l称为状态特征。\\条件随机场的参数是\lambda_k,\mu_l。 P(y∣x)=Z(x)1expk=1∑