本文从建模角度出发,通过概率图模型分析隐马尔可夫,条件随机场,文章重点在模型建立理论基础
1. 什么是概率图模型
用图来表示变量概率依赖关系的理论,集合概率论图图论知识,利用图来表示与模型有关的变量的联合概率分布。
2. 常见概率图模型分类
图模型的分类标准有:根据边有无无方向的分类,根据表示的抽象级别的分类,一般常见概率图模型分为概率有向图,概率无向图2类;概率有向图有常见的隐马尔可夫模型(Hidden Markov model, HMM),卡尔曼滤波器(Kalman filter);常见的概率无向图有波兹曼机(Boltzman machnie),局部有向模型,即同时存在有向边与无向边,比如条件随机场(Conditional random field, CRF)。概率有向图模型适合为有单向依赖的数据建模,而概率无向图模型适合实体之间有相互依赖的数据建模
3. 有向图、无向图、部分有向图
3.1 图1有向图,就是隐马尔可夫模型,起对应两个假设:
齐次马尔科夫假设,假设隐藏的马尔可夫链在任意时刻t的状态只依赖于前一时刻的状态,与其他因素无关观测独立性假设,假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他因素无关
依据上面两个假设,图1所示图模型的联合分布概率
3.2 假设隐藏状态y(也简称为,状态序列,词性标注任务中样本数据的标签,词性标志tag)取值有N种可能,可能的观测变量x ( 词性标注中的样本数据,也就是中文词 )有M个可能取值,通过上述表达式可以推断出,HMM模型三要素:
3.2.1. 转移矩阵
3.2.2. 观测矩阵(发射矩阵)
3.2.3. 初始状态概率向量
3.3 HMM三个问题
模型学习,学习问题分为带状态序列的有监督学习,以及不带状态序列的无监督学习概率计算问题,给定模型,观测序列,计算该序列出现概率 预测问题,已知模型参数,以及观测序列,求解该观测序列对应的最佳隐藏状态序列
3.3.1. 模型学习
a). 训练阶段包含隐藏状态 -- 极大似然估计,不展开
b). 训练阶段包不含隐藏状态 -- Baum-Welch算法
3.3.2. 概率计算问题
3.3.3. 预测问题 -- 维特比算法
实质是用动态规划求概率最大路径问题,假设最优路径在t时刻经过结点i,那么结点i到终点的部分路径,相较于从i到终点的所有可能部分路径来说,必须是最优的,否则矛盾。
4. 马尔科夫随机场概念
5 条件随机场
5.1 建模
条件随机场建模都提到了无向图模型,给出的理由是,无向图的联合概率分布可以通过最大团(团中任意两结点间有连线)的随机变量函数的乘积形式做因子分解,也就是严格正值势函数的连乘形式。那么模型的联合概率分布就得到了,根据条件概率公式等到条件分布概率。
已知无向图通过最大团的因子分解表达式:,那么条件分布概率:
这是CRF建模理论基础
5.2 模型学习
概率模型学习的一个准则就是最大熵模型;条件随机场给出的条件分布概率就是一个最大熵模型。通过最大熵模型学习方式改进的迭代尺度法、牛顿法、拟牛顿法、梯度下降方法都可以求得该模型(凸函数)的全局最优解。
6 有向图模型与无向图模型的对比
6.1 共同之处
将复杂的联合分布分解为多个因子的乘积
6.2 不同之处
有向图模型因子是概率分布、无需全局归一
无向图模型因子是势函数,需要全局归一
6.3 优缺点
无向图模型中势函数设计不受概率分布约束,
设计灵活,但全局归一代价高
有向图模型无需全局归一、训练相对高效
参考:
李航 统计学习方法
概率图模型体系:HMM、MEMM、CRF
概率图模型