ASR
语音识别的三个阶段
概率模型
Y
:输入音频信号
W
:输出单词序列
我们的任务W=argmaxW P(W∣Y)=argmaxWP(Y∣W)⋅P(W)
前者是声学模型AM
,后者是语言模型LM
语音模型
声学模型
HMM
定义`HMM:λ=(S,A,B,π)
S
:状态集合
A
:状态转移概率分布,Aai(aj)表示从状态ai转移到aj的概率
B
:发射概率,观察结果概率分布,Aai(oj)表示在状态ai下观察到结果oj的概率
- π:状态初始化概率分布
A
和B
可以用矩阵描述,也可以用其他概率分布来描述,比如高斯分布
HMM的三个基本问题
定义观察序列O={o1,o2,...,ot},状态序列Q={q1,q2,...,qt},隐马尔可夫模型`HMM``:λ=(S,A,B,π)
估计问题
给定隐马尔可夫模型HMM
,计算观察序列O的出现概率P(O∣λ)
解码问题
给定隐马尔可夫模型HMM
,观察序列O,求解最大概率的状态序列Q=maxQ P(Q∣O,λ)
训练问题
观察序列O,求解最优模型λ=argmaxλP(O∣λ)
GMM
HMM-GMM
HMM-GMM声学模型
实际上HMM-GMM
就是用GMM
来描述HMM
的B
,通常而言A
是不需要训练的,给出默认值即可
训练问题
对齐问题
建模问题
初始化问题