ASR

语音识别的三个阶段

  • 模版匹配
  • 概率模型
  • 神经网络

概率模型

  • Y:输入音频信号
  • W:输出单词序列 我们的任务W=argmaxW P(WY)=argmaxWP(YW)P(W)W = \arg\max_W\ P(W|Y) = \arg\max_W P(Y|W) \cdot P(W)

前者是声学模型AM,后者是语言模型LM

语音模型

声学模型

HMM

定义`HMM:λ=(S,A,B,π)\lambda = (S,A,B,\pi)

  • S:状态集合
  • A:状态转移概率分布,Aai(aj)A_{a_i}(a_j)表示从状态ai{a_i}转移到aj{a_j}的概率
  • B:发射概率,观察结果概率分布,Aai(oj)A_{a_i}(o_j)表示在状态ai{a_i}下观察到结果oj{o_j}的概率
  • π\pi:状态初始化概率分布

AB可以用矩阵描述,也可以用其他概率分布来描述,比如高斯分布

HMM的三个基本问题

定义观察序列O={o1,o2,...,ot}O = \{o_1,o_2,...,o_t\},状态序列Q={q1,q2,...,qt}Q = \{q_1,q_2,...,q_t\},隐马尔可夫模型`HMM``:λ=(S,A,B,π)\lambda = (S,A,B,\pi)

估计问题

给定隐马尔可夫模型HMM,计算观察序列OO的出现概率P(Oλ)P(O|\lambda)

解码问题

给定隐马尔可夫模型HMM,观察序列OO,求解最大概率的状态序列Q=maxQ P(QO,λ)Q = max_Q\ P(Q|O,\lambda)

训练问题

观察序列OO,求解最优模型λ=argmaxλP(Oλ)\lambda = \arg\max_{\lambda} P(O|\lambda)

GMM

HMM-GMM

HMM-GMM声学模型

实际上HMM-GMM就是用GMM来描述HMMB,通常而言A是不需要训练的,给出默认值即可

训练问题

对齐问题

建模问题

初始化问题

results matching ""

    No results matching ""

    results matching ""

      No results matching ""