1.音声情報処理

音声をコンピューターに認識させ、文字列を理解、

 声質による話者の識別などを行わせるための一連の技術

 

1.1.音声情報処理の概要

人の音声を信号データーとして扱い、コンピュータを用いて分析、変換、合成などの情報処理を行なう技術です。音声の周波数分析音声認識音声合成、音声情報の圧縮、音声情報信号の効率的伝送・記録などが具体的な内容です。

アナログ信号である音声をサンプリングし数値であるデジタル信号にするようになったことで大きく進展しました。音声合成や音声圧縮などは、デジタル信号処理のハードウェア・ソフトウェア技術の進歩で実用域に達しています。しかし音声認識については、先述のように自然言語処理そのものの難しさから、機械学習では特徴量の抽出で認識率が60%くらい、「ディクテーション(書き取りという意)」と呼ばれる事前のトレーニングをすることにより、日本語では理想的な環境下では80%の認識率が達成できるとされています。

しかし深層学習技術の発達により、最近では音声翻訳やスマートスピーカーでこの音声情報の認識がにわかに進み、実用域まで来ています。Googleの音声認識技術(ここではAIですが)を使ったスマートスピーカーが出ています。ソニーも自社の技術ではなくGoogleの技術を使っているようです。

MicrosoftはLSTMを深層学習の想起(リコール)処理を高速処理できるGPU(後述)に載せ、高度な新しい音声認識を実験しています。LSTM ネットワークには、情報をより長期的に「記憶」できるという利点があるため、ほとんどのニューラル ネットワーク言語モデルよりも単語への感度が高まります。今後の音声認識は機械学習では限界な認識率を、このLSTMの深層学習による自然言語処理に置き換え、進んでいくものと思われます。

 

  • 参考URL:ソニーのスマートスピーカー

https://www.sony.jp/smart-speaker/about/

 

 

 

1.2.従来の音声認識

従来の音声認識は、統計的手法が良く用いられています。これは大量の発話を記録した学習用データから音声の特徴を蓄積し、認識対象となる入力音声から抽出された特徴と蓄積された特徴とを比較しながら、最も近い言語系列を認識結果として出力する手法です。音声は音響的な特徴と言語的な特徴の2つを考えることができます。

音響的な特徴とは、認識対象の音素がそれぞれどのような周波数特性を持っているかを表したもので、音響モデルと呼ばれます。音響モデルの表現としては、混合正規分布を出力確率とした隠れマルコフモデルが広く用いられています。

言語的な特徴とは、音素の並び方に関する制約を表したもので、言語モデルと呼ばれる。例えば、「あなた (anata)」という発声の直後には、「が (ga)」や「は (wa)」などの発声が続く確率が高い、などの制約である。言語モデルの表現としては、認識対象の言語が大規模な場合(パソコン上での文書作成など)はn-gramが良く用いられ、認識対象の言語が人手で網羅出来る程度に小さい場合(カーナビの音声操作など)は、文脈自由文法が良く用いられています。

 

1.3.隠れマルコフモデル

音声信号は、断片的あるいは短時間の定常信号と見ることができ、隠れマルコフモデル(Hidden Markov Model、HMM)が適用可能です。マルコフ連鎖(マルコフれんさ、英: Markov chain)は、確率過程の一種であるマルコフ過程のうち、とりうる状態が離散的(有限または可算)なもの(離散状態マルコフ過程)を指しています。マルコフ連鎖は遷移確率が過去の状態によらず、現在の状態のみによる系列です。特に重要な確率過程として、様々な分野に応用されています。

実際には音声認識システムかなり難しく、認識率もままなりません。前述したように、人の声が違ったり句点「、」がないなどのために、品詞に分けるのに他にもいろいろな処理を行っています。現在は、LSTMでの時系列の深層学習による音声認識に移行しようとしています。

1.4.スマートスピーカー

前述したGoogle社の音声認識もこのような深層学習技術を用いています。Google社はGoogle HomeというAI搭載のスマートスピーカーを発売しています。音声操作でGoogle Homeにお願いをすることができます。

 

「OK Google 、今日の天気を教えて」

「OK Google 、ただいま」

「OK Google 、今何時」

 

このように、音声操作でGoogle Homeにいろいろとお願いをすることができます。前述の深層学習による自然言語処理が行われており、「Google Assistant」により想起(Recall)処理が行われれています。日本語などの自然言語の教師データーはGoogleのクラウドにセットされており、ここに想起に行きます。つまり構文解析がなされます。

想起した結果は答えです。答えの教師データーである単語が組み合わせられ、法文を作成し、音声になって出力されます。

1.5.音声認識はAI

音声認識をするためのハードウェア―ブロックを示しました。Google Homeの説明ではありません。あくまで筆者が音声認識を設計することを前提としたブロック図です。実際のGoogle Homeで行っていることとは違うかもしれませんが、大方このような考えだと思います。

まずマイクから入力された音声信号をA/D変換を通してデジタル信号に変えます。このデジタル信号を、前述した機械学習を使い単語列に分けます。もともとLSTMなどのニューラルネットワークにより文章は深層学習されています。この深層学習での教師データー作成は構文の認識と構文作成のためのものです。何を言いたいのかを解析します。

その結果、話して伝えたい内容を得ますが、相手がわかっているだけに、動詞と名詞がわかればなんとかなりますが、肯定か否定かはもちろん抑えておく必要があります。例えば次に様な感じです。


このコンテンツは会員限定のコンテンツです。
会員登録または、ログインしてください。

あわせて読みたい