A班 第1回研究会

日時:7月28日(金)・29日(土)

場所:中部大学 恵那研修センター

音声認識誤りを考慮した対話制御方式について  新美康永 小林豊 (京工繊大)

HM-net に基づく音素モデルと言語モデルの獲得  鈴木基之 牧野正三 阿曽弘具 (東北大)

自然な対話音声の合成と評価  粕谷英樹 楊長盛 丁文 松下貴光 (宇都宮大)

声の基本周波数の話者間相互作用 --質疑応答形式の対話の場合--  垣田邦子 (富山県立大)

認知駆動型の調音制御 --発話の可変性について--  新美成二 今泉敏 (東大) 世木秀明 (千葉工大)

2チャネル信号間の相互相関に基づいたSBCOR分析  梶田将司 板倉文忠 (名古屋大)


1. 音声認識の誤りを考慮した対話制御の方式について

新美康永 小林豊 (京都工繊大)

我々は、認識誤りを犯すことのある音声認識部を持つ音声対話システ ムが、ユーザ発話の認識内容を直接確認あるいは間接確認しながら音 声対話を進めてユーザの発話意図を理解していく状況における対話制 御方式の数学的なモデル化について研究を進めている。音声認識結果 の信頼性が定量的に評価されると、信頼性の低い場合、発話を棄却し て再入力を促したり、話者に聞き返すことにより確認を取ることがで き、全体としての認識性能を向上させることができる。本稿では、音 声認識の誤りや未知語区間(この部分で認識の信頼性が劣化すると考 えられる)の検出方式と実験結果について報告し、それに基づく対話 制御方式について考察した。


2. HMnetに基づく音素モデルと言語モデルの獲得

鈴木基之 牧野正三 阿曽弘具 (東北大)

HMnetはergodic HMMとleft-to-right HMMの中間的な構造をしており, 両者の利点をあわせもっている.HMnet構成法には逐次状態分割法が あるが,出力分布として2混合の連続型ガウス分布を持つ必要がある. そこで本研究では各種の出力分布を持つHMnet構成法を提案した.離 散型HMnetを言語モデルへ適用し,trigram を越える性能を持つこと を確認した.またこの時,学習サンプル数に対して最適な状態数を決 定するための評価値を提案し,有効性を確認した.


3. 自然な対話音声の合成と評価

粕谷英樹 楊長盛 丁文 松下貴光 (宇都宮大)

自然な対話音声を合成するために、VCVフォルマントテンプレート接 続による音声合成法を提案する。 そのために、まず音声生成過程を、 ARX (Autoregressive exogeneous) モデルで表現し、Kalman Filter と Annealing 法によって、自然音声から音源パラメータとフォルマ ントパラメータを自動に推定するための改良したアルゴリズムについ て述べる。 次にVCVフォルマントテンプレートを半自動的に作成する ための方法、フォルマントテンプレート合成法について述べる。最後 に、対話音声の時間構造に関する実験結果を報告し、対話音声として 合成音声を用いるときの評価の枠組みについて簡単に述べる。


4. 声の基本周波数の話者間相互作用 --質疑応答形式の対話の場合--

垣田邦子 (富山県立大)

本研究では、簡単な質疑応答形式の対話においてどのような話者間相 互作用がみられるかを、声の基本周波数について解析した。その結果、 5例中4例の対話において、対話の経過とともに質問者と応答者のF0値 の差が減少する、すなわち両者の声の高さが近づくという結果が得ら れた。また、対話開始時に質問者と応答者のF0の差が小さいほど、' 追従'(1人の話者のF0が上昇/下降すると、もう1人の話者のF0もそれ を追って上昇/下降するという関係)の回数が多かった。


5. 発話スタイルの認知駆動型変化 --母音の無声化にみる規則的変化--

今泉敏 新美成二 桐谷滋 (東京大) 世木秀明 (千葉工大)

難聴学級教師や医師、言語治療士が難聴児・者に対して聴覚特性を補 償する様な語りかけを行なうかどうかを、東京及び大阪方言の無声化 が起きる環境での母音に対して検討し、以下の結果を得た。1)両方 言とも難聴児・者に対する音声ではモーラを延長させる傾向がある。 また、2)無声化はモーラ長に強く制約される現象であり、モーラ長 が短ければ短いほど上昇する特性を持つ。3)モーラ長と無声化率の 関係を比較すると、平均的には難聴児に対して有意に無声化率が低かっ た。4)会話相手や会話対朗読など状況因子に応じて、モーラ長と無 声化率の関係は変化させ得る。難聴学級の教師は難聴児に対して積極 的に無声化率を下げる様な調音をしていた。大阪方言の医師、言語治 療士でも同様であった。5)ただし、その変化には一定の規則があり、 日本語の音韻的制約上無声化し易い(すべき)モーラはたとえ難聴児 に対しても無声化率は比較的高く保たれる。この傾向は特に東京方言 で顕著であった。以上の結果は、話者は目的に応じた話法を採択する こと、難聴児・者に対する語り掛けにおいては音韻的制約上許容され る範囲で無声化を防ぐような積極的な調音を行うこと、音響的に測定 された無声化は音韻的制約と音声的制約(調音結合、有声化動作の無 声化動作による「被覆」)と、話者の状況依存的調音意図との相互作 用によって決定されることを示唆している。


6. 2チャネル信号間の相互相関に基づいたSBCOR分析

梶田将司 板倉文忠 (名古屋大)

現在我々は音声信号に含まれる周期性に着目した音声分析手法である 帯域分割-自己相関(SBCOR)分析法を提案し、実環境下での音声認識性 能の向上について検討している。今回はこれまで提案してきた1入力 信号の自己相関に基づいたSBCOR分析を両耳聴のような2入力信号間 の相互相関に基づいたものに拡張し、ダミーヘッドを用いて収録した 信号に対して適用した際の認識性能について、従来の SBCOR 分析お よび平滑化群遅延スペクトルと比較した予備的な検討結果について報 告した。