IT Text 音声認識システム改訂2版

著者 : 河原達也

制作 : 河原達也

オーム社 (2016年9月10日発売)

3.00

本棚登録 : 15人

感想 : 3件

購入ストアへ

サイトに貼り付ける

本ページはアフィリエイトプログラムによる収益を得ています

Amazon.co.jp ・本 (216ページ)
/ ISBN・EAN: 9784274219368

作品紹介・あらすじ

音声認識の基礎からディクテーションシステムまでがわかる
本書は音声認識手法の最新技術について基礎から丁寧に解説するとともに、実際の音声認識ソフトによって実践的に学ぶことができることを目的としたものです。改訂版では、DNNをはじめとした音声認識手法のこの間の発展を補うとともに、音声認識ソフトとデータを最新版のものとします。

感想・レビュー・書評

並び替え

いいね順
新着順

表示形式

リスト
全文

表示件数

絞り込み

岩手県立大学メディアセンターさんの感想

フォロー

2023年7月1日

＜シラバス掲載参考図書一覧は、図書館HPから確認できます＞
https://libipu.iwate-pu.ac.jp/drupal/ja/node/190

0

詳細をみる
コメント0件をすべて表示
ndoiさんの感想

フォロー

2017年2月16日

現在の音声認識技術は、統計モデルにその基盤をおいており、音響モデルには大量の音声データ、言語モデルには、大量のテキストデータが必要不可欠である。
音響モデルでは、音声波形から音声認識に必要な言語情報（音韻情報）に対応する物理的な特徴量（音声特徴量）を抽出する。パターン認識モデルを使い、音声特徴量から音素に変換することで、音声を音素に分解していく。分解された音素モデルを連結することで単語モデルを構成し、最も高い確率で観測された音響特徴量をを出力するモデルに対応する単語を決定する。さらに単語間の接続規則として与えられた文法を満たすさまざまな文仮説の中から、最も高い確率で観測音響特徴量を出力する文を決定する。
言語モデルの現在の主流は、サンプルデータから統計的な手法によって、確率推定を行う統計的言語モデルである。最も単純なＮグラムモデル、中間層の出力をフィードバックさせるリカレントニューラルネットワーク（ＲＮＮ）や、より学習を効果的に行えるようにしたＬＳＴＮなどが使われている。
音声認識システムの実現例として、オープンソースで誰でも使えるJulius、研究開発を行うシステムとしてのKaldi、国会審議の音声認識システムなどがある。

0

詳細をみる
コメント0件をすべて表示
fraserlibさんの感想

フォロー

2016年10月14日

請求記号　548.2/Ka 92

0

詳細をみる
コメント0件をすべて表示