日本語入力を支える技術 ―変わり続けるコンピュータと言葉の世界 WEB+DB PRESS plus [Kindle]
- 技術評論社 (2018年11月14日発売)
- Amazon.co.jp ・電子書籍 (456ページ)
感想・レビュー・書評
-
1章 日本語と日本語入力システムの歩み
最初は単文節変換であったがそこから今普及している連文節変換に進歩していった。現在統計的手法、機械学習を利用した方法を適用されている。
日本語入力システムとしてはMicroSoftのIMEとジャストシステムのATOKの2強の時代を迎えるが2009年からGoogleとBaiduから新しい日本語入力システムの発表があった。
2章 日本語入力の概観
日本語入力システムはかなり複雑。あとの章で1つ1つ解説していく。
3章 かな漢字変換エンジンに用いられているデータ構造
かな漢字変換に用いるデータ構造としては、つまり辞書に用いられているデータ構造としてはマップ構造(ハッシュテーブル)が用いられている。辞書を引くとき効率的な共通接頭辞書検索をトライと呼ばれるデータ構造を用いている。あとダブル配列、LOUDSという方法も用いられている
4章 かな漢字変換システムの実装
単語などをノードとし考えそれらをエッジとして結び文書全体を1つのグラフとして考え最短経路問題として解く
5章 統計・機械学習のアルゴリズムとその応用
最近機械学習とかいろいろ聞くがこの本がでたのが2012年なのでそのころからすでに応用問題として考えられていたのですね。
6章 日本語入力のこれから
予測入力(携帯なので採用されている)など
そういえばいろんな日本語入力システムがあった、なつかしい。詳細をみるコメント0件をすべて表示 -
なかなか濃ゆい本だった(小並感)。