自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
ドメイン固有の文字列情報の組み込みによる形態素解析処理の精度の向上
延澤 志保佐藤 健吾斎藤 博昭
著者情報
ジャーナル フリー

2002 年 9 巻 3 号 p. 21-40

詳細
抄録

辞書ベースの自然言語処理システムでは辞書未登録語の問題が避けられない. 本稿では訓練コーパスから得た文字の共起情報を利用する手法で辞書未登録語の抽出を実現し, 辞書ベースのシステムの精度を向上させた. 本稿では形態素解析ツールをアプリケーションとして採用し, 処理時に統計情報を動的に利用することによって形態素の切り分けの精度を上げる手法と, 統計情報を利用して事前に辞書登録文字列を選別し必要なコスト情報を補って辞書登録を行なう手法との2つのアプローチを提案し, さらにこの2つの手法を組み合わせてそれぞれの欠点を補う手法を提案する. どちらも元のツールの改変を行なうものではなく, 統計情報の付加的な利用を半自動的に実現するもので, 元のツールでは利用できない辞書未登録語の抽出に対象を絞ることで精度の向上を図る. 実験の結果, 動的な統計情報の利用のシステムが未知語の認識に, 辞書登録システムが切り分け精度の向上に有効であることが示され, 2つのシステムを適切に組み合わせることによって訓練コーパスのデータで認識可能な辞書未登録語をほぼ完全に解決できた. さらに複合語の認識も高い精度で実現することができた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top