今まで、テキストマイニングは、言語ジャンルを顧慮せずに、共起関係による単語の分布特徴の数量化的把握を中心に使われてきた。AI による言語のビッグデータ解析も基本的には単語の量的分布特徴の把握である。しかし、言語には語、文、文章という質の異なる単位が存在し、実際に社会で使われている言語単位は、すべて文章である。言語の質的特徴が把握されない限り、いくら AI の自然言語処理技術が発展しても、寛容な部分で信頼性や実用性を高めることは難しい。逆に言えば、人間が質的に言語を理解しているときの特徴把握が具体的に認識できれば、それは AI の自然言語処理にも応用可能であり、また言語研究においても新しい分野を開拓する契機になる。
本発表では、文章構成の違いでテキストマイニングの結果の意味が異なる点に注目し、単語の分布特徴と質的な意味理解である文章ジャンルの相違に応じた内容理解との関係を解明していきたい。今回は、文章ジャンルの中から新聞の論説記事、事件記事、解説記事という 3 種類の文章構成の異なる文章を選び、テキストマイニングによる量的分析結果と質的分析で読んだ結果とを比べ、相互に比較対照して、文章ジャンルに相違に応じてテキストマイニングが捉えている質的な意味の位相を明らかにしてみたい。