- こちらの学習過程のグラフ化のために相当量の基礎用語を取り込むのに使えそう
- 目次
- 1. テキストマイニングとは何か
- 2. テキストマイニングの準備
- 3. Rになれる
- 4. MeCabとRMeCab
- 5. RMeCabによるテキスト解析
- 6. インターネット上のクチコミ情報の分析
- 7. アンケートの自由記述文の分析
- 8. 沖縄観光のアンケートの分析
- 9. テキストの自動分類
- 10. 書き手の判別
- 1. テキストマイニングとは何か
- マイニング
- 大量テキストから有益な情報を探し出す
- 自由記載欄からも情報を取り出す
- 特徴抽出、分類、検索
- 日本語処理に関すること:形態素解析器
- 言葉の解析→データ解析
- 2. 3. テキストマイニングの準備 Rに慣れる
- RとRMeCab(ダウンロードはこちらから)、zipを取ってきてローカルzipからインストールを選ぶ(Windows)
- 4. MeCabとRMecab
尿細管は、腎臓における糸球体より集合管にいたるまでの、原尿が通り再吸収・分泌などを受ける組織のこと。
-
-
- 尿細管が「尿」「細管」にわかれる、糸球体が「糸」と「球体」にわかれる、集合管が、再吸収が…と登録用語の医学用語対応が甘いが(それは普通のワープロも同じこと)。これについては、「尿細管」という言葉があるというのも、「(こちらの)学習過程」と割り来れば、よし、か。
- 5. RMeCabによるテキスト解析
res <- RMeCabC("尿細管は、原尿が通り再吸収・分泌などを受ける組織のこと。")
res
> res
[[1]]
名詞
"尿"
[[2]]
名詞
"細管"
[[3]]
助詞
"は"
[[4]]
記号
"、"
[[5]]
名詞
"原"
[[6]]
名詞
"尿"
[[7]]
助詞
"が"
[[8]]
動詞
"通り"
[[9]]
接頭詞
"再"
[[10]]
名詞
"吸収"
[[11]]
記号
"・"
[[12]]
名詞
"分泌"
[[13]]
助詞
"など"
[[14]]
助詞
"を"
[[15]]
動詞
"受ける"
[[16]]
名詞
"組織"
[[17]]
助詞
"の"
[[18]]
名詞
"こと"
[[19]]
記号
"。"
>
res2 <- RMeCabText("nyousaikan.txt")
-
- MeCabの辞書整備
- 少しフォーマット化された電子ファイルを読むときはRのデータフレーム読み込みを利用したりする関数も用意されている
- 複数の文書を文書集合として、それらの情報を行列に収める作業があり、ターム・文書行列と呼ぶ。そのための関数もある
- テキストマイニングの「気持ち」を反映させた部分
- 重みづけして行列化
- 共起関係(近くに登場するタームを評価)
- 事例
- 6. インターネット上のクチコミ情報の分析
- 7. アンケートの自由記述文の分析
- 8. 沖縄観光アンケートの分析
- 9. 新聞記事のクラスター分析
- 10. N-gramを利用したクラスター分析