ぱらぱらめくる『Rによるテキストマイニング入門』

  • こちらの学習過程のグラフ化のために相当量の基礎用語を取り込むのに使えそう

Rによるテキストマイニング入門

Rによるテキストマイニング入門

尿細管は、腎臓における糸球体より集合管にいたるまでの、原尿が通り再吸収・分泌などを受ける組織のこと。
    • 結果:

      • 尿細管が「尿」「細管」にわかれる、糸球体が「糸」と「球体」にわかれる、集合管が、再吸収が…と登録用語の医学用語対応が甘いが(それは普通のワープロも同じこと)。これについては、「尿細管」という言葉があるというのも、「(こちらの)学習過程」と割り来れば、よし、か。
  • 5. RMeCabによるテキスト解析
res <- RMeCabC("尿細管は、原尿が通り再吸収・分泌などを受ける組織のこと。")
res
    • 結果
> res
[[1]]
名詞 
"尿" 

[[2]]
  名詞 
"細管" 

[[3]]
助詞 
"は" 

[[4]]
記号 
"、" 

[[5]]
名詞 
"原" 

[[6]]
名詞 
"尿" 

[[7]]
助詞 
"が" 

[[8]]
  動詞 
"通り" 

[[9]]
接頭詞 
  "再" 

[[10]]
  名詞 
"吸収" 

[[11]]
記号 
"・" 

[[12]]
  名詞 
"分泌" 

[[13]]
  助詞 
"など" 

[[14]]
助詞 
"を" 

[[15]]
    動詞 
"受ける" 

[[16]]
  名詞 
"組織" 

[[17]]
助詞 
"の" 

[[18]]
  名詞 
"こと" 

[[19]]
記号 
"。" 

> 
    • テキストファイルから読み込む
res2 <- RMeCabText("nyousaikan.txt")
    • MeCabの辞書整備
      • これがちょっと面倒くさそう
    • 少しフォーマット化された電子ファイルを読むときはRのデータフレーム読み込みを利用したりする関数も用意されている
    • 複数の文書を文書集合として、それらの情報を行列に収める作業があり、ターム・文書行列と呼ぶ。そのための関数もある
    • テキストマイニングの「気持ち」を反映させた部分
      • 重みづけして行列化
      • 共起関係(近くに登場するタームを評価)
  • 事例
    • 6. インターネット上のクチコミ情報の分析
    • 7. アンケートの自由記述文の分析
    • 8. 沖縄観光アンケートの分析
    • 9. 新聞記事のクラスター分析
    • 10. N-gramを利用したクラスター分析
      • 漱石・鴎外の短編とかも対象に