分布をとる、平均値・分散・標準偏差・偏差値 実験データにRを使う

  • 100人の試験の点数の処理をしてみる
    • 前の記事を参考に、データを入力する
t<-read.table("clipboard")
# 単純な値のベクトルに入れなおす
t2<-t$V1
  • 一番簡単なplot()関数を適用してみる
    • 横軸に「受験番号1」から「受験番号100」の順。縦軸が得点。

plot(t2)
    • もし縦軸を0から100までに指定したいなら

plot(t2,ylim=c(0,100))
  • 受験番号の順に興味がなく、得点分布に興味があるなら
    • 度数分布を描く

hist(t2)
      • 分布を知るには
        • 平均(mean)、標準偏差(sd)、分散(var)(sd^2=var)、中央値(median)
> mean(t2)
[1] 67.61
> sd(t2)
[1] 10.64192
> var(t2)
[1] 113.2504
> sd(t2)^2
[1] 113.2504
> median(t2)
[1] 68
        • 最低点(min)、最高点(max),(range()は最低と最高のペア)を知るには
> min(t2)
[1] 39
> max(t2)
[1] 100
> range(t2)
[1]  39 100
        • 最低・最高、平均値・中央値と、25パーセンタイル、75パーセンタイルを一括して出すこともできる
> summary(t2)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  39.00   60.00   68.00   67.61   74.00  100.00
  • 箱ひげ図
    • ヒストグラムを描いてもよいが、少し省略して描くと箱ひげ図になる

boxplot(t2)
  • 偏差値を計算する
    • 「偏差値」は平均点の人のそれが50になり、平均点より標準偏差分だけ点数が高い人のそれが60になるように計算する
      • 式で書けば(point-mean)/sd \times 10 +50
      • Rで書けば
v<-(t2-mean(t2))/sd(t2)*10+50
# ヒストグラムにしてみる
hist(v)
  • 自分の受験番号が13番であるとして、点数順のプロットでどこに位置するかを示してみよう

plot(sort(t2))
abline(h=t2[13],col=2)