<<目次へ


数量化T類の補足説明



 数量化T類のページでは,数量化理論の目的が質的データを量的データへと変換するのだということを示すためにあのような変換手順を説明したわけである。しかし実際にはあのような面倒な作業はする必要がない。なぜならば,数量化T類というものはダミー変数を用いた重回帰分析と同等だからである。したがって,このページでダミー変数を用いた場合の重回帰分析の手順を示す。


表-1 説明変数X1,X2がカテゴリデータの場合

観測数 Y(目的変数) X1 X2
No.1 7 1 1
No.2 9 2 2
No.3 12 4 1
No.4 10 1 1
No.5 8 3 3
No.6 13 1 2
No.7 10 4 3
No.8 9 3 1
No.9 11 2 3
No.10 12 1 2



表-2 説明変数X1,X2をダミー変数として置き換えた場合

観測数 Y(目的変数) z1 z2 z3 z4 d1 d2 d3
No.1 7 1 0 0 0 1 0 0
No.2 9 0 1 0 0 0 1 0
No.3 12 0 0 0 1 1 0 0
No.4 10 1 0 0 0 1 0 0
No.5 8 0 0 1 0 0 0 1
No.6 13 1 0 0 0 0 1 0
No.7 10 0 0 0 1 0 0 1
No.8 9 0 0 1 0 1 0 0
No.9 11 0 1 0 0 0 0 1
No.10 12 1 0 0 0 0 1 0



図-1 ダミー変数へと置き換える方法



ダミー変数を用いて重回帰分析を行う

 X1のダミー変数としてz1〜z4までの変数を用意し,X2のダミー変数としてd1〜d3までの変数を用意した。しかし分析する際には最初のダミー変数を除いて行う。すなわち扱うダミー変数はz2〜z4,d2〜d3である。

-Rによる実行-
> dat
      [,1] [,2] [,3] [,4] [,5] [,6]
 [1,]    7    0    0    0    0    0
 [2,]    9    1    0    0    1    0
 [3,]   12    0    0    1    0    0
 [4,]   10    0    0    0    0    0
 [5,]    8    0    1    0    0    1
 [6,]   13    0    0    0    1    0
 [7,]   10    0    0    1    0    1
 [8,]    9    0    1    0    0    0
 [9,]   11    1    0    0    0    1
[10,]   12    0    0    0    1    0
> result<-lm(dat[,1]~dat[,2]+dat[,3]+dat[,4]+dat[,5]+dat[,6])
> summary(result)

Call:
lm(formula = dat[, 1] ~ dat[, 2] + dat[, 3] + dat[, 4] + dat[, 
    5] + dat[, 6])

Residuals:
      1       2       3       4       5       6       7       8       9 
-2.4375 -1.8750  1.1875  0.5625 -0.6875  1.4375 -1.1875  0.6875  1.8750 
     10 
 0.4375 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)   9.4375     1.4534   6.493   0.0029 **
dat[, 2]     -0.6875     2.1275  -0.323   0.7628   
dat[, 3]     -1.1250     2.1973  -0.512   0.6356   
dat[, 4]      1.3750     2.1973   0.626   0.5654   
dat[, 5]      2.1250     1.9029   1.117   0.3267   
dat[, 6]      0.3750     1.9029   0.197   0.8534   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 2.197 on 4 degrees of freedom
Multiple R-Squared: 0.413,      Adjusted R-squared: -0.3208 
F-statistic: 0.5628 on 5 and 4 DF,  p-value: 0.7295 

 以上の結果から回帰方程式

 ・・・式1

を得ることができました。この式に各サンプルの(ダミー変数の)データを代入することによって,予測値が得られます。

 この予測値は数量化T類のプログラムが出す結果と同じです。また数量化T類のページで行った変換後のデータについて重回帰分析を適用した場合の結果とも当然ですが同じです。

-数量化したカテゴリーデータについて重回帰分析を適用-
> dat2
      [,1]    [,2]   [,3]
 [1,]    7  0.0875 -0.750
 [2,]    9 -0.6000  1.375
 [3,]   12  1.4635 -0.750
 [4,]   10  0.0875 -0.750
 [5,]    8 -1.0375 -0.375
 [6,]   13  0.0875  1.375
 [7,]   10  1.4635 -0.375
 [8,]    9 -1.0375 -0.750
 [9,]   11 -0.6000 -0.375
[10,]   12  0.0875  1.375
> result2<-lm(dat2[,1]~dat2[,2]+dat2[,3])
> summary(result2)

Call:
lm(formula = dat2[, 1] ~ dat2[, 2] + dat2[, 3])

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4372 -1.0627  0.5002  1.0623  1.8750 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  10.0998     0.5253  19.228 2.56e-07 ***
dat2[, 2]     0.9996     0.6245   1.601    0.153    
dat2[, 3]     1.0001     0.5796   1.726    0.128    
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 

Residual standard error: 1.661 on 7 degrees of freedom
Multiple R-Squared: 0.413,      Adjusted R-squared: 0.2453 
F-statistic: 2.462 on 2 and 7 DF,  p-value: 0.1550 

 以上の結果から次式を得られました。

 ・・・式2


 式1と式2の予測値を比較してみてください。



参考文献(URL)

http://aoki2.si.gunma-u.ac.jp/LaTeX/sreg-qt1.pdf