数量化T類の補足説明
数量化T類のページでは,数量化理論の目的が質的データを量的データへと変換するのだということを示すためにあのような変換手順を説明したわけである。しかし実際にはあのような面倒な作業はする必要がない。なぜならば,数量化T類というものはダミー変数を用いた重回帰分析と同等だからである。したがって,このページでダミー変数を用いた場合の重回帰分析の手順を示す。
表-1 説明変数X1,X2がカテゴリデータの場合
| 観測数 | Y(目的変数) | X1 | X2 |
| No.1 | 7 | 1 | 1 |
| No.2 | 9 | 2 | 2 |
| No.3 | 12 | 4 | 1 |
| No.4 | 10 | 1 | 1 |
| No.5 | 8 | 3 | 3 |
| No.6 | 13 | 1 | 2 |
| No.7 | 10 | 4 | 3 |
| No.8 | 9 | 3 | 1 |
| No.9 | 11 | 2 | 3 |
| No.10 | 12 | 1 | 2 |
表-2 説明変数X1,X2をダミー変数として置き換えた場合
| 観測数 | Y(目的変数) | z1 | z2 | z3 | z4 | d1 | d2 | d3 |
| No.1 | 7 | 1 | 0 | 0 | 0 | 1 | 0 | 0 |
| No.2 | 9 | 0 | 1 | 0 | 0 | 0 | 1 | 0 |
| No.3 | 12 | 0 | 0 | 0 | 1 | 1 | 0 | 0 |
| No.4 | 10 | 1 | 0 | 0 | 0 | 1 | 0 | 0 |
| No.5 | 8 | 0 | 0 | 1 | 0 | 0 | 0 | 1 |
| No.6 | 13 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
| No.7 | 10 | 0 | 0 | 0 | 1 | 0 | 0 | 1 |
| No.8 | 9 | 0 | 0 | 1 | 0 | 1 | 0 | 0 |
| No.9 | 11 | 0 | 1 | 0 | 0 | 0 | 0 | 1 |
| No.10 | 12 | 1 | 0 | 0 | 0 | 0 | 1 | 0 |
![]() |
図-1 ダミー変数へと置き換える方法
◆ダミー変数を用いて重回帰分析を行う
X1のダミー変数としてz1〜z4までの変数を用意し,X2のダミー変数としてd1〜d3までの変数を用意した。しかし分析する際には最初のダミー変数を除いて行う。すなわち扱うダミー変数はz2〜z4,d2〜d3である。
-Rによる実行-
> dat
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] 7 0 0 0 0 0
[2,] 9 1 0 0 1 0
[3,] 12 0 0 1 0 0
[4,] 10 0 0 0 0 0
[5,] 8 0 1 0 0 1
[6,] 13 0 0 0 1 0
[7,] 10 0 0 1 0 1
[8,] 9 0 1 0 0 0
[9,] 11 1 0 0 0 1
[10,] 12 0 0 0 1 0
> result<-lm(dat[,1]~dat[,2]+dat[,3]+dat[,4]+dat[,5]+dat[,6])
> summary(result)
Call:
lm(formula = dat[, 1] ~ dat[, 2] + dat[, 3] + dat[, 4] + dat[,
5] + dat[, 6])
Residuals:
1 2 3 4 5 6 7 8 9
-2.4375 -1.8750 1.1875 0.5625 -0.6875 1.4375 -1.1875 0.6875 1.8750
10
0.4375
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 9.4375 1.4534 6.493 0.0029 **
dat[, 2] -0.6875 2.1275 -0.323 0.7628
dat[, 3] -1.1250 2.1973 -0.512 0.6356
dat[, 4] 1.3750 2.1973 0.626 0.5654
dat[, 5] 2.1250 1.9029 1.117 0.3267
dat[, 6] 0.3750 1.9029 0.197 0.8534
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 2.197 on 4 degrees of freedom
Multiple R-Squared: 0.413, Adjusted R-squared: -0.3208
F-statistic: 0.5628 on 5 and 4 DF, p-value: 0.7295
以上の結果から回帰方程式
・・・式1
を得ることができました。この式に各サンプルの(ダミー変数の)データを代入することによって,予測値が得られます。
この予測値は数量化T類のプログラムが出す結果と同じです。また数量化T類のページで行った変換後のデータについて重回帰分析を適用した場合の結果とも当然ですが同じです。
-数量化したカテゴリーデータについて重回帰分析を適用-
> dat2
[,1] [,2] [,3]
[1,] 7 0.0875 -0.750
[2,] 9 -0.6000 1.375
[3,] 12 1.4635 -0.750
[4,] 10 0.0875 -0.750
[5,] 8 -1.0375 -0.375
[6,] 13 0.0875 1.375
[7,] 10 1.4635 -0.375
[8,] 9 -1.0375 -0.750
[9,] 11 -0.6000 -0.375
[10,] 12 0.0875 1.375
> result2<-lm(dat2[,1]~dat2[,2]+dat2[,3])
> summary(result2)
Call:
lm(formula = dat2[, 1] ~ dat2[, 2] + dat2[, 3])
Residuals:
Min 1Q Median 3Q Max
-2.4372 -1.0627 0.5002 1.0623 1.8750
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 10.0998 0.5253 19.228 2.56e-07 ***
dat2[, 2] 0.9996 0.6245 1.601 0.153
dat2[, 3] 1.0001 0.5796 1.726 0.128
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.661 on 7 degrees of freedom
Multiple R-Squared: 0.413, Adjusted R-squared: 0.2453
F-statistic: 2.462 on 2 and 7 DF, p-value: 0.1550
以上の結果から次式を得られました。
・・・式2
式1と式2の予測値を比較してみてください。
参考文献(URL)
http://aoki2.si.gunma-u.ac.jp/LaTeX/sreg-qt1.pdf