ねこちパパのマイホーム日記

ねこちパパのマイホーム日記 ★★★ データ分析とエクセル ★★★

ねこちパパのマイホーム日記 > データ分析とエクセル

マイホーム購入を計画中の方へ建築日記を公開! © 2001- myhome

■ データ分析

データマニアと呼ばれる人がいます。何でもかんでもデータを取るのを楽しみにしている人たちです。しかし、大切なのはデータを取ること自体ではありません。データを分析して判断を行ない、結論を導き出してそれを実際の役立てることが大切です。

従って、データの取得も大切ですが、得られたデータをどのように分析し活用するのかという点については、それ以上に大切です。得られたデータから何を読み取るのかが充実していなければ、大量のデータは無味乾燥なものでしかありません。ここからは、素人でも簡単にできるデータ分析の方法を紹介していきます。

■ エクセルの活用と問題

表計算ソフトは大変な発達を遂げました。マイクロソフトのエクセルはその代表的なものです。エクセルを使うと、今までは難しかった統計処理も簡単に行なうことができます。

とは言っても、実はエクセルには様々な問題やバグがあります。特に回帰分析はかなりおかしいのではないかと思います。これを使って仕事をしたり論文を書いたりする人は充分気をつけることをお勧めします。

■ 生データの分布

いきなり数値による解析に入る前に、まずは生データの分布をしっかりと把握し分布の様子を掴むことが大切です。そのためには、ヒストグラムが役に立ちます。グラフも簡単に描かせることができます。

ヒストグラムはデータの出現頻度を表したものです。エクセルでは、メニューバーの「ツール」から分析ツールを選ぶと、ヒストグラムという項目がありますので自動的に作成することができます。

[ヒストグラム] ダイアログ ボックスについてというヘルプが用意されていますので、これを見ながらいろいろと試してみれば、役に立つグラフを描いたり、いろいろな分析を行なうことができます。「分析ツール」が組み込まれていない方は、ヘルプを参照して組み込んでみてください。

今回グラフにしたヒストグラムを見ると、ひとつの山を中心として、中心値から外れるに従って出現する確率が低くなるような分布をしており、特に変わった点は見られませんでした。これが、山が2つあるように見える分布とかですと注意が必要になることもあります。

■ 平均、偏差

次に、生データの平均値と偏差を計算しましょう。測定器の0の値の較正の問題もありますので、ここは強度の値そのものを問題とするのは後回しとし、まずは二つのグループの平均値や分布に差があるのか、それともないのかを問題にすることが先決です。


         荒れている部分(A面)   荒れていない部分(B面)

平均値    : 35.9           35.7

標本標準偏差 :  1.52           1.89

平均値はエクセルの「AVERAGE」という関数で一発で計算させることができます。平均値を見てみると、荒れているA面の方が荒れていないB面よりも僅かですが値が上回っています。

■ 標本標準偏差と母標準偏差

次に、偏差の値を見てみましょう。偏差とはデータのばらつきの度合いを表すものです。偏差には二つの種類がありますので、注意が必要です。

ひとつは標本標準偏差です。標本標準偏差のことを不偏標準偏差(母標準偏差の不偏推定値)ということもあります。標本標準偏差を求めるエクセルの関数は、「STDEV」です。もうひとつは母標準偏差があり、こちらはエクセルの関数では、「STDEVP」があります。(「STDEVA」という関数もありますが、こちらは文字列や論理式を計算の対象としたい場合に使います。)

この二つの偏差は呼び名は似ていますが、考え方の上で大きな違いがありますので、きちんと理解しておくことが大切です。標本標準偏差では、得られたデータは全体の集団(これを母集団と呼びます)の一部であり、全体の集団から抜き取られたデータである、という考えに基づいています。

いっぽう、母標準偏差は、得られているデータすべてが考える対象の集団の要素である場合に使います。ある部品を1万個作って製造を打ち切った、そして部品1万個のデータをすべて測定したというような場合で、この1万個の分布を対象に考える場合などがこれに当たります。

標本標準偏差では、母集団の偏差を直接知ることができないので、標本標準偏差をもとに母標準偏差の推定を行なうという考え方です。本当は平均値についても、標本平均と母平均という用語があり、サンプル検査の場合にはきちんと「サンプルデータの平均値」と「母集団の平均値」の概念を区別する必要があります。

今回の場合には、あくまで何点かサンプルとして測定したデータで、本当の平均値や偏差の値は知りようもありませんから、標本平均や標本標準偏差の値をもって母集団の分布を推定するという考え方に立ちます。

なお、標本標準偏差と母標準偏差を求める式は、エクセルのヘルプにも書かれていますが、標本の個数:nとするところをn−1と置き換えて計算するかどうかの違いしかありませんから、nが大きくなると次第に両者の偏差の値は近づいてきます。

このことからも分かるように、母集団の偏差を精度良く推定するためには、サンプル数をたくさん取ることが必要です。今回も、もっとたくさん、それぞれ30箇所づつ、合計60箇所も測定すれば良かったのですが、抜き取り検査の場合は手間の問題もあり、そう簡単にはいかないところです。

さて、このようにして求めた標本偏差の値を見てみると、荒れているA面の方がそうでないB面に比べ値が小さいことが分かります。つまり、A面の方がB面よりもデータのばらつきが少ない、ということです。

■ 基本統計量

エクセルを使うと、平均や偏差だけでなく、様々な統計量を簡単に計算させることができます。メニューバーから「分析ツール」を選び、基本統計量を選択してデータ範囲などを設定すると、様々な基本統計量をいっぺんに計算してくれます。ただし、自分でいろいろといじるためには、これらの統計量を求める関数を覚えておいた方が良いと思います。

A面
平均 35.9
標準誤差 0.48189441
中央値(メジアン) 36
最頻値(モード) 36
標準偏差 1.523883927
分散 2.322222222
尖度 0.624887578
歪度 0.678196551
範囲 5
最小 34
最大 39
合計 359
標本数 10
最大値(1) 39
最小値(1) 34
信頼区間(95.0%) 1.090121722

前のページ  ねこちパパのマイホーム日記  次のページ