統計言語-スプレッドの尺度

スプレッドの尺度は何ですか?
スプレッドの尺度は、特定の変数(データ項目)に対する観測値のセットがどのように類似しているか、または変化しているかを記述します。 広がりの尺度には、範囲、四分位数および四分位間の範囲、分散および標準偏差が含まれます。
スプレッドを測定できるのはいつですか?
変数は数値であり、ローエンド値とハイエンド値を持つ論理的な順序に配置することができるように、値の広がりは、定量的なデータのために測定するこ
なぜスプレッドを測定するのですか?
データセットを要約すると、特にデータセットが大きい場合、データを理解するのに役立ちます。 中央傾向の測定ページで説明したように、モード、中央値、平均は、データセット内のすべての値の典型的または代表的な単一の値にデータを要約しますが、これはデー スプレッドの測定値は、値がどのように分散しているか、およびそれらが平均値とどのくらい異なるかを示す方法でデータを要約します。

例えば:

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8
データセットA
データセットB
1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

両方のデータセットのモード(最も頻繁な値)、中央値(中央値*)、平均(算術平均)は6です。
(*注、偶数のデータセットの中央値は、中央の二つの観測値の平均を取ることによって計算されます)。
中心傾向の尺度を見ただけでは、データセットが同じであると仮定することができます。
しかし、次のグラフの値の広がりを見ると、データセットBはデータセットAよりも分散していることがわかります。
範囲は、データセット内の最小値と最大値の差です。

範囲を計算する

データセットA

4, 5, 5, 5, 6, 6, 6, 6, 7, 7, 7, 8

範囲は4で、最高値(8)と最低値(4)の差です。

データセットB

1, 2, 3, 4, 5, 6, 6, 7, 8, 9, 10, 11

範囲は10で、最高値(11)と最低値(1)の差です。

Dataset A
0 1 2 3 4 5 6 7 8 9 10 11 12 13
Dataset B
0 1 2 3 4 5 6 7 8 9 10 11 12 13

数直線では、データセットBの値の範囲がデータセットAよりも大きいことがわかります。

四分位数は、順序付けられたデータセットを四つの等しい部分に分割し、四分の一の間の点の値を参照します。 データセットは、5分位数(5等分数)または10分位数(10等分数)に分割することもできます。

Quartiles
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

The lower quartile (Q1) is the point between the lowest 25% of values and the highest 75% of 値。 これは25パーセンタイルとも呼ばれます。
第二四分位数(Q2)は、データセットの中央です。 また、50パーセンタイル、または中央値と呼ばれています。
上四分位数(Q3)は、値の最低75%と最高25%の間のポイントです。 それは75パーセンタイルとも呼ばれます。

Calculating Quartiles

Dataset A
4 5 5
Q1
5 6 6
Q2
6 6 7 7 7 8

/div>
四分位点が2つの値の間にあるため、それらの値の平均(平均)は四分位値です:
Q1 = (5+5) / 2 = 5
Q2 = (6+6) / 2 = 6
Q3 = (7+7) / 2 = 7

Dataset B
1 2 3
Q1
4 5 6
Q2
6 7 8 9 10 11

四分位点が二つの値の間にあるので、それらの値の平均(平均)は四分位値です。
q1= (3+4) / 2 = 3.5
第2四半期= (6+6) / 2 = 6
第3四半期= (8+9) / 2 = 8.5 四分位数範囲(IQR)は、上(Q3)と下(Q1)の四分位数の差であり、最低から最高に順序付けられたときの値の中間50%を表します。 IQRは、外れ値の影響を受けないため、範囲よりも広がりの優れた尺度と見なされることがよくあります。

Interquartile Range
25% of values
Q1
25% of values
Q2
25% of values
Q3
25% of values

Calculating the Interquartile Range

The IQR for Dataset A is = 2
IQR =Q3-Q1
=7-5
=2
データセットBのIQRは=5
IQR=Q3-Q1
=8.5-3.5
=5
分散と標準偏差は、平均を中心としたデータの広がりの尺度です。 彼らは、各観測データ値が平均値にどれだけ近いかを要約します。
分布が小さいデータセットでは、すべての値が平均に非常に近く、分散と標準偏差が小さくなります。 データセットがより分散している場合、値は平均からさらに離れて分散され、分散と標準偏差が大きくなります。
分散と標準偏差が小さいほど、平均値はデータセット全体を示します。 したがって、データセットのすべての値が同じ場合、標準偏差と分散はゼロになります。
正規分布の標準偏差は、信頼区間を計算することができます。 正規分布では、値の約68%が平均のいずれかの側の1つの標準偏差内にあり、スコアの約95%が平均の2つの標準偏差内にあります。
数の離散セットの母集団分散σ2(発音シグマ二乗)は、次の式で表されます:

ここで:
Xiは、最初の観測から最後まで、i番目の単位を表Image; Equation画像;方程式
ここで:
xiはi番目の単位を表し、最初の観測から最後まで
xはサンプル平均を表します
nはサンプル内の単位数を表します
標準偏差は分散の平方根 母集団の標準偏差はσで表され、標本の標準偏差はsで表されます。

Calculating the Population Variance σ2 and Standard Deviation σ
Dataset A

Calculate the population mean (μ) of Dataset A.
(4 + 5 + 5 + 5 + 6 + 6 + 6 + 6 + 7 + 7 + 7 + 8) / 12
mean(θ)=6
データセット内の各値から平均を減算して、平均から個々の値の偏差を計算します
= -2, -1, -1, -1, 0, 0, 0, 0, 1, 1, 1, 2
各個々の偏差値を平方
= 4, 1, 1, 1, 0, 0, 0, 0, 1,1,1, 4
二乗偏差値の平均を計算します
=
(4 + 1 +1 +1 + 0 + 0 + 0 + 0 +1 +1 +1 + 4) / 12
分散σ2=1.17
分散の平方根を計算します
標準偏差σ=1.08

データセットB

データセットBの母集団平均(σ)を計算します。
(1 + 2 + 3 + 4 + 5 + 6 + 6 + 7 + 8 + 9 + 10 + 11) / 12
mean(θ)=6
データセット内の各値から平均を減算して、平均から個々の値の偏差を計算します
= -5, -4, -3, -2, -1, 0, 0, 1, 2, 3, 4, 5,
各個々の偏差値を平方
= 25, 16, 9, 4, 1, 0, 0, 1, 4, 9, 16, 25
二乗偏差値の平均を計算します
=
(25 + 16 + 9 + 4 + 1 + 0 + 0 + 1 + 4 + 9 + 16 + 25) / 12
分散σ2=9.17
分散の平方根を計算する
標準偏差σ=3.03

データセットBの分散と標準偏差が大きいことは、データセットBがデータセットAよりも分散していることを示している。
統計言語ホームページに戻る



コメントを残す

メールアドレスが公開されることはありません。