2. データのまとめ方 保健統計 2012年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ 2) 度数分布表とヒストグラム、度数折れ線 3) 円グラフ、帯グラフ b) 特性値による記述 1) 代表値(中心的傾向) 2) 散布度(散らばりの傾向) Ⅲ 2変量データのまとめ方 a) 表・グラフによる記述 1) 分割表(クロス集計表) 2) 散布図 b) 特性値による記述 1) 相関係数 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 出席番号 学年246810 性別32333 男 女 男 男 男 男 女 女 男 男 出身地.

Download Report

Transcript 2. データのまとめ方 保健統計 2012年度 Ⅰ データの種類 Ⅱ 1変量データのまとめ方 a) 表・グラフによる記述 1) 棒グラフと折れ線グラフ 2) 度数分布表とヒストグラム、度数折れ線 3) 円グラフ、帯グラフ b) 特性値による記述 1) 代表値(中心的傾向) 2) 散布度(散らばりの傾向) Ⅲ 2変量データのまとめ方 a) 表・グラフによる記述 1) 分割表(クロス集計表) 2) 散布図 b) 特性値による記述 1) 相関係数 Ⅰ データの種類 10人の学生について下の表のような情報がえられた。 出席番号 学年246810 性別32333 男 女 男 男 男 男 女 女 男 男 出身地.

Slide 1

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 2

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 3

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 4

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 5

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 6

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 7

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 8

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 9

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 10

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 11

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 12

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 13

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 14

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 15

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 16

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 17

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 18

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 19

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 20

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 21

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 22

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 23

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 24

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 25

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 26

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 27

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 28

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 29

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 30

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 31

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 32

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 33

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 34

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 35

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0


Slide 36

2. データのまとめ方
保健統計 2012年度

Ⅰ データの種類
Ⅱ 1変量データのまとめ方
a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ
2) 度数分布表とヒストグラム、度数折れ線
3) 円グラフ、帯グラフ

b) 特性値による記述
1) 代表値(中心的傾向)
2) 散布度(散らばりの傾向)

Ⅲ 2変量データのまとめ方
a) 表・グラフによる記述
1) 分割表(クロス集計表)
2) 散布図

b) 特性値による記述
1) 相関係数

Ⅰ データの種類
10人の学生について下の表のような情報がえられた。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3












出身地 身長
体重
家 族 の 人 数 テストの 点 数
山口県
1 7 0 .3
6 1 .2
1
60
山口県
1 5 5 .4
4 8 .6
4
90
広島県
1 6 8 .2
5 4 .2
5
80
福岡県
1 7 1 .0
5 8 .5
3
50
島根県
1 7 5 .4
5 7 .6
2
70
山口県
1 6 5 .7
6 3 .5
1
10
広島県
1 5 7 .2
5 0 .1
1
60
愛媛県
1 6 2 .3
5 3 .4
4
80
山口県
1 7 7 .1
6 3 .0
3
20
山口県
1 6 5 .0
5 2 .5
3
80

• 学年、性別、出身地、身長、体重、家族の人数、テストの点数
という7つの変量(変数)について、10個の観測値を持つデー
タ。

• データを分析する場合、性別や出身地などの情報はなんら
かの数値によって表されることが多い。
出席番号 学年
1
2
3
4
5
6
7
8
9
10

性別
2
3
4
2
2
3
4
3
2
3

1
2
1
1
1
1
2
2
1
1

出身地 身長
体重
家 族 の 人 数 テストの 点 数
35
1 7 0 .3
6 1 .2
1
60
35
1 5 5 .4
4 8 .6
4
90
34
1 6 8 .2
5 4 .2
5
80
40
1 7 1 .0
5 8 .5
3
50
32
1 7 5 .4
5 7 .6
2
70
35
1 6 5 .7
6 3 .5
1
10
34
1 5 7 .2
5 0 .1
1
60
38
1 6 2 .3
5 3 .4
4
80
35
1 7 7 .1
6 3 .0
3
20
35
1 6 5 .0
5 2 .5
3
80

この例では出身地(都道府県コード)、性別(男-1、女-2)を
数値で表している。

この表にある変量は次のように分類することができる。
質的変量(質的変数)

量的変量(量的変数)

性別、学年、出身地など

離散変量(離散変数)

家族の人数、テストの点数など

連続変量(連続変数)

身長、体重など

<質的変量と量的変量>





数値が量的な意味を持つ変量を量的変量、意味を持たないものを質的
変量という。
家族の人数は数値に意味があるが、性別などは数値に意味が無い。ま
た、学年は実際に大学に在学している年数とは異なり、分類のための数
値である。
質的変量か量的変量を見分けるには、「算術平均をとって意味がある
か」を考えてみる方法がある。

<離散変量と連続変量>





量的変量はさらに離散変量と連続変量に分類される。
離散変量は家族の人数やテストの点数など、とびとびの値しかとらない
変量である。
一方、身長や体重などは正確に測ろうとする場合、無限に細かい数値に
なる。(身長171.2865...cm)このような変量は連続変量である。

テストの点数(離散変量)

50

51

52

53

身長(連続変量)

170

171

172

173

データの種類によって、まとめ方が異なる

Ⅱ 1変量データのまとめ方
• データのまとめ方には
1. 表・グラフによる記述(視覚的表現)
2. 特性値による記述(数値的表現)
がある。
• 表・グラフによる記述は、データの特徴を一目でとら
えやすくするためにおこなわれる。
• 特性値による記述は、データの特徴をまとめ、それ
を用いた分析をおこなうことが中心的な役割であ
る。

a) 表・グラフによる記述
1) 棒グラフと折れ線グラフ

(テキスト40ページも参照)

• ともにさまざまなデータの表現に利用される。
• データを年次別や都道府県別に集計したものは、これらのグラフにより
記述されることが多い。(集計する項目はこの場合質的変量である)
• 折れ線グラフは、主に時系列データ(時間の順序によって並べたデータ)
に利用される。棒グラフは時系列データにもクロスセクションデータ(1時
点におけるデータを何らかの項目でまとめたもの)にも利用される。
3.5
3

5.5

2.5

5

2

度数

6

4.5
4

1.5
1

3.5
0.5

出典:総務省統計局『労働力調査』

2012年5月

2012年1月

2011年9月

2011年5月

2011年1月

2010年9月

2010年5月

2010年1月

2009年9月

2009年5月

2009年1月

2008年9月

2008年5月

2008年1月

2007年9月

2007年5月

3
2007年1月

完全失業率(%)

完全失業率の推移(男女計・季節調整値)

0
1人

2人

3人

4人

家族の人数

10人の学生の例から作成

5人

• 単位の異なる2つの時系列データを1つのグラフであらわすと
き、折れ線グラフと棒グラフを重ね合わせて表現することが
よくおこなわれる。
出生数と合計特殊出生率の推移

出生数(千人)

合計特殊出生率
5.00
年間出生数
4.50
合計特殊出生率
4.00

(厚生労働省『平成22年 人口動態統計』より作成)

3 000
2 500

3.50

2 000

3.00
1 500

2.50
2.00

1 000

1.50
1.00

500

0.50

年次

2010

2007

2004

2001

1998

1995

1992

1989

1986

1983

1980

1977

1974

1971

1968

1965

1962

1959

1956

1953

1950

1947

0.00

2) 度数分布表とヒストグラム、度数折れ線

(テキスト36-38ページも参照)

• 度数分布表は、データをいくつかの階級に分け、その度数を
表の形で表したものであり、主に連続変量に利用される。
i

階級
上限
c2
-

階級値

度数

相対度数

累積度数

累積相対度数

y1

f1

f1 /n

f1

f1 /n

1

下限
c1

2

c2

-

c3

y2

f2

f2 /n

f1 + f2

(f1 + f2 )/n


m

cm

-

cm +1

ym

fm

fm /n

f1 + f2 +・・・+ fm

(f1 + f2 +・・・+ fm )/n

n

1

合計

– 階級値 - その階級を代表する値。階級の上限と下限をたして2で
割った値が用いられることが多い
– 相対度数 - 全体を1としたときに、それぞれの階級の度数の占め
る割合
– 累積度数 - 度数を下の階級からたし上げた(累積した)もの
– 累積相対度数 - 相対度数を累積したもの

<ヒストグラムと度数折れ線>

• ヒストグラムは度数分布表を棒グラフであらわしたものであ
り、それぞれの棒は間隔をつめて描かれる。これは階級と階
級の間が連続していることによる。
• 度数折れ線はヒストグラムにおいてその頂点を折れ線グラフ
で結んだものである。
身長のヒストグラム(20歳男子、107人)
20

度数

15
10
5
0
158.5160.5162.5164.5166.5168.5170.5172.5174.5176.5178.5180.5182.5
階級値

3) 円グラフ、帯グラフ

• 円グラフは相対的な割合を表現するときに用いられる。
• 帯グラフは相対的な割合が、時間とともにどのように変化し
ていくかなどを表現するときに用いられる。
学年別の割合

年 齢 3階 級 別 総 人 口 の 推 移


1930

20%

1950
40%
2年
3年
4年

0-14歳

1970

15-64歳
65歳 -

1990
2005

40%

0%

10人の学生の例から作成

20%

40%

60%

80%

100%

出典:総務省統計局『国勢調査』

(テキスト41 - 43ページも参照)

b) 特性値による記述
1) 代表値(中心的傾向)

• ある集団についてのデータ(例えば50人のクラスの身長な
ど)があるとき、集団の特徴をあらわすには、その中心的傾
向を示す数値が必要となる。
• 中心的傾向をあらわす数値として、
– 算術平均
– メディアン(中央値)
– モード(最頻値)

の3種類がある。

<算術平均>

• 算術平均 = データの合計 ÷ データ数
(例) 10人の数学のテストの点数
出席番号
点数

𝑥=

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

60 + 90 + 80 + 50 + 70 + 10 + 60 + 80 + 20 + 80 600
=
= 60
10
10

<メディアン(中央値)>

• メディアン → データを大きさの順に並べたときに
真ん中にくる値。データ数が偶数のときは真ん中の
2つの値を足して2で割る。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

点数の低い順に並べ替え
10

20

50

60

60

70

80

80

80

90

真ん中

この2つを足して2で割った
(60+70)÷2=65がメディアン

<モード(最頻値)>

• モード - データの中で最も多く出てくる値。10
人のテストの点数の例では
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

80点が3人と最も多い。モードは80となる。
† データのとりうる値が多いとき、データの最も多く出てくるものではな
く、度数分布表にしたときに、最も度数の多い階級の階級値をモード
と考える。

• 下の図は貯蓄現在高階級別の世帯分布である。
• 貯蓄現在高が算術平
均(1664万円)より低い
世帯は全世帯の3分の
2におよぶ。ほとんどの
世帯はメディアンである
991万円ほどの貯蓄も
なく、200万円未満の貯
蓄しかない(ここがモー
ドである)。
• 少数の大金持ちと多数
の庶民がいるため、こ
のようなことがおこる。
出典:総務省統計局『家計簿からみたファミリーライフ』
(http://www.stat.go.jp/data/kakei/family/4-5.htm#f1)

b) 特性値による記述
1) 散布度(散らばりの傾向)

教員A
• チャイムの5分後に必ず教室
にくる。

教員B
• チャイムと同時に教室にくるこ
ともあれば、15分以上遅れる
こともある。

• 2人の教員はともに平均してチャイムの5分後に教室にくる
• 2人の教員の特徴を表現するために、平均だけでは不十
分。
→散らばりの尺度の必要性
• 散らばりの傾向をあらわす尺度として
– 分散、標準偏差
– レンジ(範囲)、四分位偏差

などがある。

<分散>

• 分散=偏差2乗和÷(データ数-1)
偏差2乗和 - 個々のデータから算術平均を引いたもの(偏
差)を2乗して、すべて加えたもの。
𝑠2 =

𝑥1 − 𝑥

2

+ 𝑥2 − 𝑥 2 + ⋯ + 𝑥𝑛 − 𝑥
𝑛−1

2

=

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

2

10人のテストの点数の例では
𝑠2 =

60 − 60

2

+ 90 − 60

2

+ 80 − 60

6400
=
= 711.11 …
9

2

+ 50 − 60

2

+ 70 − 60

2

+ 10 − 60
10 − 1

2

+ 60 − 60

2

+ 80 − 60

2

+ 20 − 60

2

+ 80 − 60

2

出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

10
80

20

-40

20

400

1600

400

算術平均60を引く

偏差

0

30

20

-10

10

-50

0

2乗を求める
0

900

400

100

100

2500

0

合計を求める

6400
データ数-1(10-1)で割る

711.11

分散

<標準偏差>

• 標準偏差 ⇒ 分散の平方根
𝑠=

𝑠2 =

𝑛
𝑖=1

𝑥𝑖 − 𝑥
𝑛−1

10人のテストの点数の例では

𝑠 = 711.11 =26.666…

2

※ 2人の教員が教室に来る時間の例

教員A
教員B

1
4.5
0

2
5.3
6

3
4.8
4

4
5
5

5
5.5
11

(単位:分)
6
4.7
4

7
5.2
8

8
4.8
5

9
4.9
1

10
5.3
6

教員A

𝑥𝐴 =
𝑠𝐴2 =
=

4.5 − 5

−0.5

2

2

4.5+5.3+4.8+5+5.5+4.7+5.2+4.8+4.9+5.3
10

+ 5.3 − 5

+ 0.3

2

2

+ −0.2

+ 4.8 − 5
2

+ 0

2

2

+ 5−5

+ 0.5

2

2

+ 5.5 − 5

+ −0.3
10 − 1

2

+ 0.2

2

+ 4.7 − 5
10 − 1

2

+ −0.2

=

0.25 + 0.09 + 0.04 + 0 + 0.25 + 0.09 + 0.04 + 0.04 + 0.01 + 0.09
10 − 1

=

0.9
= 0.1
10 − 1

𝑠𝐴 = 0.1 =0.316…

2

2

+ 5.2 − 5

+ −0.1

2

2

+ 4.8 − 5

+ 0.3

2

=
2

50
10

=5

+ 4.9 − 5

2

+ 5.3 − 5

2

教員B

𝑥𝐵 =
0−5

+ 6−5

2

+ 4−5

2

+ 5−5

2

=

+ 11 − 5 2 + 4 − 5 2 + 8 − 5
=
10 − 1
2
2
2
2
2
2
2
−5 + 1 + −1 + 0 + 6 + −1 + 3 + 0 2 + −4 2 + 1 2
=
10 − 1
25 + 1 + 1 + 0 + 36 + 1 + 9 + 0 + 16 + 1
=
10 − 1
90
=
= 10
10 − 1
𝑠𝐵2

2

0+6+4+5+11+4+8+5+1+6
10

50
10
2

=5

+ 5−5

2

+ 1−5

2

+ 6−5

𝑠𝐵 = 10 =3.16…

𝑠𝐴2 < 𝑠𝐵2 となり、教員Bの分散の方が大きいことがわか
る。
標準偏差についても、𝑠
< 𝑠 と教員Bの方が大きくなる。
𝐴

𝐵

2

<レンジ(範囲)>

• レンジ ⇒ データの取りうる範囲
レンジ = 最大値 - 最小値
• 10人のテストの点数の例では
90 - 10=80

<四分位偏差>

• データを大きさの順(小さい順)に並べて、4分割す
る点をq1,q2,q3とする。
• このとき、次式で定義されるQを四分位偏差という。
𝑞3 − 𝑞1
𝑄=
2
※ 𝑞3 − 𝑞1 で定義される四分位範囲で考えることもある。

最小値

q1

q2

q3

最大値

(例)9人のテストの点数が次のようになってい
たとする。
出席番号
点数

1
60

2
90

3
80

4
50

5
70

6
10

7
60

8
80

9
20

点数の低い順に並べ替え
10

最小値

20

50

60

q1

60

q2

70

80

80

q3

90

最大値

(メディアン)

q1⇒最小値とq2(メディアン)の真ん中の値
q3⇒q2(メディアン)と最大値の真ん中の値

Q 

( 80  50 )
2



30
2

 15

※ 補足(パーセンタイルについて)
• 四分位偏差はパーセンタイルという概念を用いて説明することもできる。
• 保健分野では、このパーセンタイルがよく用いられるようである。
• たとえば、データを小さい順に並べたときに、10%に当たる値のことを10
パーセンタイル値という。
10%

最小値

10パーセンタイル値

最大値

• 四分位点はそれぞれ、25パーセンタイル値、50パーセンタイル値、75
パーセンタイル値である。
• 四分位偏差は75パーセンタイル値と25パーセンタイル値の差の半分と
いえる。

最小値

q1

q2

q3





25パーセンタイル値

最大値

75パーセンタイル値

50パーセンタイル値

<参考> 第100回(2011年2月)国家試験問題
[午前 68] 体重10パーセンタイル値の説明で正しいのはどれか。
1. 1か月前と比べ体重が10%増加した。
2. 同年齢で同性の児の平均体重よりも10%軽い。
3. 同年齢で同性の児の身長相応の体重よりも10%軽い。
4. 同年齢で同性の児100人中、10番目に軽い体重である。
正答

4

※ 同様の問題が 第93回(2004年2月)午前 にも出題されている。
[問題118] 6歳の女児。身長108cm、体重20kg。就学時健康診断で身長が10パーセンタイル値
と評価された。 正しいのはどれか。
1.
同年齢女児の10%相当数がこの女児と同じ身長である。
2.
同年齢の女児の100人中10番目に低い身長である。
3.
女児の身長は体重相応の身長より10%低い。
4.
同年齢女児の平均身長より10%低い。
正答



Ⅲ 2変量データのまとめ方
• 2変量データ → 2つの対になったデータ
(例)あるクラスの英語と数学のテストの点数
※ A組の英語の点数とB組の数学の点数は2つのデー
タであるが、対になっていない。
※ 2変量データはその組合せを変えることはできない
→ イチロー君の英語とヒデキ君の数学を組み合わ
せても、意味がない。

• 2変量データの記述
→ それぞれ1変量の記述 + 2変量の関係の記述

a) 表・グラフによる記述
1) 分割表(クロス集計表)

• 2つの項目でクロス集計したもの
(テキスト38 - 39ページ参照)
スープを
飲んだ
症状あり
症状なし
合計

45
5
50

スープを
飲まなかった

2
23
25

合計

47
28
75

• 連続変量の場合は、2変量の度数分布表となる。
なでしこジャパン
ロンドン五輪ベンチ入りメンバー
氏名
福元 美穂
海堀 あゆみ
近賀 ゆかり
矢野 喬子
岩清水 梓
鮫島 彩
熊谷 紗希
澤 穂希
宮間 あや
川澄 奈穂美
阪口 夢穂
田中 明日菜
安藤 梢
丸山 桂里奈
大野 忍 
大儀見 優季
高瀬 愛実
岩渕 真奈

身長(cm) 体重(kg)
165
65
170
64
161
53
164
55
162
54
163
53
172
60
165
54
157
52
157
49
165
58
164
52
164
57
163
55
154
50
168
60
164
60
155
52




48-51
51-54
54-57
57-60
60-63
63-66


身長
150-155 155-160 160-165 165-170 170-175
1
1
0
0
0
0
2
3
0
0
0
0
3
1
0
0
0
1
1
0
0
0
1
1
1
0
0
0
1
1
1
3
8
4
2


2
5
4
2
3
2
18

• 2次元のヒストグラムで表すことができる。
なでしこジャパンの身長と体重
3

度数

2
1
0

48-51

身長

51-54

54-57

57-60

60-63

体重

63-66

2) 散布図

• 横軸にX、縦軸にYをとった座標軸上に、個々のデータを
あらわしたもの。
• 相関係数と密接な関係があり、相関係数が±1に近いほ
ど、散布図は直線に近くなる。

正の相関(r>0)

負の相関(r<0)

•Xが大きな値をとる
ほど、Yも大きな値を
とる。

•Xが大きな値をとる
ほど、Yは小さな値を
とる。

無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。

b) 数値による記述
1) 相関係数

𝑟=

𝑋−𝑋 𝑌−𝑌
𝑋−𝑋

2

𝑌−𝑌

2

• 相関係数 r は2変量間の関連の強さを表す尺度
であり、-1と1の間の値をとる。
 r>0 正の相関 1に近いほど関連度が強い
 r<0 負の相関 -1に近いほど関連度が強い
 r=0 無相関
(テキスト126 - 128ページ参照)

死亡率と65歳以上人口の割合

なでしこジャパンの身長と体重

(都道府県別、平成22年国調)

70

14.0
13.0

65
60

死亡率(‰)

体重(kg)

12.0

55
50

11.0
10.0
9.0
8.0

7.0

45
150

155

160
165
身長(cm)

r=0.773

170

175

6.0
16.0

18.0

20.0

22.0

24.0

26.0

65歳以上人口の割合(%)

r=0.964

28.0

30.0

32.0