"분산 표준편차"의 두 판 사이의 차이

DB CAFE

2020년 1월 7일 (화) 09:31 기준 최신판

추천메뉴 바로가기

DBA { Oracle DBA 명령어 > DBA 초급 과정 > DBA 고급 과정 }
튜닝 { 오라클 튜닝 목록 }
모델링 { 데이터 모델링 가이드 }

버스 도착시간으로 알아보는 분산 과 표준편차[편집]

7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )

32분	27분	29분	34분	33분

1.평균은 ? 너무 쉽다.

  (32+27+29+34+33)/ 5 = 31 (버스가 평균적으로 31분에 도착한다.)

2.편차는 ? 평균에서 얼마나 차이가 나지?

  (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분

+1	-4	-2	+3	+2

3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?

 그럼 편차에 제곱을 해서 플러스(+)로 바꿔. 
 (분산은 넓게 퍼져 있는 값)

+1	-4	-2	+3	+2	(1-4-2+3+2)/5 = 0
+1	+16	+4	+9	+4	(1+16+4+9+4)/5 = 6.8

그럼 값이 뻥튀기 되잖아? 그래~ 그럼 루트를 씌우면 되잖아.

4.분산에 루트를 쓴 너를 표준편차 라 한다.

 그럼 루트 √6.8 를 하면 2.6 이된다.
 표준편차(Standard Deviation) SD로 표기

결론, 1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.

2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.

3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 확실하지 않은 상태를 측정하는 것이 표준편차이다. 그렇게 구한 값이 약 2.6분이 나온다.

실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다. 즉, 평균값이 데이터의 분포를 대표하는 수치지만,

표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.

문제풀이

데이터

6	4	6	6	6	3	7	2	2	8	?	평균값
1	-1	1	1	1	-2	2	-3	-3	3	?	편차
1	1	1	1	1	4	4	9	9	9	?	분산
										?	표준편차

@@ 1번째 줄: / 1번째 줄: @@
-버스 도착시간으로 알아보는 분산 과 표준편차
+==== 버스 도착시간으로 알아보는 분산 과 표준편차 ====
-시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )
+<blockquote>
+*7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )
+</blockquote>
 {| class="wikitable"
 |-
@@ 8번째 줄: / 9번째 줄: @@
 .평균은 ? 너무 쉽다.
     (32+27+29+34+33)/ 5 = '''31''' (버스가 평균적으로 31분에 도착한다.)
 .편차는 ? 평균에서 얼마나 차이가 나지?
     (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분
@@ 13번째 줄: / 15번째 줄: @@
 |-
 | +1 || -4 || -2 || +3 || +2
 |}
 .분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?
    그럼 편차에 제곱을 해서 플러스(+)로 바꿔.
@@ 31번째 줄: / 34번째 줄: @@
 결론,
 ) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.
 ) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.
-) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 '''확실하지 않은 상태를 측정하는 것'''이 '''표준편차'''이다. 그렇게 구한 값이 약 '''2.6분'''이 나온다.
+) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 '''확실하지 않은 상태를 측정하는 것'''이 '''표준편차'''이다.
+그렇게 구한 값이 약 '''2.6분'''이 나온다.
 실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다.
-즉, 평균값이 데이터의 분포를 대표하는 수치지만, 표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.
+즉, 평균값이 데이터의 분포를 대표하는 수치지만,
+표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.
@@ 49번째 줄: / 58번째 줄: @@
 |1||1||1||1||1||4||4||9||9||9||?||분산
 |-
-| ||||||||||||||||||2||표준편차
+| ||||||||||||||||||||?||표준편차
 |}
+[[category:머신러닝]]
+[[category:통계]]