행위

"분산 표준편차"의 두 판 사이의 차이

DB CAFE

 
(같은 사용자의 중간 판 18개는 보이지 않습니다)
1번째 줄: 1번째 줄:
버스 도착시간으로 알아보는 분산 과 표준편차  
+
==== 버스 도착시간으로 알아보는 분산 과 표준편차 ====
7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )  
+
<blockquote>
 
+
*7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )  
 +
</blockquote>
 
{| class="wikitable"
 
{| class="wikitable"
 
|-
 
|-
8번째 줄: 9번째 줄:
 
1.평균은 ? 너무 쉽다.  
 
1.평균은 ? 너무 쉽다.  
 
   (32+27+29+34+33)/ 5 = '''31''' (버스가 평균적으로 31분에 도착한다.)  
 
   (32+27+29+34+33)/ 5 = '''31''' (버스가 평균적으로 31분에 도착한다.)  
 +
 
2.편차는 ? 평균에서 얼마나 차이가 나지?
 
2.편차는 ? 평균에서 얼마나 차이가 나지?
 
   (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분  
 
   (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분  
13번째 줄: 15번째 줄:
 
|-
 
|-
 
| +1 || -4 || -2 || +3 || +2
 
| +1 || -4 || -2 || +3 || +2
|}  
+
|}
 +
 
 
3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?  
 
3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?  
 
   그럼 편차에 제곱을 해서 플러스(+)로 바꿔.  
 
   그럼 편차에 제곱을 해서 플러스(+)로 바꿔.  
31번째 줄: 34번째 줄:
 
결론,  
 
결론,  
 
1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.
 
1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.
 +
 
2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.
 
2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.
3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 '''확실하지 않은 상태를 측정하는 것'''이 '''표준편차'''이다. 그렇게 구한 값이 약 '''2.6분'''이 나온다.
+
 
 +
3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 '''확실하지 않은 상태를 측정하는 것'''이 '''표준편차'''이다.  
 +
그렇게 구한 값이 약 '''2.6분'''이 나온다.
 +
 
  
 
실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다.  
 
실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다.  
즉, 평균값이 데이터의 분포를 대표하는 수치지만, 표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.
+
즉, 평균값이 데이터의 분포를 대표하는 수치지만,  
 +
 
 +
표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.
  
  
47번째 줄: 56번째 줄:
 
|1||-1||1||1||1||-2||2||-3||-3||3||?||편차
 
|1||-1||1||1||1||-2||2||-3||-3||3||?||편차
 
|-
 
|-
|1||1||1||1||1||4||4||9||9||9||4||분산
+
|1||1||1||1||1||4||4||9||9||9||?||분산
 
|-
 
|-
|2||표준편차
+
| ||||||||||||||||||||?||표준편차
 
|}
 
|}
 +
 +
[[category:머신러닝]]
 +
[[category:통계]]

2020년 1월 7일 (화) 09:31 기준 최신판

thumb_up 추천메뉴 바로가기


버스 도착시간으로 알아보는 분산 과 표준편차[편집]

  • 7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )
32분 27분 29분 34분 33분

1.평균은 ? 너무 쉽다.

  (32+27+29+34+33)/ 5 = 31 (버스가 평균적으로 31분에 도착한다.) 

2.편차는 ? 평균에서 얼마나 차이가 나지?

  (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분 
+1 -4 -2 +3 +2

3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?

 그럼 편차에 제곱을 해서 플러스(+)로 바꿔. 
 (분산은 넓게 퍼져 있는 값)
+1 -4 -2 +3 +2 (1-4-2+3+2)/5 = 0
+1 +16 +4 +9 +4 (1+16+4+9+4)/5 = 6.8

그럼 값이 뻥튀기 되잖아? 그래~ 그럼 루트를 씌우면 되잖아.

4.분산에 루트를 쓴 너를 표준편차 라 한다.

 그럼 루트 √6.8 를 하면 2.6 이된다.
 표준편차(Standard Deviation) SD로 표기

결론, 1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.

2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.

3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 확실하지 않은 상태를 측정하는 것표준편차이다. 그렇게 구한 값이 약 2.6분이 나온다.


실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다. 즉, 평균값이 데이터의 분포를 대표하는 수치지만,

표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.


문제풀이

데이터

6 4 6 6 6 3 7 2 2 8 ? 평균값
1 -1 1 1 1 -2 2 -3 -3 3 ? 편차
1 1 1 1 1 4 4 9 9 9 ? 분산
? 표준편차