"분산 표준편차"의 두 판 사이의 차이
DB CAFE
(같은 사용자의 중간 판 19개는 보이지 않습니다) | |||
1번째 줄: | 1번째 줄: | ||
− | 버스 도착시간으로 알아보는 분산 과 표준편차 | + | ==== 버스 도착시간으로 알아보는 분산 과 표준편차 ==== |
− | 7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 ) | + | <blockquote> |
− | + | *7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 ) | |
+ | </blockquote> | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
8번째 줄: | 9번째 줄: | ||
1.평균은 ? 너무 쉽다. | 1.평균은 ? 너무 쉽다. | ||
(32+27+29+34+33)/ 5 = '''31''' (버스가 평균적으로 31분에 도착한다.) | (32+27+29+34+33)/ 5 = '''31''' (버스가 평균적으로 31분에 도착한다.) | ||
− | 2.편차는 ? 평균에서 얼마나 차이가 | + | |
+ | 2.편차는 ? 평균에서 얼마나 차이가 나지? | ||
(31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분 | (31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분 | ||
{| class="wikitable" | {| class="wikitable" | ||
|- | |- | ||
− | | +1 || -4 || +2 || +3 || +2 | + | | +1 || -4 || -2 || +3 || +2 |
+ | |} | ||
+ | |||
+ | 3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지? | ||
+ | 그럼 편차에 제곱을 해서 플러스(+)로 바꿔. | ||
+ | (분산은 넓게 퍼져 있는 값) | ||
+ | {| class="wikitable" | ||
+ | |- | ||
+ | | +1 || -4 || -2 || +3 || +2 || (1-4-2+3+2)/5 = 0 | ||
+ | |- | ||
+ | | +1 || +16 || +4 || +9 || +4 || (1+16+4+9+4)/5 = 6.8 | ||
|} | |} | ||
+ | 그럼 값이 뻥튀기 되잖아? 그래~ 그럼 루트를 씌우면 되잖아. | ||
+ | |||
+ | 4.분산에 루트를 쓴 너를 '''표준편차''' 라 한다. | ||
+ | 그럼 루트 √6.8 를 하면 2.6 이된다. | ||
+ | 표준편차(Standard Deviation) SD로 표기 | ||
+ | |||
+ | 결론, | ||
+ | 1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다. | ||
+ | 2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다. | ||
+ | 3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 '''확실하지 않은 상태를 측정하는 것'''이 '''표준편차'''이다. | ||
+ | 그렇게 구한 값이 약 '''2.6분'''이 나온다. | ||
− | |||
− | |||
− | + | 실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다. | |
− | + | 즉, 평균값이 데이터의 분포를 대표하는 수치지만, | |
− | + | 표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다. | |
− | |||
− | |||
− | |||
− | + | 문제풀이 | |
− | + | ||
− | + | 데이터 | |
+ | {| class="wikitable" | ||
+ | |- | ||
+ | | 6||4||6||6||6||3||7||2||2||8|| ?||평균값 | ||
+ | |- | ||
+ | |1||-1||1||1||1||-2||2||-3||-3||3||?||편차 | ||
+ | |- | ||
+ | |1||1||1||1||1||4||4||9||9||9||?||분산 | ||
+ | |- | ||
+ | | ||||||||||||||||||||?||표준편차 | ||
+ | |} | ||
+ | |||
+ | [[category:머신러닝]] | ||
+ | [[category:통계]] |
2020년 1월 7일 (화) 09:31 기준 최신판
thumb_up 추천메뉴 바로가기
- DBA { Oracle DBA 명령어 > DBA 초급 과정 > DBA 고급 과정 }
- 튜닝 { 오라클 튜닝 목록 }
- 모델링 { 데이터 모델링 가이드 }
버스 도착시간으로 알아보는 분산 과 표준편차[편집]
- 7시 30분에 타는 2000버스의 실제 도착 시간( 5일간 )
32분 | 27분 | 29분 | 34분 | 33분 |
1.평균은 ? 너무 쉽다.
(32+27+29+34+33)/ 5 = 31 (버스가 평균적으로 31분에 도착한다.)
2.편차는 ? 평균에서 얼마나 차이가 나지?
(31->32)=+1분,(31->27)=-4분,(31->29)=-2분,(31->34)=+3분,(31->33)=+2분
+1 | -4 | -2 | +3 | +2 |
3.분산은 뭐야? 평균에서 얼마나 떨어져 있는지 볼려고 하는데 마이너스값이 있네. 떨어져 있는 정도(거리)를 나타내야 되는데 마이너스가 있으면 안되지?
그럼 편차에 제곱을 해서 플러스(+)로 바꿔. (분산은 넓게 퍼져 있는 값)
+1 | -4 | -2 | +3 | +2 | (1-4-2+3+2)/5 = 0 |
+1 | +16 | +4 | +9 | +4 | (1+16+4+9+4)/5 = 6.8 |
그럼 값이 뻥튀기 되잖아? 그래~ 그럼 루트를 씌우면 되잖아.
4.분산에 루트를 쓴 너를 표준편차 라 한다.
그럼 루트 √6.8 를 하면 2.6 이된다. 표준편차(Standard Deviation) SD로 표기
결론, 1) 버스는 평균적으로 시간표(7:30)보다 1분 늦는다.
2) 그러나 이것을 아는 것만으로는 버스가 언제 올지 알 수 없다. 버스는 언제나 1분 늦게 도착하는 것이 아니라 도착시간이 제각각이다.
3) 버스가 도착하는 시간의 불규칙성, 시간표와 맞지 않아서 확실하지 않은 상태를 측정하는 것이 표준편차이다. 그렇게 구한 값이 약 2.6분이 나온다.
실제 도착시간은 정해진 시간보다 전후로 대략 2.6분 정도 다를 수 있다고 생각해도 좋다는 말이 된다.
즉, 평균값이 데이터의 분포를 대표하는 수치지만,
표준편차는 그 대푯값(평균) 을 기점으로 해서 데이터가 대략 어느 정도 멀리까지 위치해 있는지를 나타내는 통계량 이라고 할 수 있다.
문제풀이
데이터
6 | 4 | 6 | 6 | 6 | 3 | 7 | 2 | 2 | 8 | ? | 평균값 |
1 | -1 | 1 | 1 | 1 | -2 | 2 | -3 | -3 | 3 | ? | 편차 |
1 | 1 | 1 | 1 | 1 | 4 | 4 | 9 | 9 | 9 | ? | 분산 |
? | 표준편차 |