기초적인 통계 요약

1. 국가통계(공식통계)의 이용

국가통계는 사회와 경제의 변화를 기록하고 적용하기 위해 국가의 모든 사람들이 공유하여 사용할 수 있도록 만들어진 공공재다. 산업, 물가, 안구, 주택, 문화, 환경 등의 정보를 다룬다.

개인)

개인의 미래 전략을 계획하고, 투자, 저축, 고용률, 경제활동에 대한 의사결정을 할 수 있다.

기업)

산업 추이, 성장치 예측, 의사 결정, 소비자의 수요를 예측하여 경영 및 개발 전략을 수립할 수 있다.

정부)

자료 수집, 분석, 운영 전략, 필요한 법 예측하여 발전적인 방향으로 정책을 세우며 나아갈 수 있다.

2. 통계학의 세 가지 역할

통계학은 수학적 원리에 의해 수치 데이터의 수집, 처리 및 분석, 결론을 도출하는 역할을 한다.

통계학은 경제학, 생물학, 공학, 의학, 심리학, 마케팅, 교육, 스포츠 등 다양한 영역에 적용될 수 있다.

1) 자료의 수집

이미 있는 정보들이나 설문조사, 여론조사, 측정 등의 자료를 수집한다.

이 때 샘플링을 사용하여 전체를 모두 조사하지 않아도 작은 부분을 뽑아 전체 그룹에 대한 정보를 얻을 수 있다.

데이터를 수집할 위치와 방법을 결정하고 표본 그룹의 유형과 크기를 정해 데이터를 수집한다.

2) 자료의 요약 및 설명

수집한 데이터를 정리하여 분석하고 해석 및 요약해서 표로 만들어 관계를 찾는다.

데이터는 일반적으로 다양한 조건과 결합되어 있어 의미를 찾기 힘들게 서로의 관계가 명확히 보이지 않는다. 관계를 찾고 의미 있는 결과를 만들기 위해서는 잘 요약하고 데이터를 축소하는 것이 중요하다.

3) 자료로부터 결론 도출

자료들의 상호작용을 파악하여 데이터를 활용할 수 있도록 유의미한 결론을 낸다. 데이터를 활용하는 것에는 어떤 제품을 개발할지, 누구에게 제품을 마케팅 할지, 정부에서는 인구증가, 소비자 물가, 실업 등을 해결할 수 있는 실마리를 얻는다.

3. 평균 판매기대수 E(X)

확률변수의 평균 또는 기댓값은 E(X) = μ로 구할 수 있다.

X의 예상 값은 X가 취할 수 있는 값의 가중 평균이며 각 값은 해당 건이 발생할 확률에 따라 가중된다.

확률변수의 평균 또는 기댓값 E(X)는 모든 확률을 구해서 더해주면 된다.

예)

E(X) = 0*2/10 + 1*4/10 + 2*2/10 + 3*2/10 = 1.4
E(X) = 1.4

4. 정규분포의 모수에 의한 변화

평균은 데이터의 중심을 나타내는데 사용한다. 표본으로부터 얻어진 표본데이터값이 어느 곳에 치우쳐 있는지 확인하기 위함이다.

중앙값은 값을 크기순으로 나열했을 때 가운데에 있는 값을 의미한다.

중앙값은 평균이 좌우대칭이 아닐 때 사용된다.

분산은 데이터가 얼마나 넓게 분포해 있는지 나타낸다. 편차 제곱의 평균을 나타내며 편차란 평균과의 아이이다. 편차를 모두 합하면 0이 된다. 합할 때 -가 있으면 안되기 때문에 제곱해서 더해준다. 데이터가 평균에 가까울수록 편차는 작아지며 분산도 작아진다.

평균과 멀리 떨어져 있을수록 편차와 분산이 증가한다.

예)

A군의 편차의 제곱은 225이며, B군의 편차의 제곱은 5다.

5. 인구피라미드에 대한 비교

한국의 인구 피라미드는 1955년에 출생률이 높고 사망률도 비슷하여 인구가 증가하는 피라미드형이었다.

2005년에는 년에는 출생률이 대폭 낮아졌으며 사망률도 낮기 때문에 인구가 증가하지도 않고 감소하지도 않고 유지되는 종모양을 보이고 있다.

2067년에는 출생률은 더욱 낮아지지만 발전한 의료 기술로 인해 평균 수명이 늘어나 사망률은 감소하여 주발형의 모습을 보인다.

미래에는 저출생 고령화되어 젊은 층이 노령층을 지탱하기 어렵기 때문에 대책이 필요하다.

6. 출생성비와 최근 성비 변화에 대한 통계

출생성비는 해당년도 여자 출생아 100명당 남아 출생아수를 말한다.

과거에는 여아에 비해 남아의 수가 많았으나 2010년도부터 확연히 줄어드는 추세가 시작되었다.

계속 하락세를 이어가며 2015년도를 기점으로 이전에는 남아가 더 많았지만 이후에는 여아가 더 많아지는 것을 확인할 수 있다.

7. 통계분석 초기에 자료의 이상치를 파악하기 위한 검토 방법

이상치는 대부분의 데이터에 비해 이상하게 아주 작은 값이나 아주 큰 값이다.

의사결정에 영향을 주지 않는다면 무시해도 되지만 모형을 구축할 때 드문 빈도에 비해 큰 영향력을 가지기 때문에 정확한 모수 추정을 방해한다.

이상치를 파악하기 위한 방법은 산점도를 그리면 시각적인 이상도가 나온다.

평균치와 중앙치가 차이가 나면 이상치가 있다.

이상치를 처리하는 방법은

1) 이상치를 제거한다.

2) 이상치를 평균, 최빈값, 중앙값, 예측값 등으로 치환한다.

3) 변수를 세분하여 이상치를 분리한다.

8. 모집단과 표본의 관계와 임의추출(random sampling)

모집단이란 어떤 데이터의 집합을 구성하는 전체 대상 또는 전체 집합을 말한다.

표본이란 데이터 집단에서 얻은 부분적인 데이터의 집단을 말한다.

임의추출은 모집단에서 무작위로 표본을 추출하는 것을 말한다.

랜덤으로 추출하기 때문에 각 추출에서 데이터가 같은 확률로 추출된다.

샘플링의 개념이 모집단에서 잘 대표할 수 있는 것을 뽑는것이다. 표를 그려서 뽑는 것이 임의추출이다.

표본에서 분산을 구할 때 분산편차가 n-1로 나뉜다. 그 이유는 n-1을 해줘야 모분산인 시그마에 더 가까워진다.

9. 정규분포의 특징

가우스 분포라고도 하는 정규분포는 평균에 대해 대칭인 확률 분포이다.

중심극한정리에 의해 독립적이고 동일하게 분포된 랜덤 변수에서 계산된 평균은 분포 유형에 관계 없이 대부분 정규 분포를 갖는다.

평균에 가까운 데이터가 평균에서 멀리 떨어진 데이터보다 발생 빈도가 더 높은 것을 보여준다.

그래프 형태에서 정규분포는 종형 곡선으로 나타난다.

정규분포에서 평균은 0이고 표준편차는 1이다. 치우침이 0이고 첨도가 3이다.

정규분포는 대칭이지만 모든 대칭 분포가 정규분포는 아닌다.

10. 자료의 그래프에 의한 표현의 장점과 종류

자료를 그래프로 만들어 시각화 하면 자료들간의 복잡한 관계를 텍스트 형식보다 빠르게 시각적 정보를 통해 직관적으로 파악할 수 있게 된다.

자료들간의 상호작용과 패턴을 찾을 수 있으며 훨씬 간단하게 데이터 모델을 그릴 수 있다.

자료를 통해 의사결정을 할 때 얻을 수 있는 단순성과 효율성이 가장 큰 장점이다.

그래프의 종류는 대표적으로 5종류가 있다.

1) 막대 그래프
분류가 비교적 적고 여러 항목의 수량을 비교할 때 사용한다.

2) 라인 그래프
질서 있는 데이터의 좌표의 점들을 이어 데이터의 변화를 직관적으로 볼 수 있다.

3) 면적 그래프
도형의 면적을 이용해 수치의 크기를 나타낸다

4) 원형 그래프
백분율을 나타낼 때 주로 사용한다.

5) 산점도
데이터의 분포를 확인할 때 주로 사용한다. 상호관계가 존재하면 점들이 밀집되어 나타나며 상호관계가 없으면 랜덤하게 분포한다.

저작자표시 비영리 동일조건 (새창열림)

Wooah's Engineering & Data Science Lab