본문 바로가기

Data Science50

[Multivariate Analysis] 주성분분석 실행 with R, Python 전체 코드 install.packages("HSAUR2") library(HSAUR2) data(heptathlon) head(heptathlon) heptathlon summary(heptathlon) write.csv(heptathlon, file="/Users/DataAnalytics/MultivariateAnalysis/mva/heptathlon.csv") # R 2.3 heptathlon$hurdles = max(heptathlon$hurdles) - heptathlon$hurdles heptathlon$run200m = max(heptathlon$run200m) - heptathlon$run200m heptathlon$run800m = max(heptathlon$run800m) - heptat.. 2022. 3. 21.
[Multivariate Analysis] Principal Component Analysis(PCA) 주성분분석 1. 주성분분석이란? 서로 관련이 있는(즉, 상관계수가 0이 아닌) 변수들의 선형결합을 이용하여 새로운 변수를 만드는 과정이다. 즉, 원래 변수들이 가지고 있는 정보의 일정수준을 확보하도록 소수의 새로운 변수들을 만드는 방법으로 새로 만들어진 변수들이 서로 직교인 특성이 있다 분석 가장 강한 영향력을 가지고 있는 주된 변수의 갯수를 추려내는 것이다. 좀 전문적인 말로 쓴다면 서로 관련있는 변수들이 전체적으로 가지고 있는 정보들을 최대한 확보하는 적은 수의 새로운 주성분 변수를 생성하는 방법이다. 1) 주성분(principal component)이란? 다변량 자료가 가지고 있는 총변이의 주요부분을 함유하고 있는 성분을 의미한다. 2) 변이(variation)의 크기란? - 정보의 크기를 나타내는 개념이다 .. 2022. 3. 18.
[Mulivariate Analysis] eigenvalue(고유값)과 eigenvector(고유벡터) 정방행렬 $A$에 대하여 $Ax = λx$, $Av=\lambda v$ (상수 λ) 가 성립하는 0이 아닌 벡터 x가 존재할 때 상수 λ 를 행렬 $A$의 고유값 (eigenvalue), x 를 이에 대응하는 고유벡터 (eigenvector) 라고 한다. 고유값과 고유벡터를 벡터곱 해주면 방향은 그대로 있고 배율만 바뀐다. 이 성질이 주성분 분석 할 때 차원축소에 중요한 키가 된다. $Av$ : 열벡터 v에 선형 변환 A 한 결과 Ax = λx를 만족하는 모든 상수 λ와 0이 아닌 모든 벡터 x (1개 ~ 최대 n 개)를 찾아야 한다. 이 글에서는 정방행렬로 된 고유값과 고유벡터 구해봤다 여기서 더 나아가면 정방행렬이 아닌 행렬에도 적용할 수 있는 SVD 특이값 분해를 할 수 있다. 2022. 3. 18.
[Multivariate Analysis] 다차원 통계그래프 Python R 산점도 행렬 sns.pairplot(social) #변수의 분포까지 확인 가능 # sns.pairplot(iris, hue='species', height=2.5) pairs(social) 상관계수행렬 round(cor(social, use="complete.obs"), 3) round(social.corr(), 3) 별그림 stars(social2) 얼굴그림 faces(social2, face.type=0) 1. R 1) R 산점도 행렬 > social = read.table("/Users/DataAnalytics/MultivariateAnalysis/mva/social.txt", header=T) > head(social, 3) YEAR POP GNI VEH CRIME ACCI HOS.. 2022. 3. 13.
[Multivariate Analysis] 이변량 통계그래프 Python R 선으로 그리기 plt.plot(co2.seq, co2.x) lines(smooth(co2),col='BLUE' 수학적 함수 그래프 plt.plot(x, y) plot(x,y,type="l") 버블플롯 plt.scatter('temp', 'wind', s='SO2', alpha=0.9, data=USairpollution) plot(wind~temp, data=USairpollution, pch=9) with(USairpollution, symbols(temp, wind, circle=SO2, inches=0.5, add=T) 이변량으로 확대한 상자그림 bvbox(x, xlab="manu", ylab="popul", pch=19) 1) R 이변량 그래프 - R bivariate graph .. 2022. 3. 13.
[Multivariate Analysis] 단변량 통계그래프 1. 단변량 그래프 먼저 빈도표를 구해야 한다. 빈도표를 구해서 Python R 캔버스 분할 plt.figure() plt.subplot(121) par(mfrow=c(1,2)) 새 창에서 그리기 dev.new() dev.off() 그래프 이름 title("Education of Female") 대화형 그래프 identify(x) 빈도수 막대그래프 plt.bar(edu_freq.index, edu_freq["count"]) barplot(edu_tb) 빈도표 겹친막대그래프 edu_sex_tb.plot.bar(stacked=True) barplot(sex_edu_tb, legend.text=rownames(sex_edu_tb), col=c(2,4)) 원그래프 plt.pie(edu_freq["count"],.. 2022. 3. 13.
[Multivariate Analysis] 기술통계량 및 분할표 기술통계량 및 분할표 Python과 R 비교 Python R csv 파일 불러오기 survey = pd.read_csv("survey.csv") survey = read.csv("survey.csv") 엑셀 파일 불러오기 beer = pd.read_excel("beer.xlsx, sheet_name=Beer") survey_data = read.xlsx"survey.xlsx", 1) 데이터 확인 survey.head(5) head(USairpollution, 6) 일정한 간격으로 자료 생성 range(0, 5, 2) np.arange(0, 20, 0.1) seq(0, 20, 0.1) 정규분포를 따르는 난수 생성 np.random.normal(-5, 2.5, 100) rnorm(100, -0.5, 2.5).. 2022. 3. 12.
[Regression] 회귀모형의 평가 분산분석(ANOVA) 기본적인 오차제곱의 이해 분산분석표에 의한 F-검정 분산분석표는 변동을 분해한 표다. 결정계수 $R^2$는 총제곱합 중에서 회귀 제곱합이 차지하는 비중에 대한 설명이다. 종속변수 관련 값 $\hat{Y}$ 예측된 종속변수의 값 $\bar{Y}$ 예측된 종속변수들의 평균값 $Y_i$ 실제 관측치 적합도 검정($R^2$을 계산)을 위한 값 총편차 $Y_i-\bar{Y}$ 총제곱합(SST) $\sum{(Y_i-\bar{Y})^2}$ 설명되는 편차 $\hat{Y}-\bar{Y}$ 회귀 제곱합(SSR) $\sum{(\hat{Y}-\bar{Y})^2}$ 설명되지 않는 편차 $Y_i-\hat{Y}$ 오차 제곱합(SSE) $\sum{(Y_i-\hat{Y})^2}$ 설명력을 나타내는 결정계수 : $R^2$ 계산 $SST.. 2022. 3. 11.
[Hadoop] Hadoop Architecture Hadoop Architecture 1. Hadoop의 시작 더그 커팅(Doug Cutting) 루씬 제작자 검색엔진용 오픈소스 텍스트 인덱스 엔진 2. Hadoop의 역사 구글 검색엔진과 같은 대형 검색엔진 제작에 관심 데이터를 대량으로 저장할 수 있는 빅파일시스템과 분산처리구조에 관심을 가지고 있었음 구글의 두 가지 논문에 영감을 얻어 Hadoop을 제작 The Google File System(2003) MapReduce : Simplified Data Processing on Large Cluster(2004) 2006년부터 제작(Apache Top Level Project) 야후에 취직 → 클라우데라로 이직 GFS → HDFS, MapReduce → MapReduce Hadoop의 기본사항과 특.. 2022. 3. 9.
728x90
반응형
LIST