본문 바로가기

Data Science50

[Hadoop] hadoop 성공사례 및 기초 개념 빅데이터 성공사례 주로 데이터마이닝(Data Mining) 분야에서 많이 거론됨 넷플릭스 - 고객의 감상 기록을 보고 좋아하는 배우, 패턴, 장르 등 다양한 분석을 통해서 추천 시스템을 만들었고 고객 만족도가 높다. 월마트 - 판매 상호관계가 높게 나타나는 것과 동선, 판매위치를 비슷하게 만들어 놓고 판매량을 늘린다 데이터를 DB에 올려놓고 분석하는 시스템 분석에 필요한 데이터 구하기 데이터는 소유가 있기 때문에 유통이 쉽지 않다. 서울시 공공데이터(http://data.seoul.go.kr) 등 데이터마이닝은 비싼 솔루션이 많은데 비해 빅데이터는 오픈소스라서 비용이 적게 든다 Hadoop의 시작 더그 커팅(Doug Cutting) 루씬 제작자 검색엔진용 오픈소스 텍스트 인덱스 엔진 Hadoop의 역사 .. 2022. 3. 9.
[Regression] 회귀선의 추정 회귀선의 추정 1) 회귀선 회귀선은 표본자료(Sample data)로부터 모형식을 추정하여 얻은 직선으로 아래와 같은 공식을 가진다. $\hat{Y} = b_0 + b_1X$ $b_0$, $b_1$은 각각 $\beta_0, \beta_1$ 의 추정값 $\hat{Y}$ 은 주어진 X에서의 기댓값 $E(Y)$ 의 추정값 $b_0$ 는 $X = $ 일 때, $\hat{Y}$ 의 값으로 추정된 회귀절편(intercept) $b_1$ 는 X가 한 단위가 증가할 때에 $\hat{Y}$ 의 증가량 => 기울기(slope) $\hat{Y_1} = b_0 + b_1(X+1)$ 이면 $b_0 + b_1X + b_1$으로 $b_1$이 증가한다. 2) 최소제곱법(Method of Least Squares) 회귀계수 $b_0$.. 2022. 3. 9.
[Regression] 단순회귀모형 회귀는 분류와 비슷하게 입력 데이터를 출력으로 맵핑하는 함수를 찾는 것이나 차이로는 실수 형태라는 특징이 있다. 회귀의 학습 결과는 회귀함수(regression functio)로 그린다. 학습 목표는 예측 오류인 회귀 오차를 최소화하는 최적의 회귀함수를 찾는 것이다. 함수는 출력값 사이의 오차를 제곱한 것을 최소로 하는 파라미터를 구한다. 회귀 시스템은 입출력 쌍의 데이터를 통해 관계를 설명하는 선형 모델을 찾는 선형회귀와 선형회귀분석의 출력을 범주형으로 제한해서 분류문제에 적용하는 로지스틱 회귀가 있다. 단순회귀모형 1) 산점도(scatterplot) 한 변수를 x축으로 놓고, 다른 한 변수를 y축으로 그린 그림으로서, 두 연속인 변수들 간의 관계를 밝힐 때 자주 사용된다. 2) 단순 회귀 모형 tes.. 2022. 3. 9.
빅데이터 정리 1. 빅데이터의 출현배경 빅데이터란 디지털 환경에서 발생하는 대량의 정보를 가공하여 가치 있는 데이터를 추출하고 결과를 분석하는 기술이다. 1970년도에 정부를 중심으로 세금 신고서와 지문 등의 데이터베이스로 아주 구조화된 데이터를 사용하였기 때문에 정형화 되어있었다. 1980년도 말 이후 PC 컴퓨터 시대에는 사기업과 가정으로 PC가 보급화 되고 World Wide Web이 발명되면서 하이퍼텍스트 시스템을 통해 정보 공유가 용이해졌다. 따라서 생성되는 데이터의 양도 늘어났다. 1990년대에 중반에는 슈퍼컴퓨터가 만들어졌다. 이 때의 데이터 규모는 Exa Byte 수준이었다. 21세기에 들어서면서 디지털 기기들이 전 세계적으로 보급화 되었고 생성되는 데이터가 기하급수적으로 증가했다. 2006년에 처음으로.. 2022. 3. 8.
기초적인 통계 요약 1. 국가통계(공식통계)의 이용 국가통계는 사회와 경제의 변화를 기록하고 적용하기 위해 국가의 모든 사람들이 공유하여 사용할 수 있도록 만들어진 공공재다. 산업, 물가, 안구, 주택, 문화, 환경 등의 정보를 다룬다. 개인) 개인의 미래 전략을 계획하고, 투자, 저축, 고용률, 경제활동에 대한 의사결정을 할 수 있다. 기업) 산업 추이, 성장치 예측, 의사 결정, 소비자의 수요를 예측하여 경영 및 개발 전략을 수립할 수 있다. 정부) 자료 수집, 분석, 운영 전략, 필요한 법 예측하여 발전적인 방향으로 정책을 세우며 나아갈 수 있다. 2. 통계학의 세 가지 역할 통계학은 수학적 원리에 의해 수치 데이터의 수집, 처리 및 분석, 결론을 도출하는 역할을 한다. 통계학은 경제학, 생물학, 공학, 의학, 심리학.. 2022. 3. 8.
[Regression] 회귀분석이란? 1. 회귀분석이란? 독립변수들과 종속변수 간의 함수관계를 규명하는 통계적인 분석방법이다. 회귀(regression)란 “본래의 자기 자리로 돌아온다"라는 뜻이다. 완두콩 시험에서 부모콩의 무게를 x축으로, 자식콩의 무게를 y축으로 산점도를 그려 두 세대간의 관계를 살펴보고 이들의 관계식은 양의 직선관계이나, 기울기는 1보다 작아서 자식의 무게는 평균 무게로 회귀하려는 경향이 있다는 사실을 발견하고 이를 회귀로 명명했다. Pearson이 계량적으로 처음 발표했다. 예를 들어 한 나라에서 국민소득이 증가하면 자동차 보유 대수가 증가한다. 이 경우, 국민소득은 독립변수, 자동차 보유대수는 종속변수가 된다. 2. 회귀분석 관련 변수의 분류 1) 다른 변수에 영향을 주는 변수 → 독립변수, 설명변수 독립변수(in.. 2022. 3. 4.
[R] R Graphics [R] R Graphics R 그래프 Graphics 산점도는 plot 사용 pch:는 포인트캐릭터 col :컬러 Example of plot() lines(x축,y축) : 라인 그리기 The graphics system runif(랜덤넘버 50개) Combining plots 히스토그램 그리고 density 함수 덧붙일 때 자주 사용 R programming www.r-project.org manual introduction to R ← pdf 파일 다운받아서 공부하면 좋음 2022. 3. 4.
[R] 다차원 시각화와 구글 연동 https://polar-comet-18d.notion.site/R-faaec27b87b54f69bd3eeeac27d1c8c3 [R] 다차원 시각화와 구글 연동 3차원 시각화의 용도 polar-comet-18d.notion.site 2022. 3. 1.
[R] 데이터 시각화 https://polar-comet-18d.notion.site/R-27ce09ad63e14d1689733c578c349780 2022. 3. 1.
728x90
반응형
LIST