본문 바로가기

공부/책

1. 앞으로 데이터 분석을 시작하려는 사람을 위한 책(구도 타쿠야)


앞으로 데이터 분석을 시작하려는 사람을 위한 책
국내도서
저자 : 구도 다쿠야 / 김정환역
출판 : 루비페이퍼 2014.05.15
상세보기


THE FIRST CHAPTER. 왜 국내 기업은 데이터 분석에 취약한가?


데이터 활용 예

아마존: 고객의 행동, 성향 등을 추적해 물건을 추천, 재고 통제 및 판매 증가

디즈니: 혼잡도 감소와 매직밴드를 도입해 새로운 고객감동

월마트: similar with amazon


일본에 데이활용 성공사례가 적은 이유

1. 인재

2. 개인정보 이 활용에 대한 법규

위의 이유는 보완할 수 있지만 더 근본적인 이유는 경영자나 책임자가 필요성을 인지하지 못한다는 것



THE SECOND CHAPTER. 이것만큼은 알아 두자! 기본적인 통계 지식


평균, 분산, 표준편차

도수 분포표, 도수 분포도=히스토그램

확률 분포: 도수 분포도에서 세로축의 도수를 데이터의 개수로 나눠서 비율로 바꾼 것. 그래프의 넓이를 전부 더하면 1

정규 분포=가우스 분포


(예. 영업사원 매출) 평균의 높음만 보고 우수하다고 할 수 없다. 분산 정보를 알아야 한다.


운용 수익을 평가하는 지표 중 하나인 샤프 지수에 표준 편차가 이용된다.

샤프지수란? 리스크를 감수하고 운용한 경우의 수익률이 리스크가 없다고 가정한 자산을 운용했을 때 수익률이 얼마나 웃도는지 나타내는 지표. 샤프  지수가 높으면 수익률 > 리스크 -> 좋은 투자상품.

(운용 평균 기대 수익 - 안전 자산 이자율) / 표준 편차

수익률 변동폭이 낮고, 기대수익률이 높으면 샤프지수가 높다.


표준 편차로 특수 사례를 추출할 수 있다.

상방 관리 한계(UCL, 3σ), 하방 관리 한계(LCL, -3σ)


표준 편차로 과잉 발주를 방지한다.


변동 계수로 서로 다른 속성을 비교한다.

변동 계수는 상대적인 둘쭉날쭉함을 보기 위함, 표준 편차는 평균에서의 들쭊날쭉함.

변동 계수(CV) = 표준편차 / 평균


알아 두면 도움이 되는 분석 수법

요약 통계량: 데이터 분포의 특징을 나타내는 통계량-평균값, 중앙값, 표준편차와 변동계수, 왜도와 첨도, 최빈값

베이지안 확률: 극단적으로 말하면 감이나 경험을 바탕으로 확률에 입수한 데이터의 결과를 반영시켜 새로운 확률을 산출하는 분석 수법. 사전 확률, 사후 확률

ex) 경비 모니터링

상관분석: 두 데이터의 연계성을 분석하는 수법

ex) 서비스 해약자의 경향 분석

K-평균법: 클러스터링 기법의 일종, 표본을 어떤 기준에 따라 그룹으로 나누고 싶을 때 사용

ex) 고객의 세분화

협업 필터링: 수많은 사용자의 행동 이력을 바탕으로 다른 사용자의 기호를 예측하는 분석 수법

ex) 아마존 상품 추천, 질병 잠재 리스크 산출

분산 분석: 복수의 그룹을 비교할 때 분산을 계산함으로써 그룹과 그룹 사이에 통계적인 차이가 있다고 할 수 있는지, 혹은 없다 할 수 있는지 판정하는 수법

ex) 마케팅-캠페인의 효과측정, 약투어나다이어트 식품 효과 측정

다중 회귀 분석: 복수의 데이터를 바탕으로 어떤 하나의 데이터를 예측하는 모델

ex) 콜센터의 문의량 예측

로지스틱 회귀 분석: 어떤 사건의 발생 확률을 예측하는 분석 수법(0~100퍼센트 범위)

ex) 구매율 예측



THE THIRD CHAPTER 데이터 분석을 실천한다.


팀멤버(나)

1. 가진 전문성을 유감없이 발휘한다.

2. 당사자 의식과 열의를 갖고 프로젝트에 몰두한다.

3. '지시 대기형'이 아니라 '제안형'이 된다.

4. 자신의 전문 분야 이외의 업무를 담당하는 멤버와도 협력 관계를 쌓는다.


- "경영 과제, 그러니까 매출이 증가하지 않는 근본적인 원인이 무엇인지도 모르는 상태에서 무작정 분석만 해서는 의미가 없어. 먼제 과제 인식부터 시작하자고."

이에 이지리는 메카브로 수집한 정보에서 문장을 분해한 뒤 각 품사에 대해 통계량을 수치 변환해 평가 분석을 실시, 


- 데이터 분석이라고 하면 사무실에 틀어박혀 컴퓨터로 데이터를 주무는 일이라고 생각하는 사람도 있겠지만, 그런 작업은 어디까지나 일부에 불과하며, 실제로는 현장과 꾸준히 커뮤니케이션을 쌓아 나가야 한다.




THE FINAL CHAPTER 확대되는 데이터 분석의 영역