개인프로젝트

[개인프로젝트] (진행중) 카드데이터분석을 통해 소비패턴 파악하기

조조링 2020. 11. 15. 00:14
728x90
반응형

주제 : 카드 데이터 분석을 통해 내 소비패턴 파악 

부제 : 소비패턴 파악을 통해 불필요한 소비를 막음으로써 효율적으로 돈 모으기


< 목차 >

1. 주제 선정 이유

2. 데이터 수집 과정

3. 사용 데이터 정의

4. 데이터 전처리

5. 데이터 시각화 및 분석

6. 결과 해석 및 해석

7. 최종 결과물 게시


 

1. 주제 선정 이유 

 

처음으로 혼자 하는 프로젝트이니 누군가에게 보여주기 위한 목적보다는 

나에게 직접적으로 도움이 될 수 있는 주제를 하고 싶어서 선택하게 되었다. 

서점 알바, 대학생 과외, 중학생 과외로 어느 정도 수입은 있는 편인데 항상 통장에 큰 금액이 있었던 적이 없다.

특히 1~2년 전에는 어느정도 저축도 할 수 있는 정도였는데

수입이 늘어나면서 소비가 기하급수적으로 많아지는 거 같다고 느꼈다.

물론 수입이 한꺼번에 들어오는 게 아니고 다 따로 들어와서 더 그렇게 느낄 수 있지만

내 소비패턴에 문제(A)가 있다고 판단을 하였고 그 문제를 분석을 통해 해결(Z) 해 보려고 한다. 

 

 


 

2. 데이터 수집 과정

 

## 체크카드 데이터 수집 ##

 

1. 우리 카드 (2018년 1월로 추정 -- 확인 중)

 : 홈페이지를 통한 카드내역은 최근 18개월까지만 확인이 가능

 : 과거 내역을 확인하고 싶으면 상담센터에 직접 전화해서 본인 확인 후,

   데이터를 엑셀 혹은 pdf형태로 받을 수 있다. (2~3시간 소요된다)

 : 전화 상담을 통해 데이터를 받은 상태 

 

 

2. 카카오 뱅크 1 (2019년 3월 13일 개설)

 : 카카오 뱅크는 개인정보 보호 상 3년 전 거래내역은 제공하지 않는다. 

 : 확인 가능한 데이터 기준 데이터 수집 

 : 카카오뱅크 앱에서 엑셀 파일로 다운로드 

 : 2019.04.01 ~ 2020.12.31

 

 

3. 카카오 뱅크 2 (2017년 12월 29일 개설) 

 : 2018.06.02 ~ 2020.12.31

 


 

3. 사용 데이터 정의

 

- 처음 계획 : 3개의 카드의 모든 기간 데이터를 사용해서 소비 흐름을 파악하려고 함 

===> 문제점 1. 카드에서 카드끼리 무분별한 입금, 출금 내역이 다수 존재 (내가 나에게 입금)

                     유의하지 않은 기록인데, 찾아내기 번거로움

===> 문제점 2. 흐름을 파악하기 위해서는 기간을 넓게 잡을수록 좋지만, 그 흐름이 단순히 내 소비 패턴보다는

                     18년, 19년, 20년 수입상 태나 신분, 물가 등의 차이에서 오는 흐름일 가능성이 크다고 판단

 

- 중간 계획 : 3개의 카드는 그대로 사용하지만, 기간을 처음에는 2020년 6월~12월 7개월로 잡고 분석 진행 

===> 문제점 1. 18년 > 20년 시간 지날수록 3개의 카드를 사용하는 건 동일하지만 각 카드 사용 빈도수가

                     해당 기간 동안에는 카카오 뱅크1,2로만 소비를 하였고, 우리카드는 교통비로만 사용 

===> 프로젝트 목표가 주로 어디에 소비를 하는지 찾는 것이 목표이기 때문에 카카오뱅크 카드만 사용해도 무방

 

 < 최종 계획 >

" 분석 대상 :: 카카오뱅크 카드 1,2 & 기간 (2020년 6월 1일 ~ 2020년 12월 31일) "


4. 데이터 전처리

 

1. 유의하지 않은 카드기록 지우기

 

- 내가 나에게 입금한 내역 

 ex. A카드 20000원 출금 / B카드 20000원 입금 ==> 둘 다 제거 

 

- 택시 자동 결제 내역 

 ex. 5000원 출금 >> 5000원 입금 >> 4700원 출금 ==> 4700원 최종 결제만 남겨두고 나머지는 제거 

 

 

2. 사용처가 명확하지 않은 내역 지우기 

 

- 카카오페이로 보낸 내역

 why? 카카오페이로 10000원씩 보낸 내역 ==> 실제 2000원을 결제하기 위해 10000원이 빠져나감 

         정확한 사용내역을 구분하기 어렵기 때문에 제거 

 

- 위와 같은 이유로 토스로 보낸 내역도 제거

- 분류 과정에서 어디서 사용한 지 명확하지 않은 데이터 제거 (12개 제거됨)

 

 

3. 입금 데이터 지우기

 

why? 소비 패턴을 확인하고 싶은 것 이기 때문에 삭제

> 수입 대비 지출의 변화량을 본다면 좋겠지만, 수입이 들어오는 날짜나 계좌가 매번 달라지기 때문에 

   우선 지출 데이터 위주로 분석 진행 

 

 


4. 데이터 시각화 및 분석 

 

기본적인 시각화

 

 

< 2020-06-01 ~ 2020-12-31 일별 카드 지출 금액 시각화 >

 

[그림1] 일별 시각화

* 일별 평균 카드 사용량은 약 25,000원 

* 가장 소비가 많았던 날은 2020-08-11(화) 423,200원 


[그림2] 일별 시각화 히트맵

 

* 일별 카드 사용량을 Calendar Heat Map로 시각화하였다. 

* 평균과는 동떨어진 이상치 값 2~3개의 값들로 인해 그 이하 금액들이 세분화되지 못하고 있음

* 일별 카드 사용량이 20만 원 이상인 날은 이틀밖에 없기 때문에, 2일을 제거한 후 다시 시각화 진행 (아래)

 


 

[그림3] 일별 시각화 히트맵 (이상치 제거)

 

* 이상치 2개를 제거하고 나니 제거 전 그래프보다는 좀 더 세분화 적으로 확인할 수 있다. 

* 6월에서 12월로 갈수록 일일 카드 사용량이 증가하고 있음을 확인할 수 있다. 

* 카카오페이 사용을 제거한 것을 감안하면 소비를 안 한 날이 거의 없는 것으로 보임..... (심각)

 


 

< 월별 카드 지출 금액 시각화 >

 

[그림2] 월별 시각화

* 월별 평균 카드 사용량은 약 680,000원

* 평균 이상 소비한 월은 8 > 11 > 10월 

* 교통비와 카카오페이 결제 내역을 제외한 것을 감안하면 100만 원 이상 사용한 것으로 판단 

* [그림 1]의 일별 사용량 TOP3가 포함된 달이 각각 8,11,10월

* 위의 이유로 월별 지출 금액이 많은 것으로 예상됨 

 

 

 

< 주별 카드 지출 금액 시각화 > 

 

[그림3] 주별 시각화

* 주별 평균 카드 사용량은 약 150,000원

* '2020-08-11'이 포함된 32주가 가장 소비가 눈에 띄게 많음 

* 53주 중 8주 정도 평균 이상 사용한 것으로 보임 

* 연말 사용량이 가장 적은 것을 확인할 수 있다 ( 공모전 준비하느라 그런가...? )

 

 

 

< 요일별 카드 지출 금액 시각화 >

[그림4] 요일별 시각화

* 요일별 평균 카드 사용량은 약 680,000원

* 주말보다 평일에 소비가 많음을 확인할 수 있다

* 금토일은 주로 알바를 하는 날이라서 소비가 많이 없는 것으로 예상된다.

* 역시 TOP1 '2020-08-11'이 화요일이라 화요일이 가장 지출 금액이 많은 요일임을 확인할 수 있다. 

* TOP1 내역을 제외해도 평일이 주말보다 소비가 많은 것은 동일 

 


 

< 대분류별 카드 지출 금액 시각화 >

 

[그림5] 대분류별 시각화

 

* 대분류별은 평균의 의미가 의미 없어 보여서 hline은 제외 

* TOP3을 보면 식비가 압도적으로 많이 차지하며 그다음은 데이트 비용, 운동비이다. 

* 카카오페이 등의 데이터가 포함되지 않았다는 점을 감안하면 식비로 약 200만 원 이상, 데이트 비용은 100만 원 이상

  사용했을 것이다. 

* 운동비는 카카오 뱅크로만 결제했기 때문에 76만 원이 실제 사용 금액이다. 

 

 


가장 많은 소비를 차지하고 있는 "식비"

"식비" 집중 분석해보자!!

 

 

< 대분류::식비의 중분류 별 카드 지출 금액 시각화 >

[그림6] 식비 집중 분석 파이차트

 

식비 금액
밥/술 667,450원
카페 459,200원
편의점/군것질 559,440원

 

* 식비 중 밥/술이 금액적으로 봤을 때 약 67만 원으로 전체 식비 금액 중 39.6%를 차지한다.

* 밥/술 > 편의점/군것질 > 카페 순으로 많이 지출된 것으로 보인다.

* 이때, 데이트 목적이 아닌 카페를 갔거나 커피만 산 것을 모두 카페로 포함

* 편의점 데이터와 아이스크림 같은 군것질 데이터를 모두 편의점/군것질로 포함

 


 

< 대분류::식비의 지출 1회당 가격 분포 > 

[그림7] 식비 지출 1회당 가격 분포

 

식비 Min 1st  Median Mean 3rd Max
밥/술 2300 7000 11200 12593 18500 36000
카페 100 3200 4500 5046 5550 18100
편의점/군것질 2000 4175 5845 7560 10550 19400

 

* 카페의 지출 가격은 평균 5,000원으로 나머지 2개의 항목보다 낮은 금액임에도 불구하고 전체 지출 금액에서 27.2%나 차지하고 있다는 것은 빈도는 다른 항목들에 비해 많다는 것을 짐작할 수 있다. 

* 즉, 식비에서 가장 지출이 많고 식비가 많이 나오는 큰 이유 중 하나는 '카페'라고 생각

 


 

< 대분류::식비 의 결제 빈도 > 

 

 

 

(왼) 총 금액 파이차트 (오) 빈도 파이차트

 

식비 결제한 빈도(번) 결제한 날(day) / (213일중)
밥/술 53 46
카페 91 79
편의점/군것질 74 66

* 카페의 지출 빈도수가 41.7%로 가장 많은 부분을 차지하고 있다. 

* 식비의 최고 지출 왕은 '카페'로 '카페'비용만 줄여도 월 카드 소비금액이 줄어들 수 있을 것이다. 

 


 

< 카페 간 날 시각화 >

[그림8] 카페 방문한 날 빈도수 별 calendar chart 시각화 

* 평균적으로 주 2~3회 정도 카페에 돈을 쓰는 편

* 특히, 8월 2~3번째 주는 주 4~6번으로 일주일 대부분을 카페에 돈을 썼다 ==> 빅콘테스트 공모전 준비의 영향

 

[그림9] 편의점/군것질 한 날 빈도수 별 calendar chart 시각화

 

* 편의점은 6월~8월에서 9월~12월로 갈수록 가는 빈도가 늘어남

* 특히, 8월 3~4번째 주는 주 4~5번을 편의점/군것질에 돈을 썼다 ==> 빅콘테스트 공모전 준비의 영향 

 

[그림10] 밥/술 한 날 빈도수 별 calendar chart 시각화

* 혼자 먹은 밥이나 혹은 친구랑 만나서 먹은 밥/술의 빈도는 상대적으로 카페나 편의점에 비해 적은 편

* 일주일동안 밥/술에 돈을 안쓴 적도 다수 있는 것으로 보임 

* 코로나로 인해 외출 빈도가 줄어들다 보니, 밥/술 하는 빈도가 적은 것으로 예상됨

 

 

*** 가장 많은 카드 사용량을 가지고 있었던 <식비>에서 밥/술 보다는 카페 > 편의점/군것질에 돈을 많이 사용하고 있음을 확인할 수 있었다. 충분히 줄일 수 있는 부분이면서도 너무 습관적으로 사용하는 경향이 있다. 특히 공모전 같이 정신적으로 힘든 시기에 군것질의 빈도가 확실히 늘어나는 것을 느끼고 있고 데이터로도 확인할 수 있었다. 

*** 공부 목적으로 카페가는 것이 아니라면 커피 대신에 물을 많이 마시자!! 

*** 편의점에 갈 때도 지금 당장 먹을 만큼만 사고 충동구매 / 과소비를 하지 말자!! 

 

 

 

< 앞으로의 분석 방향 >

- 카테고리별로 분석 진행 (대분류/중분류까지 라벨링 완료) 

- 좌표 데이터 불러와 지도에 표시 (가능하다면) 

 

 

 

* 해당 게시물은 최종 보고서를 작성하기 위한 중간 과정입니다. 
* 분석 및 시각화 코드는 최종 보고서에 포함하여 올릴 예정입니다.
* 최종 보고서는 Markdown(R)으로 작성하여 올릴 예정입니다.

 

 

728x90
반응형