[개인프로젝트] (진행중) 카드데이터분석을 통해 소비패턴 파악하기
주제 : 카드 데이터 분석을 통해 내 소비패턴 파악
부제 : 소비패턴 파악을 통해 불필요한 소비를 막음으로써 효율적으로 돈 모으기
< 목차 >
1. 주제 선정 이유
2. 데이터 수집 과정
3. 사용 데이터 정의
4. 데이터 전처리
5. 데이터 시각화 및 분석
6. 결과 해석 및 해석
7. 최종 결과물 게시
1. 주제 선정 이유
처음으로 혼자 하는 프로젝트이니 누군가에게 보여주기 위한 목적보다는
나에게 직접적으로 도움이 될 수 있는 주제를 하고 싶어서 선택하게 되었다.
서점 알바, 대학생 과외, 중학생 과외로 어느 정도 수입은 있는 편인데 항상 통장에 큰 금액이 있었던 적이 없다.
특히 1~2년 전에는 어느정도 저축도 할 수 있는 정도였는데
수입이 늘어나면서 소비가 기하급수적으로 많아지는 거 같다고 느꼈다.
물론 수입이 한꺼번에 들어오는 게 아니고 다 따로 들어와서 더 그렇게 느낄 수 있지만
내 소비패턴에 문제(A)가 있다고 판단을 하였고 그 문제를 분석을 통해 해결(Z) 해 보려고 한다.
2. 데이터 수집 과정
## 체크카드 데이터 수집 ##
1. 우리 카드 (2018년 1월로 추정 -- 확인 중)
: 홈페이지를 통한 카드내역은 최근 18개월까지만 확인이 가능
: 과거 내역을 확인하고 싶으면 상담센터에 직접 전화해서 본인 확인 후,
데이터를 엑셀 혹은 pdf형태로 받을 수 있다. (2~3시간 소요된다)
: 전화 상담을 통해 데이터를 받은 상태
2. 카카오 뱅크 1 (2019년 3월 13일 개설)
: 카카오 뱅크는 개인정보 보호 상 3년 전 거래내역은 제공하지 않는다.
: 확인 가능한 데이터 기준 데이터 수집
: 카카오뱅크 앱에서 엑셀 파일로 다운로드
: 2019.04.01 ~ 2020.12.31
3. 카카오 뱅크 2 (2017년 12월 29일 개설)
: 2018.06.02 ~ 2020.12.31
3. 사용 데이터 정의
- 처음 계획 : 3개의 카드의 모든 기간 데이터를 사용해서 소비 흐름을 파악하려고 함
===> 문제점 1. 카드에서 카드끼리 무분별한 입금, 출금 내역이 다수 존재 (내가 나에게 입금)
유의하지 않은 기록인데, 찾아내기 번거로움
===> 문제점 2. 흐름을 파악하기 위해서는 기간을 넓게 잡을수록 좋지만, 그 흐름이 단순히 내 소비 패턴보다는
18년, 19년, 20년 수입상 태나 신분, 물가 등의 차이에서 오는 흐름일 가능성이 크다고 판단
- 중간 계획 : 3개의 카드는 그대로 사용하지만, 기간을 처음에는 2020년 6월~12월 7개월로 잡고 분석 진행
===> 문제점 1. 18년 > 20년 시간 지날수록 3개의 카드를 사용하는 건 동일하지만 각 카드 사용 빈도수가
해당 기간 동안에는 카카오 뱅크1,2로만 소비를 하였고, 우리카드는 교통비로만 사용
===> 프로젝트 목표가 주로 어디에 소비를 하는지 찾는 것이 목표이기 때문에 카카오뱅크 카드만 사용해도 무방
< 최종 계획 >
" 분석 대상 :: 카카오뱅크 카드 1,2 & 기간 (2020년 6월 1일 ~ 2020년 12월 31일) "
4. 데이터 전처리
1. 유의하지 않은 카드기록 지우기
- 내가 나에게 입금한 내역
ex. A카드 20000원 출금 / B카드 20000원 입금 ==> 둘 다 제거
- 택시 자동 결제 내역
ex. 5000원 출금 >> 5000원 입금 >> 4700원 출금 ==> 4700원 최종 결제만 남겨두고 나머지는 제거
2. 사용처가 명확하지 않은 내역 지우기
- 카카오페이로 보낸 내역
why? 카카오페이로 10000원씩 보낸 내역 ==> 실제 2000원을 결제하기 위해 10000원이 빠져나감
정확한 사용내역을 구분하기 어렵기 때문에 제거
- 위와 같은 이유로 토스로 보낸 내역도 제거
- 분류 과정에서 어디서 사용한 지 명확하지 않은 데이터 제거 (12개 제거됨)
3. 입금 데이터 지우기
why? 소비 패턴을 확인하고 싶은 것 이기 때문에 삭제
> 수입 대비 지출의 변화량을 본다면 좋겠지만, 수입이 들어오는 날짜나 계좌가 매번 달라지기 때문에
우선 지출 데이터 위주로 분석 진행
4. 데이터 시각화 및 분석
기본적인 시각화
< 2020-06-01 ~ 2020-12-31 일별 카드 지출 금액 시각화 >
* 일별 평균 카드 사용량은 약 25,000원
* 가장 소비가 많았던 날은 2020-08-11(화) 423,200원
* 일별 카드 사용량을 Calendar Heat Map로 시각화하였다.
* 평균과는 동떨어진 이상치 값 2~3개의 값들로 인해 그 이하 금액들이 세분화되지 못하고 있음
* 일별 카드 사용량이 20만 원 이상인 날은 이틀밖에 없기 때문에, 2일을 제거한 후 다시 시각화 진행 (아래)
* 이상치 2개를 제거하고 나니 제거 전 그래프보다는 좀 더 세분화 적으로 확인할 수 있다.
* 6월에서 12월로 갈수록 일일 카드 사용량이 증가하고 있음을 확인할 수 있다.
* 카카오페이 사용을 제거한 것을 감안하면 소비를 안 한 날이 거의 없는 것으로 보임..... (심각)
< 월별 카드 지출 금액 시각화 >
* 월별 평균 카드 사용량은 약 680,000원
* 평균 이상 소비한 월은 8 > 11 > 10월
* 교통비와 카카오페이 결제 내역을 제외한 것을 감안하면 100만 원 이상 사용한 것으로 판단
* [그림 1]의 일별 사용량 TOP3가 포함된 달이 각각 8,11,10월
* 위의 이유로 월별 지출 금액이 많은 것으로 예상됨
< 주별 카드 지출 금액 시각화 >
* 주별 평균 카드 사용량은 약 150,000원
* '2020-08-11'이 포함된 32주가 가장 소비가 눈에 띄게 많음
* 53주 중 8주 정도 평균 이상 사용한 것으로 보임
* 연말 사용량이 가장 적은 것을 확인할 수 있다 ( 공모전 준비하느라 그런가...? )
< 요일별 카드 지출 금액 시각화 >
* 요일별 평균 카드 사용량은 약 680,000원
* 주말보다 평일에 소비가 많음을 확인할 수 있다
* 금토일은 주로 알바를 하는 날이라서 소비가 많이 없는 것으로 예상된다.
* 역시 TOP1 '2020-08-11'이 화요일이라 화요일이 가장 지출 금액이 많은 요일임을 확인할 수 있다.
* TOP1 내역을 제외해도 평일이 주말보다 소비가 많은 것은 동일
< 대분류별 카드 지출 금액 시각화 >
* 대분류별은 평균의 의미가 의미 없어 보여서 hline은 제외
* TOP3을 보면 식비가 압도적으로 많이 차지하며 그다음은 데이트 비용, 운동비이다.
* 카카오페이 등의 데이터가 포함되지 않았다는 점을 감안하면 식비로 약 200만 원 이상, 데이트 비용은 100만 원 이상
사용했을 것이다.
* 운동비는 카카오 뱅크로만 결제했기 때문에 76만 원이 실제 사용 금액이다.
가장 많은 소비를 차지하고 있는 "식비"
"식비" 집중 분석해보자!!
< 대분류::식비의 중분류 별 카드 지출 금액 시각화 >
식비 | 금액 |
밥/술 | 667,450원 |
카페 | 459,200원 |
편의점/군것질 | 559,440원 |
* 식비 중 밥/술이 금액적으로 봤을 때 약 67만 원으로 전체 식비 금액 중 39.6%를 차지한다.
* 밥/술 > 편의점/군것질 > 카페 순으로 많이 지출된 것으로 보인다.
* 이때, 데이트 목적이 아닌 카페를 갔거나 커피만 산 것을 모두 카페로 포함
* 편의점 데이터와 아이스크림 같은 군것질 데이터를 모두 편의점/군것질로 포함
< 대분류::식비의 지출 1회당 가격 분포 >
식비 | Min | 1st | Median | Mean | 3rd | Max |
밥/술 | 2300 | 7000 | 11200 | 12593 | 18500 | 36000 |
카페 | 100 | 3200 | 4500 | 5046 | 5550 | 18100 |
편의점/군것질 | 2000 | 4175 | 5845 | 7560 | 10550 | 19400 |
* 카페의 지출 가격은 평균 5,000원으로 나머지 2개의 항목보다 낮은 금액임에도 불구하고 전체 지출 금액에서 27.2%나 차지하고 있다는 것은 빈도는 다른 항목들에 비해 많다는 것을 짐작할 수 있다.
* 즉, 식비에서 가장 지출이 많고 식비가 많이 나오는 큰 이유 중 하나는 '카페'라고 생각
< 대분류::식비 의 결제 빈도 >
식비 | 결제한 빈도(번) | 결제한 날(day) / (213일중) |
밥/술 | 53 | 46 |
카페 | 91 | 79 |
편의점/군것질 | 74 | 66 |
* 카페의 지출 빈도수가 41.7%로 가장 많은 부분을 차지하고 있다.
* 식비의 최고 지출 왕은 '카페'로 '카페'비용만 줄여도 월 카드 소비금액이 줄어들 수 있을 것이다.
< 카페 간 날 시각화 >
* 평균적으로 주 2~3회 정도 카페에 돈을 쓰는 편
* 특히, 8월 2~3번째 주는 주 4~6번으로 일주일 대부분을 카페에 돈을 썼다 ==> 빅콘테스트 공모전 준비의 영향
* 편의점은 6월~8월에서 9월~12월로 갈수록 가는 빈도가 늘어남
* 특히, 8월 3~4번째 주는 주 4~5번을 편의점/군것질에 돈을 썼다 ==> 빅콘테스트 공모전 준비의 영향
* 혼자 먹은 밥이나 혹은 친구랑 만나서 먹은 밥/술의 빈도는 상대적으로 카페나 편의점에 비해 적은 편
* 일주일동안 밥/술에 돈을 안쓴 적도 다수 있는 것으로 보임
* 코로나로 인해 외출 빈도가 줄어들다 보니, 밥/술 하는 빈도가 적은 것으로 예상됨
*** 가장 많은 카드 사용량을 가지고 있었던 <식비>에서 밥/술 보다는 카페 > 편의점/군것질에 돈을 많이 사용하고 있음을 확인할 수 있었다. 충분히 줄일 수 있는 부분이면서도 너무 습관적으로 사용하는 경향이 있다. 특히 공모전 같이 정신적으로 힘든 시기에 군것질의 빈도가 확실히 늘어나는 것을 느끼고 있고 데이터로도 확인할 수 있었다.
*** 공부 목적으로 카페가는 것이 아니라면 커피 대신에 물을 많이 마시자!!
*** 편의점에 갈 때도 지금 당장 먹을 만큼만 사고 충동구매 / 과소비를 하지 말자!!
< 앞으로의 분석 방향 >
- 카테고리별로 분석 진행 (대분류/중분류까지 라벨링 완료)
- 좌표 데이터 불러와 지도에 표시 (가능하다면)
* 해당 게시물은 최종 보고서를 작성하기 위한 중간 과정입니다.
* 분석 및 시각화 코드는 최종 보고서에 포함하여 올릴 예정입니다.
* 최종 보고서는 Markdown(R)으로 작성하여 올릴 예정입니다.