본문 바로가기

728x90

전체 글67

[Chapter1] Do it! 오라클로 배우는 데이터베이스 입문 - 데이터베이스 다음 내용들은 책 제목 : Do it! 오라클로 배우는 데이터베이스 입문 출판사 : 이지스퍼블리싱 를 참고하여 작성하였음을 미리 말씀드립니다! ( 사진에 링크 연결 ) DBMS; Database Management System; 데이터베이스 관리 시스템 01-1 데이터와 데이터베이스, DBMS 데이터와 정보 데이터베이스 분야에서 데이터(data)와 정보(information)는 다른 의미로 해석한다. 흔히 데이터는 원석, 정보를 보석으로 비유한다. 데이터(data) 어떤 필요에 의해 수집했지만 아직 특정 목적을 위해 평가하거나 정제하지 않은 값이나 사실 또는 자료 자체를 의미 정보(information) 수집한 데이터를 어떠한 목적을 위해 분석하거나 가공하여 가치를 추가하거나 새로운 의미를 이끌어 낼 수.. 2021. 9. 18.

Maximal Covering Location Problem(MCLP) 알고리즘 최근 COMPAS에서 주관한 "광양시 자동분리수거기 최적의 위치 선정" 공모전에 참여하였다. 최종 입지 선정 과정에서 사용한 MCLP 알고리즘에 대해 자세히 알아보려고 한다. 공간 입지 모델링이란? 시설물의 입지 결정에 영향을 주는 요인은 다양하지만, 그중 수요의 분포, 서비스의 도달 범위 같이 양적으로 측정할 수있는 요인도 있고, 정치적 요인, 공공성, 형평성, 시설물 또는 서비스 운영 요원의 숙련도와 같이 질적 측면의 요인도 존재한다. 시설물의 적합한 입지를 결정하기 위해서는 양적 인자와 질적 인자를 모두 고려해야 한다. 이때, 공간 입지 모델링을 통한 입지 선정은 양적인 측면과 여러 제약 조건을 동시게 고려하여 최적에 가까운 입지를 선정하는 훌륭한 수단이다. 즉, 공간 입지 모델링은 시설물 서.. 2021. 9. 16.

의사결정나무(Classification&Regression)-JoJo's Blog 이 글은 고려대학교 김성범 교수님의 유튜브 강의를 참고하여 작성한 내용입니다. https://youtu.be/xki7zQDf74I [핵심 머신러닝] 의사결정나무모델 1 (모델개요, 예측나무) https://youtu.be/2Rd4AqmLjfU [핵심 머신러닝 ] 의사결정나무모델 2 (분류나무, Information Gain) 의사결정나무 모델이란? : 데이터에 내재되어 있는 패턴을 변수의 조합으로 나타내는 예측/분류 모델을 나무의 형태로 만드는 것 : 스무고개 놀이와 비슷한 개념 : 핵심은 데이터를 2개 혹은 그 이상의 부분집합으로 분할 : 데이터가 균일해지도록 분할 >> ★균일에 기준이 회귀와 분류마다 다름★ : 분류는 비슷한 범주를 갖고 있는 관측치들끼리 (분류 균일) : 회귀는 비슷한 수치를 갖고 .. 2021. 8. 9.

[ISLR] Chapter6. Linear Model Selection and Regularization - Intro 다음 내용들은 아래의 책 ISLR 책을 해석하면서 공부한 내용임을 먼저 말씀드립니다! ( 사진에 링크 연결 ) 위의 식은 우리가 흔히 보는 linear model이다. linear model은 주로 X들과 Y 사이의 관계를 보고 싶을 때 주로 사용된다. Chapter 3에서 우리는 주로 회귀계수를 추정할 때, Least squares (최소 제곱 법)를 사용했다. linear model의 가장 큰 이점은 "해석력"을 꼽을 수 있다. 그리고 현실 문제에서 놀랍게도 non-linear methods와 비교했을 때 경쟁력이 있다. 그래서 우리는 이번 Chapter 6에서는 Least squares에 다른 어떤 것을 추가함으로써 simple linear model을 향상시키는 방법들에 대해서 배워볼 것이다. 자.. 2021. 7. 12.

[PCA]Principal Components Analysis 주성분분석 - JoJo's Blog " Principal Components Analysis (PCA) " 이 글은 고려대학교 김성범 교수님의 유튜브 강의를 참고하여 작성한 내용입니다. https://youtu.be/FhQm2Tc8Kic 실제 데이터 분석을 하다보면 변수가 너무 많아서 머부터 시작해야 될지 혹은 이 변수들을 모두 사용해야 할지 고민하다 보면 어느새 하루가 지나가죠... º_º 오늘은 이 고민을 해결해 줄 PCA에 대해 알아보겠습니다. p=100인 위의 데이터를 분석 해야한다고 가정해보자 초기에는 데이터의 전반적인 분포를 확인해야 하는데, 변수가 너무 많을 때 즉, 고차원의 데이터를 만났을 때 우리가 할 수 있는 방법은 무엇이 있을까? 그전에, 고차원의 데이터는 왜 분석하는데 어려움이 있을까? 첫 번째) 3차원 이상의 데이터.. 2021. 7. 8.

[머신러닝&딥러닝] Train / Validation / Test 의 차이 머신러닝에서 '어떤 모델을 학습시킨다'라는 말은 '적절한 파라미터를 찾는다'로 해석할 수 있습니다. 학습 목표는 보통 Cost function을 최소화시키는 것입니다. 이번 챕터에서 나오는 신경망 학습의 '학습' 또한 훈련 데이터로부터 적절한 파라미터(;가중치)의 최적 값을 자동으로 찾는 것을 의미합니다. 학습 목표 또한 머신러닝과 동일합니다. 그렇다면 훈련 데이터가 무엇인지, 어떻게 나눠지는지 먼저 알아보겠습니다 1. Train / Validation / Test data 1-1. Train data & Test data 데이터 분석을 한다는 것은 보통 아래와 같은 데이터가 주어지면 모델링을 통해 특정 규칙을 찾아 아래의 unseen data의 output을 예측하는 것이 목표입니다. 그렇다면 예측력이.. 2021. 2. 1.

[개인프로젝트] (진행중) 카드데이터분석을 통해 소비패턴 파악하기 주제 : 카드 데이터 분석을 통해 내 소비패턴 파악 부제 : 소비패턴 파악을 통해 불필요한 소비를 막음으로써 효율적으로 돈 모으기 1. 주제 선정 이유 2. 데이터 수집 과정 3. 사용 데이터 정의 4. 데이터 전처리 5. 데이터 시각화 및 분석 6. 결과 해석 및 해석 7. 최종 결과물 게시 1. 주제 선정 이유 처음으로 혼자 하는 프로젝트이니 누군가에게 보여주기 위한 목적보다는 나에게 직접적으로 도움이 될 수 있는 주제를 하고 싶어서 선택하게 되었다. 서점 알바, 대학생 과외, 중학생 과외로 어느 정도 수입은 있는 편인데 항상 통장에 큰 금액이 있었던 적이 없다. 특히 1~2년 전에는 어느정도 저축도 할 수 있는 정도였는데 수입이 늘어나면서 소비가 기하급수적으로 많아지는 거 같다고 느꼈다.. 2020. 11. 15.

[머신러닝] 군집화(Clustering) 이 글에서는 클러스터링(군집화)에 대해 살펴보겠습니다. 이 글은 ISLR 책과 고려대학교 김성범 교수님 강의를 정리했습니다. 1. 군집화란? 2. 좋은 군집화란? 3. 군집화 수행 시 주요 고려사항 3-1. 유사도 척도 3-1-1. 유클리디안 거리 3-1-2. 맨해튼 거리 3-1-3. 마할라노비스 거리 3-1-4. 상관계수 거리 3-1-5. 스피어만 순위 상관계수 거리 3-2. 알고리즘 3-2-1. Hierarchical Clustering 3-2-2. K-means Clustering 3-3. 군집 수 3-4. 평가 1. 군집화란? 유사한 속성들을 갖는 관측치들을 묶어 전체 데이터를 몇 개의 군집으로 나누는 것 2. 좋은 군집화란? 1). 동일한 군집에 소속된 관측치들은 서로 유사할수록 좋다. 2). .. 2020. 10. 19.

이전 1 ··· 5 6 7 8 9 다음

728x90

티스토리툴바