목록데이터분석 (7)
IT Dictionary

의사결정나무 의사결정나무는 데이터 마이닝 또는 머신러닝에서 사용되는 알고리즘입니다. 질문들에 대한 답을 해가면서 아래로 내려가는 모습이 나무와 비슷한 모양이고 데이터를 분류하는데 좋은 모델입니다. y변수가 범주형이라면 분류나무, 수치형이라면 회귀나무라고 할 수 있습니다. 지니 불순도 의사결정나무는 데이터를 얼마나 잘 분류했는가를 판단하는 것이 중요한데 지니 인덱스, 카이제곱 검정, 엔트로피 등을 기준으로 삼을 수 있습니다. Gini index를 기준으로 설명할 때, 지니 불순도가 작을수록 데이터가 잘 분류되어있다고 할 수 있습니다. 따라서, 지니 불순도를 통해 질문에 해당하는 노드 또는 변수들을 선택하면서 의사결정나무가 그려지게 됩니다. 속성 중요도 한 노드에서 데이터가 나뉘어졌을 때, 불순도의 변화량을..
정규화 일반적으로 선형회귀를 구현해보면 과소적합(underfit) 과 과적합(overfit)을 마주칠 수 있다. 과소적합은 분산이 낮고 편향이 높아 가설함수가 너무 간단해 데이터를 설명하기 부족한 경우, 과적합은 분산이 높고 편향이 낮아 가설함수가 너무 복잡해 test data에서의 일관성이 없는 경우이다. 과소적합은 다항회귀등과 같이 복잡한 모델을 써서 방지할 수 있고 과적합은 정규화를 사용해 줄 수 있다. # 다항회귀에서 항변환을 하면서 헷갈렸던 점을 적어보면 속성이 6개라고 6차항 변환을 해주는 게 아니고 차수는 우리가 정해줄 수 있다. 여기서 정규화는 L1 (Lasso) L2 (Ridge) 모델이 있고 세타값을 가설함수에 추가한 형태이다. L1 regularization L1 은 절대값을 취해준 ..

분류 지도학습 중 분류는 회귀 모델과 달리 비연속적인 값으로 예측하는 방법이다. 선형회귀를 통해서도 분류가 가능하지만 이상치에 대해 민감하기 때문에 분류에는 적합하지 않다. 로지스틱 회귀 따라서 이때 로지스틱 회귀를 사용하는데 이 때 시그모이드 함수를 이용한다. 시그모이드 함수는 함수값이 0 과 1 사이로 리턴되는 함수 이 때 값이 0과 1사이의 연속적인 값이므로 회귀이지만 분류에 사용된다. 가설함수 선형회귀에서의 가설함수를 행렬로 표현한 식을 확장하면 로지스틱 회귀의 가설함수가 된다. 로지스틱 회귀 또한 세타값을 조절하여 데이터에 잘 맞는 함수를 찾는 것이기 때문에 시그모이드 함수에 선형회귀 가설함수를 input한 형태가 가설함수가 된다.

정규방정식 최소 제곱법에 의해 추정값을 얻기 위한 연립방정식 -국어사전- 우리는 단순선형회귀 또는 다중선형회귀에서 경사하강을 통해 최적값을 찾아낼 수 있었다. 하지만 선형회귀에서는 정규방정식이라는 다른 방법이 존재한다. 간단하게 말하면 미분값이 0인 지점을 바로 찾는 방법이다. 이러한 정규방정식의 해는 행렬로 아래 공식이 유도된다. 일반적으로 정규방정식은 데이터가 많아지면 연산이 많아지기 때문에 각자의 장단점을 파악하여 데이터가 많으면 경사하강을 사용하는 것이 좋다. Convex 함수 선형회귀는 손실함수가 아래로 볼록한 Convex 함수였기 때문에 경사하강과 정규방정식이 가능할 수 있었다.
선형 회귀 지도학습 알고리즘으로 데이터를 통해 최적선을 찾아내는 방법이라고 할 수 있다. 맞추려고 하는 값 - 목표변수(target) 사용하는 값 - 입력변수(input) 가설함수 최적선을 찾기 위해 시도해보는 함수라고 할 수 있고 이 가설함수가 좋은지를 판단하기 위해 MSE가 사용될 수 있다. MSE(Mean Squared Error) MSE는 추정회귀선과 실제값과의 차이인 오차의 제곱 평균이다. 제곱을 하는 이유는 오차가 양수 또는 음수로 나타나기 때문에 오차가 클 수록 부각되기 때문에 -> MSE 가 클수록 오차가 크다고 할 수 있다. 손실함수 설정한 가설함수를 평가하는 함수라고 할 수 있고 손실함수의 아웃풋이 작을수록 가설함수의 손실이 적다. 따라서, 더 좋은 가설함수라고 할 수 있게 된다. 보통..

머신러닝이란 일반 프로그램과 달리 작업을 하는데 있어 경험을 통해 성능이 향상된다. 여기서 경험은 데이터를 통해 이루어진다. 따라서, 데이터의 수가 기하급수적으로 늘어나는 2010년대부터 머신러닝이 활용되기 시작했다. 빅데이터,머신러닝,딥러닝,인공지능은 모두 연관되어 있어 비슷하다고 할 수 있다. 학습유형 지도학습(supervised learning) 답 이 있고 이 답을 맞추는 게 목적 - 분류(classfication) 와 회귀(regression) 비지도학습(unsupervised learning) 답 이 없고 이 답을 맞추는 게 목적 머신러닝에서의 수학 선형대수학 데이터를 저장하고 계산하는 행렬을 이용 미적분학 알고리즘의 성능 최적화 확률과 통계 데이터의 흐름과 정보 파악을 통해 예측하고 가능성을..

CSS 선택자 정리 1. 태그 이름 li - 모든 li 태그 p - 모든 p 태그 2. 아이디 특정 아이디를 선택하려면 #을 사용 #coffee-아이디가 coffee인 태그 3. 클래스 특정 클래스를 선택하려면 .을 사용 .favorite-클래스가 favorite인 태그 4. 속성 속성으로 선택하려면 이름과 값을 사용 [alt="green-tea"]-alt속성의 값이 "green-tea"인 태그 CSS 선택자 조합 1. OR연산 ,는 OR 연산 2. AND연산 붙여쓰면 AND 연산 3. 중첩된 태그 띄어쓰면 중첩되있는 태그를 선택 .favorite .private 추가 링크