반응형 Chapter 5 서포트 벡터 머신(svm) 서포트 벡터 머신(Support Vector Machine) 선형, 비선형 분류, 회귀, 이상치 탐색에도 사용가능한 다목적 머신러닝 모델 분류를 위한 기준 선을 정의하는 모델 3개의 선형 분류기에서 만들어진 결정 경계 실선 : svm분류기의 결정 경계, 제일 가까운 훈련 샘플로부터 가능한 멀리 떨어진 선 $b_{11} , b_{12}$ 사이의 거리를 마진(margin) svm은 마진을 최대화 하는 분류 경계면을 찾는 기법 소프트 마진 분류 하드 마진 분류 모든 샘플이 올바르게 분류 문제점 : 데이터가 선형적으로 구분 가능해야 한다 이상치에 민감 서포트 벡터와 결정 경계 사이가 매우 좁아 마진이 매우 작다 overfitting 문제 발생 위험성 소프트 마진 분류 제일 가까운 훈련 샘플로부터 가장 멀리 떨어.. 2020. 9. 18. Chapter4 모델 훈련 선형회귀 일반적으로 선형 모델은 입력 특성의 가중치 합과 편향을 더해 예측한다 선형 회귀 모델 예측 식 $\hat y = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + ... + \theta_n x_n $ $\hat y $ : 예측값 n : 특성 수 $x_i : i번째 특성값 $ $\theta_j : j번째 파라미터 $ 선형 회귀 모델의 벡터형태 예측식 $ \hat y = h_\theta (x) = \theta^T \cdot x $ 모델 훈련 모델이 훈련 세트에 가장 잘 맞도록 모델 파라미터를 설정하는 것 정규방정식(normal equation) 비용 함수를 최소화하는 $\theta$ 값을 찾기 위한 해석적인 방법 바로 결과를 얻을 수 있는 수학공식 $ \hat \theta =.. 2020. 9. 17. Chapter3 분류 MNIST 간단 예제 from sklearn.datasets import fetch_mldata mnist = fetch_openml('mnist_784') mnist 기존 책에 있는 소스코드에서는 fetch_openml이 정의되어 있지 않다는 error가 발생 아래의 아주 조금 수정된 코드를 첨부한다. from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') mnist.data.shape, mnist.target.shape from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784') mnist.data.shape, mnist.target.shape X.. 2020. 4. 11. CHAPTER 2 머신러닝 프로젝트 처음부터 끝까지 머신러닝 프로젝트 진행 주요 단계 큰 그림 보기 모델의 목적 파악하기(분류, 회귀 등) 솔루션 파악하기(문제 해결 방법에 대한 정보 수집, 참고 성능으로 사용) 성능 측정 지표 선택 평균 제곱근 오차(Root Mean Square Error) - 회귀 문제의 전형적 성능 지표 $RMSE(X,h) = \sqrt({1 \over m}\sum^m_{i=1} (h(x^{(i)})-y^{(i)})^2) $ 평균 절대 오차(Mean Absolute Error) - 이상치로 보이는 구역이 많을 경우 사용 $MAE(X,h) = {1 \over m} \sum^m_{i=1} | h(x^{(i)}) - y^{(i)}| $ RMSE, MAE 모두 예측값의 벡터, 타깃값의 벡터 사이의 거리를 재는 방법 데이터 구하기 일반적으로.. 2020. 3. 26. CHAPTER 1 한눈에 보는 머신러닝 머신러닝(machine learning) 데이터로부터 학습하도록 컴퓨터를 프로그래밍 하는 과학 명시적 프로그래밍 없이 컴퓨터가 학습하는 능력을 갖추게 하는 연구 분야 훈련 세트(training set) 시스템이 학습하는 데 사용하는 샘플 훈련 사례(training instance), 샘플(sample) 각 훈련 데이터 왜 머신러닝을 사용하는가? 전통적 접근 방법 보다 프로그램이 짧아지고 유지 보수하기 쉬우며 대부분 정확도가 더 높음(ex 스팸 분류) 데이터 마이닝(data mining) 대용량의 데이터를 분석하여 겉으로 보이지 않던 패턴을 발견하는 기술 차원 축소(dimensionality reduction) 정보를 잃지 않으면서 데이터를 간소화 특성 추출(feature extraction) 원시 데이터.. 2020. 3. 25. 이전 1 다음 반응형