-
2강 Linear Regression과외 수업 자료/인공지능 기초 2023. 5. 10. 13:29
< Linear Regression 이란? >
선형 회귀는 알려진 다른 관련 데이터 값을 사용하여 알 수 없는 데이터의 값을 예측하는 데이터 분석 기법이다.
알 수 없는 변수 또는 종속 변수와 알려진 변수 또는 독립 변수를 선형 방적으로 수학적 모델링한다.
Ex) 작년의 지출 및 수입에 대한 데이터가 있다고 가정해 보자
- 선형 회귀 기법은 이 데이터를 분석하여 지출이 수입에 받는 영향을 분석한다.
- 그런 다음 미래의 알려진 소득을 통해 밝혀지지 않은 미래 비용을 계산한다.
선형 회귀 모델은 비교적 간단하며 예측을 생성하기 위한 "해석하기 쉬운 수학 공식을 제공"한다.
선형 회귀는 확립된 통계 기법이며 software 및 computing에 적용이 쉽다.
또한 예측 결과에 대한 원인과 인과 관계등의 해석이 가능하다.
Black box로 작동되어 해석이 어려운 deep learning에 비해 결과에 대한 해석이 쉽다는 것은 큰 강점이 된다.
간단하게 선형회귀를 설명하면, 독립변수 x와 종속변수 y의 관계를 선형으로 모델링하는 것이다.
선형회귀 수학 공식 < Linear Regression 작동 단계 >
x와 y 사이의 가장 간단한 형태의 선 그래프 방적식 y = wx+b를 검토해 보자.
w, b는 x, y의 가능한 모든 값에 대해서 일정하다.
If (x, y) = { (1, 5), (2, 8), (3, 11) }
- 직선을 그린뒤 1과 5 사이의 상관관계를 측정
- 모든 값이 맞을 때까지 (2, 8) 및 (3, 11)에 대한 직선 방향을 계속 변경
- 선형 회귀 방적식을 y = 3x+2로 식별
- x가 다음과 같을 때 y가 14 임을 추정하거나 예측
최종적으로 Linear Regression의 학습은 y (파란 점)들과 예측을 위한 f(x)=y'의 값의 오차가 가장 적은 f(x)를 찾는 것을 목표로 한다.
< Metrics >
1. Mean Squared Error (MSE)
회귀 모델의 주요 손실함수
예측값과 실제값의 차이인 오차들의 제곱 평균으로 정의
제곱을 하기 때문에 outlier(특이치)에 민감하다는 단점이 있다.
MSE 수식 2. Root Mean Squared Error (RMSE)
MSE에 root를 씌운 값
오류 지표를 실제 값과 유사한 단위로 다시 변환하기 때문에 해석이 다소 용이하다는 장점이 있다.
RMSE 수식 3. R2 Score
독립 변수가 종속 변수를 얼마나 잘 설명해 주는지 보여주는 지표
이전 두 가지 지표는 에러값이기 때문에 값이 작을수록 좋지만 R2 Score는 1에 가까울수록 좋다.
R2 Score 수식 < Linear Regression code >
Linear Regression 은 python에서 Scikit-Learn을 이용하여 쉽게 구현할 수 있다.
[ Scikit-learn? ]
기계 학습 (Machine Learning)을 위한 Python 패키지]
선형 회귀, 로지스틱 회귀, 결정 트리 등 다양한 머신러닝 알고리즘을 비롯해서 데이터 처리에 필요한 다양한 기능을 제공한다.
기초적인 인공 신경망 알고리즘은 구현되어 있지만 심층 신경망은 지원하지 않는다는 단점이 있다.
[ Linear Regression - 1 ]
위 코드에서 (X(독립변수) : 공부시간, y(종속변수) : 성적)을 의미한다.
scikit learn 패키지에서 LinearRegression model을 불러와 선언한 뒤 model.fit(독립변수, 종속변수) 구문을 통해서 학습을 진행한다. 그 후 model.predict를 통해 예측 값을 확인해 볼 수 있다.
위 코드를 통해 fit을 통해 학습된 model의 계수(coef)와 절편(intercept)을 확인할 수 있다.
위 코드에서의 model은 "f(x) = 계수* x + 절편"을 가지므로 y_preidcted = 10 * coef + intercept의 값이 model.predict를 통해 얻은 값과 동일함을 확인할 수 있다.
[ Multi Linear Regression ]
위 코드는 독립변수 x가 단일 값이 아닌 다중 값일 때 단일 값인 종속변수 y를 얻는 linear regression model을 얻는 과정이다.
[ Boston dataset linear regression ]
< Reference >
https://aws.amazon.com/ko/what-is/linear-regression/선형 회귀란 무엇인가요? - 선형 회귀 모델 설명 - AWS
Amazon SageMaker는 고품질 기계 학습 모델(ML)을 빠르게 준비, 빌드, 훈련, 배포할 수 있는 완전관리형 서비스입니다. Amazon SageMaker Autopilot은 사기 탐지, 이탈 분석, 표적 마케팅과 같은 분류 및 회귀
aws.amazon.com
https://karupro.tistory.com/99머신러닝 대표 알고리즘의 종류: 선형 회귀, 로지스틱 회귀, 결정 트리, K-최근접 이웃 회귀
환영합니다, Rolling Ress의 카루입니다. 이번에는 인공지능에서 사용되는 머신러닝 알고리즘 중 유명한 것들 몇 개를 골라 자세히 비교해보겠습니다. 언어와 매체 수행평가의 일환으로 그동안
karupro.tistory.com
https://homeproject.tistory.com/3데이터 스케일링 (Data Scaling)
데이터 스케일링이란 데이터 전처리 과정의 하나입니다.데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으
homeproject.tistory.com
Sklearn Linear Regression Tutorial with Boston House Dataset
The Boston Housing dataset contains information about various houses in Boston through different parameters. This data was originally a…
amitg0161.medium.com
Linear Regression Example
The example below uses only the first feature of the diabetes dataset, in order to illustrate the data points within the two-dimensional plot. The straight line can be seen in the plot, showing how...
scikit-learn.org
'과외 수업 자료 > 인공지능 기초' 카테고리의 다른 글
6강 Attention (0) 2023.07.25 5강 Representation Learning (표현 학습) (3) 2023.06.16 4강 Convolutional Neural Network (CNN) (1) 2023.06.16 3강 Binary Classification (0) 2023.05.31 1강 인공지능 개요와 퍼셉트론 (0) 2023.04.28