| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- tauri
- SharedArrayBuffer
- docker
- curl
- Docker Compose
- cli
- PowerShell
- RandomAccessFile
- Webpack
- uv pin
- yaml
- secure context
- UV
- Python
- json schema
- vscode
- FileChannel
- json
- cross-origin isolated
- Typescript
- Java
- podman
- 이미지
- io
- ndjson
- vim
- Vite
- uv init
- Python Install Manager
- Ollama
- Today
- Total
워로디스
선형 회귀와 로지스틱 회귀의 본질적 구분 본문
키워드
'양(Amount)' 인가, '종류(Category)' 인가.
선형 회귀와 로지스틱 회귀의 본질적 구분
종종 "선형 회귀는 값을 찾고, 로지스틱 회귀는 확률을 찾는다"고 설명되지만, 이는 표면적인 결과물에 초점을 맞춘 설명입니다. 선형 회귀 역시 내부적으로 확률적 추정(최대 우도 추정)을 거치며, 로지스틱 회귀의 최종 목적 역시 확률을 바탕으로 종류를 '결정'하는 데 있습니다.
두 모델을 구분하는 진정한 본질은 예측하고자 하는 대상(Y)의 성격과 그 이면에 깔린 통계적 가정에 있습니다.
1. 실무적 관점: 종속 변수(Y)의 성질
데이터 분석과 문제 정의 단계에서 두 모델을 가르는 가장 명확한 기준은 도출하려는 Y가 '양(Amount)' 인가, '종류(Category)' 인가 하는 점입니다.
1.1 양 (연속형 변수)
- 특징: 크기와 차이가 의미를 가지는 값입니다.
- 예시: 점수, 가격, 키, 매출, 온도 등
- 질문: "얼마인가?" (예: 이 집의 가격은 얼마인가?)
- 적용 모델: 선형 회귀 (X를 근거로 Y의 크기를 예측)
1.2 종류 (범주형 변수)
- 특징: 크기가 아닌 구분을 위한 이름표입니다.
- 예시: 합격/불합격, 구매/비구매, 스팸/정상 등
- 질문: "어느 쪽인가?" (예: 이 메일은 스팸인가?)
- 적용 모델: 로지스틱 회귀 (X를 근거로 Y가 특정 종류에 속할 가능성을 계산)
2. 통계적 관점: 데이터의 확률 분포
두 모델은 데이터가 태생적으로 어떤 형태의 확률 분포를 띠고 생성되었는지에 대해 서로 다른 수학적 가정을 가집니다.
2.1 선형 회귀 (정규 분포 가정)
예측하려는 값(Y)이 연속적인 실수이며, 예측치를 중심으로 오차가 정규 분포를 따른다고 가정합니다. 선형 회귀의 목적은 주어진 데이터들이 나타날 확률 밀도를 가장 높게 만드는 정규 분포의 평균을 찾는 것입니다.
2.2 로지스틱 회귀 (베르누이 분포 가정)
예측하려는 값(Y)이 0 아니면 1, 즉 두 가지 상태만 존재하는 베르누이 분포를 따른다고 가정합니다. 로지스틱 회귀의 목적은 이 분포의 모수, 즉 특정한 상태(1이 될 확률) 자체를 찾는 것입니다.
3. 수학적 형태: 연결 함수 (Link Function)
분포의 가정이 다르기 때문에, 입력 변수들의 선형 결합(가중치와 입력값의 합)을 최종 결과물로 변환하는 방식도 달라집니다.
| 구분 | 선형 회귀 | 로지스틱 회귀 |
|---|---|---|
| 종속 변수 (Y) | 양 (연속형 실수) | 종류 (0 또는 1의 이산형 범주) |
| 확률 분포 가정 | 정규 분포 | 베르누이 분포 |
| 연결 함수 | 항등 함수 (Identity Function) | 시그모이드 함수 (Sigmoid Function) |
| 연결 함수의 특징 | 결과값의 범위가 -무한대에서 +무한대까지이므로 선형 방정식의 결과를 그대로 사용 | 결과값이 확률 범위(0 ~ 1)에 있어야 하므로 선형 방정식의 결과를 압축(Squash)하여 사용 |
| 계산 형태 | 예측값 = 선형 방정식의 결과 | 예측 확률 = 1 / ( 1 + e^(-선형 방정식의 결과) ) |
요약
선형 회귀는 양을 예측하는 모델이고, 로지스틱 회귀는 종류를 판별하는 모델입니다. 한 문장으로 요약하자면 다음과 같습니다.
Y가 "얼마인가"의 문제면 선형 회귀를, "어느 쪽인가"의 문제면 로지스틱 회귀를 선택한다.
