Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- andrew ng
- Python
- localization
- docker
- 현지화
- gettext
- coursera
- internationalization
- gettext_windows
- deeplearning.ai
- 국제화
- I18N
- AI
Archives
- Today
- Total
JMANI
빅데이터 분석 기사 실기 단답형 본문
기출문제 제 2회(2022. 06. 19)
이상치: 데이터 정제 과정에서 처리해야 하는 값으로, 데이터가 정상의 범주에서 벗어난 값을 의미
평균대치법: 결측값 처리를 위한 단순 대치법에서 관측 또는 실험으로 얻어진 자료의 평균값으로 결측값을 대치하는 방법
- 여러가지
하이퍼파라미터(초 매개변수) : 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주거나 알고리즘 생성자가 직접 만드는 값
비지도 학습 : 라벨이 없고 예측보다는 주로 현상의 설명이나 특징추출, 패턴 도출 등의 문제에 사용하는 학습기법. 군집화, 차원 축소 기법, 연관 관계 분석(장바구니), 자율학습 인공신경망 기법이 있음
과대 적합(오버피팅) : 훈련 데이터에 대해서는 높은 성능을 보이지만 테스트 데이터에 대해서는 낮은 성능을 보이는 경우
- 과소 적합
후진 소거법 : 회귀 분석에서 전체 분석에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하는 방법
- 전진, 후진, 평균?
부스팅 : 앙상블 분석에서 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류 규칙을 만들고 이 과정을 반복해 최종 모형을 만드는 알고리즘
- 배깅, 랜덤포레스트 등
GBM(grdient boosting machine) : 회귀 분류 모델링에 사용되며 부스팅에 속함. 경사 하강법을 이용하여 가중치를 업데이트해 최적화된 결과를 얻는 알고리즘
- 종류
ROC 곡선 : 혼동 행렬의 가로와 세로축을 FPR(false positive rate), TPR(true positive rate)로 생성한 곡선
4단원
- 편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차이다.
- 분산은 훈련 데이터에 내재된 작은 변동으로 발생하는 오차이다.
- 이상적인 모형은 낮은 편향과 낮은 분산으로 설정되어야 한다.
- 결정계수는 회귀모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율이다. 1에 가까울수록 잘 설명한다.
- 평가지표 외우기
Comments