JMANI

빅데이터 분석 기사 실기 단답형 본문

카테고리 없음

빅데이터 분석 기사 실기 단답형

jmani 2021. 12. 3. 18:40

기출문제 제 2회(2022. 06. 19)

  1. 이상치: 데이터 정제 과정에서 처리해야 하는 값으로, 데이터가 정상의 범주에서 벗어난 값을 의미

  2. 평균대치법: 결측값 처리를 위한 단순 대치법에서 관측 또는 실험으로 얻어진 자료의 평균값으로 결측값을 대치하는 방법

    • 여러가지
  3. 하이퍼파라미터(초 매개변수) : 모델에서 외적인 요소로 데이터 분석을 통해 얻어지는 값이 아니라 사용자가 직접 설정해주거나 알고리즘 생성자가 직접 만드는 값

  4. 비지도 학습 : 라벨이 없고 예측보다는 주로 현상의 설명이나 특징추출, 패턴 도출 등의 문제에 사용하는 학습기법. 군집화, 차원 축소 기법, 연관 관계 분석(장바구니), 자율학습 인공신경망 기법이 있음

  5. 과대 적합(오버피팅) : 훈련 데이터에 대해서는 높은 성능을 보이지만 테스트 데이터에 대해서는 낮은 성능을 보이는 경우

    • 과소 적합
  6. 후진 소거법 : 회귀 분석에서 전체 분석에서 시작하여 가장 적은 영향을 주는 변수를 하나씩 제거하는 방법

    • 전진, 후진, 평균?
  7. 부스팅 : 앙상블 분석에서 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류 규칙을 만들고 이 과정을 반복해 최종 모형을 만드는 알고리즘

    • 배깅, 랜덤포레스트 등
  8. GBM(grdient boosting machine) : 회귀 분류 모델링에 사용되며 부스팅에 속함. 경사 하강법을 이용하여 가중치를 업데이트해 최적화된 결과를 얻는 알고리즘

    • 종류
  9. ROC 곡선 : 혼동 행렬의 가로와 세로축을 FPR(false positive rate), TPR(true positive rate)로 생성한 곡선

4단원

  1. 편향은 학습 알고리즘에서 잘못된 가정을 했을 때 발생하는 오차이다.
  2. 분산은 훈련 데이터에 내재된 작은 변동으로 발생하는 오차이다.
  3. 이상적인 모형은 낮은 편향과 낮은 분산으로 설정되어야 한다.
  4. 결정계수는 회귀모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율이다. 1에 가까울수록 잘 설명한다.
  5. 평가지표 외우기
Comments