빅데이터분석기사 실기 유형별 문제 예시
한국데이터산업진흥원 홈페이지에서 제시하는 실기시험 유형별 예시 문제입니다.
1. 단답형
여러 명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어는 무엇인가? |
2. 작업형 제1유형 : 데이터 처리 영역
mtcars 데이터셋(mtcars.csv)의 qsec 컬럼을 최소최대 척도(Min-Max Scale)로 변환한 후 0.5보다 큰 값을 가지는 레코드 수를 구하시오. |
3. 작업형 제2유형 : 모형 구축 및 평가 영역
아래는 백화점 고객의 1년 간 구매 데이터이다. - 아 래 - (가) 제공 데이터 목록 ① y_train.csv : 고객의 성별 데이터 (학습용), CSV 형식의 파일 ② X_train.csv, X_test.csv : 고객의 상품구매 속성 (학습용 및 평가용), CSV 형식의 파일
(나) 데이터 형식 및 내용 ① y_train.csv (3,500명 데이터) ![]() * custid: 고객 ID * gender: 고객의 성별 (0: 여자, 1: 남자)
② X_train.csv (3,500명 데이터), X_test.csv (2,482명 데이터) ![]() |
(문제) (제출한 모델의 성능은 ROC-AUC 평가지표에 따라 채점)
<제출형식> custid,gender 3500,0.2671 3501,0.578 3502,0.885 ․ ․ ․
<유의사항> 성능이 우수한 예측모형을 구축하기 위해서는 적절한 데이터 전처리, Feature Engineering, 분류 알고리즘 사용, 초매개변수 최적화, 모형 앙상블 등이 수반되어야 한다 |
4. [Dataset] 작업형 제1유형
① mtcars.csv 파일 내용
"","mpg","cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"
"Mazda RX4",21,6,160,110,3.9,2.62,16.46,0,1,4,4
…
3. [Dataset] 작업형 제2유형
① X_test.csv 파일 내용
cust_id,총구매액,최대구매액,환불금액,주구매상품,주구매지점,내점일수,내점당구매건수,주말방문비율,구매주기
3500,70900400,22000000,4050000.0,골프,부산본점,13,1.4615384615384615,0.7894736842105263,26
3501,310533100,38558000,48034700.0,농산물,잠실점,90,2.433333333333333,0.3698630136986301,3
….
② X_train.csv 파일내용
cust_id,총구매액,최대구매액,환불금액,주구매상품,주구매지점,내점일수,내점당구매건수,주말방문비율,구매주기
0,68282840,11264000,6860000.0,기타,강남점,19,3.8947368421052633,0.527027027027027,17
1,2136000,2136000,300000.0,스포츠,잠실점,2,1.5,0.0,1
….
③ Y_train.csv 파일내용
cust_id,gender
0,0
1,0
2,1
….