반응형

※ 이 글에 추가하고 싶은 문제가 있으시다면, 댓글에 문제와 정답을 남겨주시면 참고하여 업데이트 하겠습니다.

 

[예시문제]


여러 명의 사용자들이 컴퓨터에 저장된 많은 자료들을 쉽고 빠르게 조회, 추가, 수정, 삭제할 수 있도록 해주는 소프트웨어는 무엇인가? (DBMS)

[연습문제]

문제 번호 문제 정답
1 특정 분류 모델의 성능을 평가하는 지표로, 실제값과 모델이 예측한 예측값을 한 눈에 알아볼 수 있게 배열한 정렬은? 혼동행렬
2 데이터베이스의 구조와 제약 조건에 관한 전반적인 명세를 기술한 메타데이터의 집합은? 스키마
3 정밀도와 재현율이 모두 중요할 때 사용하는 성능지표로 정밀도와 재현율의 조화평균으로 구하는 스코어는? F1 Score
4 딥러닝 알고리즘의 하나로 커널을 사용하여 적은 수의 매개변수를 여러 번 활용하는 방식을 쓰며 이미지 분석에 많이 사용되는 알고리즘은? CNN
5 시간 순서가 있는 데이터에 적합한 딥러닝 알고리즘으로 언어처리에 많이 사용되는 신경망 알고리즘은? RNN
6 ROC 커브의 X축은( ) 레이트이다. ( )에 들어갈 말은? FP(FalsPosituve)
7 모델 내부에서 결정되는 변수로 데이터를 가지고 모델을 트레이닝하면서 결정하는 값은? 파라미터(매개변수)
8 머신러닝 모델에서 데이터로부터 결정하지 못하고 사용자가 직접 설정해 주어야 하는 값은? 하이퍼파라미터(초매개변수)
9 다음과 같은 특징을 갖는 데이터베이스는?
- 데이터 간의 관계를 정의하지 않는다.
- 아주 큰 대용량의 데이터를 저장할 수 있다.
- 분산형 구조를 갖는 경우가 대부분이다.
- 고정된 스키마를 사용하지 않아도 된다.
NoSQL
10 수집한 데이터를 다양한 각도에서 관찰하고 이해하는 과정으로 데이터를 분석하기 전에 그래프나 통계적인 방법으로 자료를 직관적으로 바라보는 과정을 뜻하는 용어는? EDA(탐색적 데이터 분석)
11 ROC 커브의 Y축은? TP Rate
12 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련, 평가 데이터를 기반으로 하는 검증 기법은? 교차 검증
13 전체 데이터를 비복원추출 방법을 이용하여 랜덤하게 학습 데이터와 평가 데이터로 나눠 검증하는 기법은? 홀드 아웃 교차 검증
14 데이터 집합을 무작위로 동일 크기를 갖는 K개의 부분 집합으로 나누고, 그중 1개 집합을 평가 데이터로, 나머지(K-1)개 집합을 학습 데이터로 선정하여 분석 모형을 평가하는 기법은? K-fold 교차 검증
15 주어진 자료에서 단순 랜덤 복원추출 방법을 활용하여 동일한 크기의 표본을 여러 개 생성하는 샘플링 방법은? Boot Strapping(부트스트랩)
16 모델의 파라미터 수가 많거나 학습용 데이터 세트의 양이 부족한 경우 발생되는 현상으로 제한된 학습 데이터 세트에 너무 지나치게 특화되어 새로운 데이터에 대한 오차가 매우 커지는 현상을 뜻하는 용어는? 과대적합
17 과대적합을 방지하기 위하여 학습과정에서 신경망의 일부를 사용하지 않는 방법은? 드롭아웃
18 여러 가지 변수를 비교할 수 있는 시각화 그래프로 칸 별로 색상을 구분하여 데이터 값을 표현하는 방법은? 히트맵
19 중요 정보를 하나의 그래픽으로 표현해서 보는 사람들이 쉽게 정보를 이해할 수 있도록 만드는 시각화 방법은? 인포그래픽
20 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법은? 랜덤포레스트
21 머신러닝 모델의 출력값과 사용자가 원하는 실제값의 차이를 구하는 함수를 의미하는 용어는? 손실함수(loss function)
22 머신러닝 방법의 하나로 새로운 데이터를 입력 받았을 때 가장 가까이 있는 것이 무엇이냐를 중심으로 새로운 데이터의 종류를 정해주는 알고리즘은? KNN(K 최근접이웃 알고리즘)
23 간단한 형태의 인공신경망 선형 분류기로 입력층과 출력층으로만 구성되어 있으며 비선형분류를 할 수 없는 신경망을 의미하는 용어는? 퍼셉트론(단층퍼셉트론)
24 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치있는 정보를 추출하는 과정을 의미하는 용어는? 데이터마이닝
25 자연어로 구성된 비정형 텍스트 데이터에서 패턴 또는 관계를 추출하여 가치와 의미 있는 정보를 찾아내는 기법은? 텍스트마이닝
26 조직적, 자동화된 방법으로 웹을 탐색하는 컴퓨터 프로그램은? 웹크롤러
27 사용자의 의사결정에 도움을 주기위해 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터를 의미하는 용어는? 데이터 웨어하우스
28 관계형 데이터베이스 관리시스템의 데이터를 관리하기 위해 설계된 특수목적의 프로그래밍 언어는? SQL
29 어떤 목적을 가지고 만들어진 데이터라고 정의되며 다른 데이터를 설명하거나 관련된 주요 정보 제공을 목적으로 사용되는 데이터는? 메타데이터
30 키-값 쌍으로 이루어진 데이터 오브젝트를 전달하기 위해 인간이 읽을 수 있는 텍스트를 사용하는 개방형 데이터 표준 포맷으로 인터넷에서 자료를 주고 받을 때 많이 사용되는 데이터 저장 형식은? json
31 확률변수가 기댓값으로부터 얼마나 떨어진 곳에 분포하는지 가늠하는 숫자는 무엇인가? 분산
32 인공신경망의 출력값이 원하는 결과와 다를 경우 가중치 갱신을 통해 오차를 최소화 시키도록 반복 수행하여 신경망을 학습시키는 알고리즘은 무엇인가? 역전파 알고리즘
33 차원축소와 군집화를 동시에 수행하며 고차원으로 표현된 데이터를 저차원으로 변환하여 보는 비지도학습 기반 클러스터링 기법은 무엇인가? SOM(자기 조직화 지도)
34 많은 데이터를 그림을 이용하여 집합의 범위와 중앙값을 빠르게 확인할 수 있으며, 또한 통계적으로 이상값이 있는지 빠르게 확인이 가능한 시각화 기법은? 박스플롯
35 학습 데이터에 대한 성능은 좋지만, 실제 데이터에 대한 성능이 떨어지는 현상을 무엇이라고 하는가? 과대접합(Over fitting)
36 실제 분류 범주를 정확하게 예측한 비율을 무엇이라 하는가? 정확도
37 모델평가의 이원교차표에서 '참'으로 예측한 비율중에서 실제로 '참' 인 비율을 무엇이라고 하는가? 정밀도
38 모델평가의 이원교차표에서 실제 참을 참으로 분류한 비율은 무엇이라고 하는가? 민감도(재현율)
39 회귀분석에서 회귀모형이 얼마나 잘 설명하고 있는지를 보여주는 지표로 회귀선의 정확도를 평가할 때 사용하며 전체 제곱합에서 회귀 제곱합의 비율을 나타내는 지표를 무엇이라고 하는가? 결정계수
40 모집단 분산이 서로 동일하다고 가정되는 두 모집단으로 부터, 표본 크기가 각각 n1, n2 독립적인 2개의 표본을 추출하였을 때, 2개의 표본 분산이 s1^2, s2^2의 비율을 무엇이라고 하는가? F-통계량
41 예측을 통해 설명이 되는 결과적인 변수를 무엇이라고 하는가? 반응변수, 결과변수, 목적변수, 종속변수
42 머신러닝 모델 의사결정 트리에서 불순도를 측정하는 척도로 무질서한 정도를 나타내는 척도가 무엇인가? 엔트로피
43 학습 알고리즘에서 잘못된 가정을 했을때 발생하는 오차를 무엇이라고 하는가? 편향(Bias)
44 인공신경망 모델에서 입력신호의 총합을 출력신호로 변환하는 함수로, 입력받은 신호를 얼마나 출력할지를 결정하고, 다음 단계에서 출력된 신호의 활성화 여부를 결정하는 함수는 무엇인가? 활성화 함수(activation function)
45 모든 그룹의 공분산 행렬은 같다고 가정하에 관측치로 부터 그룹 중심(평균)까지의 거리제곱이 최소일 경우 해당 관측치는 해당 그룹으로 분류하는 분석을 무엇이라고 하는가? 선형판별분석
46 저차원에서 함수의 계산만으로 원하는 풀이가 가능한 커널함수를 이용하여 고차원 공간으로 매핑할 경우에 증가하는 연산량의 문제를 해결하는 기법은 무엇인가? 커널트릭(Kernel Trick)
47 머신러닝 연관성 분석에서 전체 거래중 항목 A와 항목B를 동시에 포함하는 거래의 비율을 무엇이라 하는가? 지지도(support)
48 머시러닝 연관성 분석에서 규칙이 우연에 의해 발생한 것인지 판단하기 위해 연관성의 정도를 측정하는 척도를 무엇이라 하는가? 향상도(lift)
49 군집간의 거리계산의 연속형 변수 거리를 측정하는 계산법으로 두 점간의 차를 제곱하여 모든 더한 값의 양의 제곱근을 무엇이라 하는가? 유클리드 거리
50 군집간의 거리계산에서 연속형 변수 거리를 측정하는 계산법으로 두 점간 차의 절댓값을 합한 값은 무엇인가? 맨하튼 거리
51 군집간의 거리계산중 명목형 변수 거리를 측정하는 계산법으로 두 집합사이의 유사도를 측정하는 방법으로 두 집합의 교집합을 두 집합의 합집합으로 나눈 값을 무엇이라 하는가? 자카드계수
52 어떤 시행의 결과가 주어졌다고 할 때, 주어진 가설이 참이라면 그 결과가 나오는 정도를 무엇이라고 하는가? 우도(likelyhood)
53 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법으로 점 추정방식에 속하는 방식을 무엇이라고 하는가? 최대 가능도
54 특정 사건이 발생할 확률과 그 사건이 발생하지 않을 확률의 비를 무엇이라고 하는가? 승산(odds)
55 교차분석의 검정방법으로 편차의 제곱값을 기대 빈도로 나눈 값들의 합을 무엇이라고 하는가? 카이제곱 검정
56 표본집단의 분포가 주어진 특정 이론을 따르고 있는지를 검정하는 기법을 무엇이라고 하는가? 적합도 검정
57 현재까지 주장되어 온 것 또는 기존과 비교하여 변화 혹은 차이가 없음을 나타내는 가설을 무엇이라고 하는가? 귀무가설
58 여러 범주를 가지는 2개의 요인이 독립적인지, 서로 연관성이 있는지를 검정하는 기법을 무엇이라고 하는가? 독립성 검정
59 대립가설이 참일때, 그것을 받아들이는 확률은 무엇이라고 하는가? 기각역
60 어떤 가설이 통계적으로 유의한지 아닌지 결정하는 행위를 무엇이라고 하는가? 검정(test)
61 두 변수가 서로 독립일 경우에 이론적으로 기대할 수 있는 빈도 분포로 두 변수 사이에 연관성이 없다는 가정하에 예상되는 빈도를 무엇이라고 하는가? 기대빈도
62 상관관계가 있는 고차원 자료를 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법을 무엇이라고 하는가? 주성분 분석
63 연도별, 분기별, 월별 등 시계열로 관측되는 자료를 분석하여 미래를 예측하기 위한 분석기법을 무엇이라고 하는가? 시계열 분석
64 참값과 근사값의 차이로 근사값에서 참값을 뺀 값을 무엇이라고 하는가? 오차
65 두가지 사건 사이에 연관성이 존재하는 상태임을 나타내는 척도는 무엇인가? 상관관계
66 손실 함수의 기울기를 구하여, 그 기울기를 따라 조금씩 아래로 내려가 최종적으로는 손실 함수가 가장 작은 지점에 도달하도록 하는 알고리즘을 무엇이라고 하는가? 확률적 경사하강법
67 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술을 무엇이라고 하는가? 자연어 처리(NLP)
68 여러가지 동일한 종류 또는 서로 상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법을 무엇이라 하는가? 앙상블 기법
69 앙상블 기법으로 학습 데이터에서 다수의 부트스트랩 자료를 생성하고 각 자료를 모델링 한 후 결합하여 최종 예측 모형을 만드는 알고리즘을 무엇이라 하는가? 배깅(bagging)
70 앙상블 기법으로 잘못 분류된 개체들에 가중치를 적용하여 새로운 분류 규칙을 만들고 이 과정을 반복해 최종 모형을 만드는 알고리즘을 무엇이라 하는가? 부스팅(boosting)
71 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한 후 이를 선형 결합하여 최종 학습기를 만드는 방법을 무엇이라 하는가? 랜덤포레스트(random forest)
72 평균이나 분산과 같은 모집단의 분포에 대한 모수성을 가정하지 않고 분석하는 통게적 방법을 무엇이라 하는가? 비모수 통계
73 모집단 분포 특성을 규정짓는 척도 및 모집단의 특성치를 무엇이라 하는가? 모수
74 모집단에 대한 통계적 가설을 세우고 표본을 추출한 다음, 그 표본을 통해 얻은 정보를 이용하여 통계적 가설의 진위를 판단하는 검정방법을 무엇이라 하는가? 가설검정
75 분석모델에서 구한 분류의 예측 범주와 데이터의 실제 분류 범주를 교차표 형태로 정리한 행렬을 무엇이라 하는가? 혼동행렬
76 실제 긍정인 것중에 긍정으로 잘 예측한 비율을 무엇이라 하는가? 민감도
77 긍정으로 예측한 비율에서 실제 긍정인 비율은 무엇이라 하는가? 정밀도
78 실제 부정인 범주 중에서 부정으로 잘 예측한 비율은 무엇이라 하는가? 특이도
79 그룹에 속한 사람들 간의 네트워크 특성과 구조를 분석하고 시각화하는 분석 기법을 무엇이라 하는가? 사회 연결망 분석(SNA)
80 어떤 주제에 대한 주관적인 인상, 감정, 태도 개인의 의견들을 텍스트로부터 뽑아내는 분석방법을 무엇이라 하는가? 감정분석
81 주관적인 의견이 포함된 데이터에서 사용자가 게제한 의견과 감정을 나타내는 패턴을 분석하는 기법을 무엇이라 하는가? 오피니언 마이닝
82 텍스트 형태로 이루어진 비정형 데이터들을 자연어처리 방식을 이용하여 정보를 추출하는 기법을 무엇이라 하는가? 텍스트 마이닝
83 웹에서 발생하는 고객의 행위 분석과 특성 데이터를 추출, 정재하여 의사결정에 활용하기 위한 기법을 무엇이라 하는가? 웹 마이닝
84 모형의 평가지표가 우연히 나온 결과가 아니라는 것을 나타내는 지표가 무엇인가? 카파 통계량
85 가로축을 혼동행렬의 거짓 긍정률로 두고 세로축을 민감도로 두어 시각화한 그래프는 무엇인가? ROC곡선
86 모델의 일반화 오차에 대해 신뢰할 만한 추정치를 구하기 위해 훈련 데이터의 일부를 평가 데이터로 하여 모델을 검증하는 기법을 무엇이라 하는가? 교차검증
87 가설검정에서 검정대상이 모집단의 평균이고 모집단의 수가 3개 이상일 때 사용하는 검정방법은? ANOVA
88 가설검정에서 검정대상이 모집단 분산이고 모집단의 수가 2개일 때 사용하는 검정방법은? F-검정
89 귀무가설에서 검정 통계량의 분포를 정규 분포로 근사할 수 있는 통계 검정은 무엇인가? Z-검정
90 검정하는 통계량이 귀무가설 하에서 T-분포를 따르는 통계적 가설 검정으로, 두 집단간의 평균을 비교하는 모수적 통계 방법으로서 표본이 정규성, 등분산성, 독립성등을 만족하는 경우에 적용하는 검정방법은? T-검정
91 동일한 확률분포를 가진 독립 확률 변수 n개의 평균분포는 n이 적당히 크다면 정규 분포에 가까워 진다는 이론은 무엇인가? 중심극한정리
92 두개 이상의 집단간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단간의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법은 무엇인가? 분산분석
93 관찰된 빈도가 기대되는 빈도와 유의미하게 다른지를 검정하기 위해 사용되며 단일 표본의 모집단이 정규분포를 따르며 분산을 알고 있는 경우에 적용하는 검정 방법은 무엇인가? 카이제곱 검정
94 두 표본의 분산에 대한 차이가 통계적으로 유의한가를 판별하는 검정 기법인데 두 모집단 분산 간의 비율에 대한 검정은 무엇인가? F-검정
95 연속 확률 분포의 하나로 일반적으로 발견되는 좌우대칭 종 모양으로 생긴 분포를 무엇이라 하는가? 정규분포
96 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때 실제 확률을 나타내는 지표가 무엇인가? p-value
97 인공신경망에서 관측된 값과 연산된 값간의 차이를 연산하는 함수를 무엇이라 하는가? 비용함수
98 학습시에 인공신경망이 특정 뉴런 또는 특정 조합에 너무 의존적으로 되는 것을 방지해 주기 위해서 학습과정에서 신경망의 일부를 사용하지 않는 방법은 무엇인가? 드롭아웃
99 여러개의 모델을 조화롭게 학습시켜 그 모델들의 예측 결과들을 이용하여 더 정확한 예측값을 구하는 기법을 무엇이라 하는가? 앙상블
100 인공신경망에서 매개변수를 최적화하는 기법으로 기울기 방향으로 힘을 받으면 물체가 가속된다는 물리 법칙을 적용한 알고리즘이 무엇인가? 모멘텀
101 인공신경망에서 매개변수를 최적화하는 기법으로 손실함수의 기울기가 큰 첫 부분에서는 크게 학습하다가, 최적점에 가까워질수록 학습률을 줄여 조금씩 적게 학습하는 방식을 무엇이라 하는가? Adagrade
102 Momentum의 장점과 Adagrade의 장점을 살린 경사 감소법은? Adam
103 일반 pc급 컴퓨터들로 가상화된 대형 스토리지를 형성하고 그 안에 보관된 거대한 데이터 세트를 병렬로 처리할 수 있도록 개발된 오픈 소스 기반의 분산 컴퓨팅 플랫폼은 무엇인가? 하둡
104 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값을 무엇이라 하는가? 이상값(outlier)
105 하나의 자산을 획득하려 할 때 주어진 기간 동안 모든 연관 비용을 고려할 수 있도록 확인하기 위해 사용하는 비즈니스 기여도 평가 기법은? 총 소유 비용(TCO)
106 자본 투자에 따른 순 효과의 비율을 의미하는 비즈니스 기여도 평가 기법은? ROI
107 특정시점의 투자금액과 매출금액의 차이를 이자율을 고려하여 계산한 값이며 투자 비용의 할인가치를 예상수익의 할인가치에서 공제했을때 나온 값을 합한 금액을 무엇이라 하는가? 순현재가치(NPV)
108 순 현재가치를 0으로 만드는 할인율을 무엇이라 하는가? 내부수익율(IRR)
109 누계투자금액과 매출금액의 합이 같아지는 기간을 말하며 프로젝트 시작 시점부터 누적 현금흐름이 흑자로 돌아서는 시점까지의 기간을 무엇이라 하는가? 투자 회수 기간
110 사용자(분석자)가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수를 무엇이라 하는가? 파생변수
111 대규모로 저장된 데이터 안에서 체계적이고 자동으로 통계적 규칙이나 패턴을 찾아내는 기법을 무엇이라 하는가? 데이터 마이닝
112 주어진 자료에서 랜덤복원 추출 방법을 활용하여 동일한 크기의 표본을 여러개 생성하는 샘플링 방법을 무엇이라 하는가? 부트스트랩
113 귀무가설에서 검정 통계량의 분포를 정규 분포로 근사 할 수 있는 통계검정은 무엇인가? Z-검정
114 표본집단의 분포가 주어진 특정이론을 따르고 있는지를 검정하는 기법을 무엇이라 하는가? 적합도 검정
115 빅데이터 플랫폼의 데이터 형식으로 키-값으로 이루어진 데이터 오브젝트를 전달하기 위해 텍스트를 사용하는 개방형 표준 포맷은 무엇인가? JSON
116 대용량 파일을 저장하고 처리하기 위해서 개발된 파일 시스템으로 네임노드와 데이터 노드로 구성된 것은? 하둡 분산 파일 시스템
117 분석의 대상이 무엇인지 인지하고 있는 경우, 즉 해결해야할 문제를 알고 있고 이미 분석의 방법도 알고 있는 경우에 사용하는 분석 유형은 무엇인가? 최적화
118 해결해야할 문제는 알고 있지만 분석방법을 모르는 경우에 사용하는 분석 유형은 무엇인가? 솔루션
119 분석방법은 알고 있지만 분석 대상을 모르는 경우에 사용하는 분석유형은 무엇인가? 통찰
120 분석방법, 분석대상 둘 다 모를 경우 사용하는 분석 유형은 무엇인가? 발견
121 두 변수가 키와 몸무게, 수입과 지출 등과 같은 수치적 데이터일 경우에 두 변수 사이의 연관성을 계량적으로 산출하여 분석하는 방법은 무엇인가? 피어슨 상관계수
122 표본으로부터 구한 통계량의 기대치가 추정하려 하는 모수의 실제 값에 같거나 가까워지는 성질을 무엇이라 하는가? 불편성
123 시계열 분석에서 시점에 상관없이 시계열의 특성이 일정하다는 것은 무엇인가? 정상성
124 두개 이상의 집단 간 비교를 수행하고자 할 때 집단 내의 분산, 총 평균과 각 집단의 평균 차이에 의해 생긴 집단 간 분산 비교로 얻은 F-분포를 이용하여 가설검정을 수행하는 방법을 무엇이라 하는가? 분산 분석
125 데이터를 0을 중심으로 양쪽으로 데이터를 분포시키는 방법은? 표준화
126 두 데이터의 비교를 위해 데이터를 0~1 사이의 실수로 분포시키는 방법을 무엇이라 하는가? 최소최대 정규화

더 자세한 사항은 아래 저장소를 참고하시기 바랍니다.
https://github.com/mgkim-developer/BigData_Analyst_Certificate_Korean

 

GitHub - mgkim-developer/BigData_Analyst_Certificate_Korean: 빅데이터 분석기사 실기 준비방법 가이드

빅데이터 분석기사 실기 준비방법 가이드. Contribute to mgkim-developer/BigData_Analyst_Certificate_Korean development by creating an account on GitHub.

github.com

반응형