오늘의 주제
•
결과 요약 탭에서 주관식 숫자형 응답 결과는 어떻게 보일까?
•
주관식 숫자형은 어떻게 분석하면 좋을까?
#이상치없애기 #지표함께보기
Data Talk: 결과 요약 탭은 문항별 결과를 어떻게 제공하고 있을까 (
주관식 숫자형 편)
안녕하세요!
저번 주관식 문자형
을 시작으로 문항 유형별로 정보가 제공되는 방식과 분석 방법에 대해 재미있게 알아가고 있습니다! 이번 시간에는 어떤 문항 유형을 살펴볼 예정인가요?
새미, 반갑습니다.
이번 Data Talk에서는 주관식 숫자형에 대해 알아보려고 해요. 다음과 같은 문항은 주관식 숫자형으로 받을 수 있어요.
무선 이어폰을 구매하면 보통 얼마나 사용하실 수 있다고 생각하시나요? 사용할 수 있다고 생각하는 ‘개월 수’를 입력해 주세요.
그런데 응답을 주관식 숫자형으로 받으면 어떤 점이 좋은가요?
상세한 응답을 받을 수 있다는 점에서 좋습니다. 주관식 숫자형은 횟수나 개수, 가격 등 구체적인 수치에 대한 응답자의 생각을 알 수 있기 때문이에요.
아하 그렇군요!
그런데 주관식 숫자형은 사실 다루기 까다로운 유형 중 하나예요. 값이 터무니없이 크거나 너무 작은 응답이 하나라도 있으면 전체 결과에 영향을 줄 수 있어요.
아래 주관식 숫자형 결과를 예시로 볼까요? 무선 이어폰을 사용할 수 있다고 생각하는 기간을 월 단위로 물었는데 최대값이 360이 나왔어요. 일반적으로 무선 이어폰을 360개월, 즉 30년씩이나 사용할 수 있다고 생각했을 가능성은 작은데 왜 이런 응답이 나왔을까요?
음…응답자가 개월 수를 일 수로 잘못 인식하고 응답해서 그런 걸까요?
그럴 가능성이 있죠.
설문조사는 때로는 불특정 다수에게 아주 짧은 시간 내에 필요한 정보만 받다 보니, 일부 응답자는 문항에서 요구하는 정보를 놓치거나 지나칠 가능성이 있어요. 주관식 숫자형에서는 이런 이상치(예상되는 결과 범위를 벗어난 값)가 전체 결과에 크게 영향을 줄 수 있어요. 아래 코너에서 주관식 숫자형을 더 자세히 알아보아요!
주관식 숫자형 200% 알아가기
주관식 숫자형의 응답 결과는 다음과 같은 형태로 보여줘요
•
문항 결과 화면 상단에서 총 응답수를 확인할 수 있어요.
•
응답 결과는 구간별로 응답수를 볼 수 있는 히스토그램 그래프로 표시됩니다.
•
우측에는 응답을 해석할 때 같이 봐야 할 중요한 지표도 함께 보여줍니다.
주관식 숫자형, 이렇게 분석할 수 있어요
•
주관식 숫자형은 응답자에게 구체적인 수치를 물어볼 수 있어 유용합니다. 그러나 최근 구매 금액 혹은 지출 금액 등 응답자가 정확하게 기억하기 어려운 수치를 주관식 숫자형으로 받는다면 오히려 인식 오류로 인해 이상치 응답이 많아질 수 있어요.
이 경우에는 주관식 숫자형보다는 1만 원 미만 / 1만 원 이상~2만 원 미만 / 2만 원 이상처럼 범위를 설정해 객관식으로 물을 때 오히려 더 정확한 데이터를 수집할 수 있어요.
•
평균: 응답 데이터의 평균을 보여주는 지표로, 결과를 해석할 때 중요하게 활용됩니다.
•
표준편차: 평균을 중심으로 응답 데이터가 얼마나 좁거나 넓게 분포하고 있는지 보여줘요. 값이 클수록 데이터가 넓게 퍼져있고, 작을수록 평균에 가깝게 분포한다고 해석해요.
•
최빈값: 전체 응답 데이터 중 가장 많은 사람이 언급한 숫자를 의미해요.
•
중앙값: 전체 응답 데이터를 작은 값에서 큰 값으로 오름차순 나열했을 때, 가장 중앙에 있는 응답 데이터를 나타내요.
•
최소값과 최대값: 전체 응답 데이터에서 가장 작은 값과 큰 값을 나타내요. 이 두 값과 히스토그램을 같이 보면 이상치가 있는지도 판단할 수 있어요. 아래 문항 결과를 예시로 보면 75 이상 구간에는 응답 데이터가 거의 없다는 것을 알 수 있어요. 따라서 75~360은 소수의 사람만 응답한 이상치로 볼 수 있습니다.
•
Percentile 30과 Percentile 70: 전체 응답 데이터를 오름차순(작은 순서부터) 나열했을 때 하위 30%와 상위 30%(하위 70%)에 딱 해당하는 응답 데이터를 의미해요. 1,000명이 응답했다면 각각 300번째와 700번째 응답이 이 값에 해당합니다. 이 지표는 응답 데이터가 작은 그룹, 중간 그룹, 큰 그룹 등 데이터를 그룹별로 나누고 싶을 때 살펴보면 좋은 지표예요.
아래 문항 결과를 예시로 보면 Percentile 지표를 활용해 사용 기간이 짧은 / 사용 기간이 중간 정도 / 사용 기간이 긴 그룹으로 나눌 수 있어요.
•
큰 응답 데이터에서 이상치가 있는지 확인하기: 아래 예시 문항의 히스토그램 결과를 살펴보니 75구간 이후로는 응답 데이터가 거의 없는 것을 확인할 수 있어요. 이 경우 75 이상(6년 이상)의 응답 데이터는 이상치로 보고, 히스토그램 왼쪽에 있는 그래프 설정을 통해 응답 데이터의 최소값~최대값 범위를 1~75로, 구간은 1년을 개월 수로 나타낸 12로 변경해서 보면 좋아요.
변경 후 결과를 다시 살펴보니 4개의 이상치가 제외되어 총 응답수는 996명, 원본 데이터에서는 25.83이었던 평균이 25.25로 바뀌었음을 확인할 수 있어요.
•
작은 응답 데이터에서 이상치가 있는지 확인하기: 응답 데이터의 범위와 구간을 변경한 히스토그램을 살펴보니 0 이상 12 미만 구간에 응답한 사람이 76명입니다. 1,000명 중 76명이면 7.6%로 꽤 큰 비율이기 때문에 이 구간에 해당하는 응답이 정말 이상치 인지 한번 살펴볼 필요가 있어요.
다시 그래프 설정을 통해 응답 데이터의 최소값~최대값 범위를 1~11로, 구간은 1로 변경하면 아래와 같은 히스토그램이 나타납니다. 응답 데이터가 꽤 골고루 분포되어 있네요. 또한 75 이상(6년 이상)이라고 응답한 사람이 4명 밖에 없는 것에 비해 6이라고 응답한 사람이 18명 이상이기 때문에 이 응답 데이터는 6년이 아니라 6개월을 의미했을 가능성이 높아요. 따라서 이상치가 아니라고 판단할 수 있어요.
•
이상치를 찾는 것에는 정답이 없어요. 시장 상황과 비즈니스에 대한 이해를 바탕으로 이 응답 데이터가 나올만한지 스스로 검토해보고 이상치를 정제해야 해요.
•
일반적으로 최솟값보다는 최대값 인근의 이상치가 전체 평균에 큰 영향을 미치기 때문에 최대값 인근의 이상치를 더 주의 깊게 봐야 합니다.