본문 바로가기

BOOK

데이터 문해력 (velog 이관)

1. 데이터 문해력: 분석보다 활용

데이터 안에는 답이 없다.
답을 찾기 위해서는 그 전에 합당한 가설을 세운 후 그 가설을 검증하기 위해서 데이터를 활용해야 한다.
  • 사람들은 흔히 데이터를 적절하게 분석하면 문제와 목적, 결론이 나올 것으로 생각한다. 하지만 이것은 본래 분석자 스스로가 생각해야 하는 것이다. 또는 눈앞의 데이터를 적절히 가공하면 뭔가 유용한 정보를 얻을 수 있을 것으로 생각한다. 만약 아무것도 안 나오게 되면, 분석 방법에 문제가 있다고 생각한다.
  • 이러한 데이터 중심적인 사고가 위험한 이유는 데이터는 결국 전체 현상의 일부분을 나타낼 뿐이기 때문이다. 실제 현상은 훨씬 더 넓은 범위의 데이터를 필요로 하는데 사람들은 어쩌다 얻은, 누군가 가공해놓은 데이터를 가지고 마치 그것이 전부인 마냥 분석을 한다. 이런 분석은 결국 코끼리의 다리를 다듬고서는 이것은 기둥이다라고 말하는 것과 같다.
  • 그러므로 데이터를 분석하는 데에 그치지 않고 활용하기 위해서는 목적/문제를 먼저 정의하고 > 현상을 파악 및 평가한 후에 > 요인을 분석하고 > 어떤 방법으로 이 문제를 해결할 수 있을지 생각해야 한다.

2. 올바른 데이터로 올바른 문제를 플고 있는가?

목적 사고력: 목적에 맞게 문제와 데이터를 연결하기
"Are you solving the right problem?"
"Are you using the right data?"

2-1 풀고자 하는 문제가 명확하지 않다.

  • 데이터 활용에서 먼저 해야 하는 작업은 목적과 문제를 정의하는 것이다. 이들은 '이미 아는 것'인 경우가 많으며 그러므로 의식적으로 '다시 확인한다' 정도의 인식을 하면 충분하다.
  • 하지만 이 단계는 이후의 작업들이 효과적으로 이어지게 하는 데에 매우 중요하다. 왜냐하면, 대부분은 겉으로 드러난 상황이나 문제 그 자체가 풀고자 하는 문제를 직접적으로 드러내고 있다고 단정할 수 없기 때문이다. 예를 들어 '인구가 감소하고 있다'는 것을 인지한 후 바로 데이터를 분석하게 되면, 인구 감소가 궁극적으로 어떤 문제를 야기하는지, 다르게 말해 어떤 목적을 위해 인구 감소 문제를 해결하고자 하는지 명확히 알지 못 해 결국 데이터를 활용하는 것이 아니라 분석하는 데에 그치기 때문이다.
  • 포인트 1: 문제를 정의하는 데에 사용된 언어가 구체적이고 명확한지 확인해야 한다. '인구 문제'의 예를 들자면, 무엇이 문제이며 구체적으로는 어디 사는 누가 어떤 식으로 곤란에 처해 '문제'가 발생한 것인지 명확하게 해야 한다. 가령, '저출산 고령화 문제', '서비스업 인력 부족에 따른 주민 생활 불편' 등이 보다 문제 정의에 부합하다.
  • 포인트2: 다음으로 문제, 원인, 해결 방안을 구분하고 있는지 점검해야 한다. 다시 인구 감소의 예로 돌아가서 만약 이 작업을 수행하지 않고,곧바로 '인구 유출과 유입'에 대한 분석 작업을 하고 시각화를 한 후에 누군가 "당신은 대체 이 데이터를 통해 무슨 결론을 내려고 하나요?"라고 묻는다면 아마도 "인구 유출과 유입에 대한 데이터를 통해 유출이 얼마나 많은지 시각적으로 보여주려고 합니다."라고 답할 것이다. (전형적인 so what?의 사례...) 반면에, 문제를 '서비스 업종에서의 인력 부족을 해결하고자 한다'로, 원인을 '인구 감소 문제를 해결하거나 완화하고자 한다'로 원인의 원인을 '인구 유출을 막고 유입을 촉진하고자 한다'로 설정한다면 제대로 된 해결 방안 또는 결론을 도출하고자 데이터를 활용할 수 있을 것이다.
  • 특히 '작업 효율화를 높여 구조 조정을 하고 싶다.' '인재 부족으로 효과적인 영업 활동을 하고 있지 못하다.'와 같이 이미 원인을 단정지어놓고 마치 그것이 문제인 양 분석 작업에 들어가서는 안 된다. (이런 식의 답정너식 데이터 분석은 실무를 하다 보면 빈번히 구경하게 된다...)

2-2 정의한 문제와 사용하는 데이터가 일치하지 않는다.

  • 가령, '학생 식당의 질을 평가하려 한다.'를 목적으로 뒀다고 가정하다. 우선 '질'이라는 단어가 명확하고 구체적이지 못하다. 질에는 맛, 가격, 입지 조건 등등 여러 가지 해석이 있을 수 있기 때문이다. 이렇게 단어를 모호하게 정의하면 수집하는 지표도 함께 불명확해지고 분석의 방향이 고이게 된다.
  • 다음으로, 만약 '고객 불평사항에 대한 개선이 이루어지고 있지 않다'를 문제로 설정하고 '클레임 수'를 지표로 설정한 경우를 생각해보자. 현재 문제는 '클레임이 많은 것'이 아니라 '개선되지 않고 있다는 것'이기 때문에 클레임 수 대비 개선 수(비율)이 지표로 더 적절할 것이다. 이렇게 정확히 지표를 설정하면 문제의 원인으로 '고객 응대 인원 수, 클레임 처리 방법의 효율' 등 보다 구체적인 항목들을 살펴볼 수 있다.
  • 추가로, 'XX 시설 평균 이용 횟수를 주 2회 이상으로 만들고자 한다'를 목적으로 '사용자 만족도'를 지표로 설정한 경우를 보자. 첫 번째 지표의 잘못된 점은 이미 사용자 만족도를 원인으로 정해놨다는 것이다. 이 상태로 분석을 진행하면 만족도 데이터 등에서 자신이 상상한 시나리오에 맞는 정보만 취사선택하게 되기 마련이다. 대신에 '주 2회 이상 이용하는 시설이 몇 개 정도 있으며, 전체 중 몇 퍼센트를 차지하는가'를 지표로 사용한다면 현재 상황을 파악하는 게 더 용이해진다. 즉, 일단 현재 직면한 '문제'를 어떻게 나타낼지에 대한 관점에서 지표를 선택해야 한다.

3. '이것이 문제다' 데이터로 말하는 방법

현상 파악 및 평가력: 문제를 표현하는 힘

3-1. 결과와 평가는 다르다

  • 현황 파악을 위해서는 다음 두 가지의 차이를 확실히 인식할 필요가 있다.
    • (A) 성과 및 사실, 결과를 확인하는 것
    • (B) 그 결과에 대한 평가를 진행하는 것
  • 다르게 말해, 사실과 결과의 데이터를 그래프나 표, 지표 등으로 표시하는 것과 내용을 평가해서 구체적인 행동과 판단으로 연결시키는 것에는 분명한 차이가 있다.

3-2. 비교할 때는 관점이 중요하다

  • 평가를 하기 위해서 필요한 것은 비교이다. 다른 것과의 비교를 통해 평가는 객관적이게 될 수 있기 때문이다.
  • 비교를 할 때 체크포인트로는 2가지가 있다.
    • (1) 결론으로 이어지는 결과가 나올 것인가?
    • (2) 비교를 통해 차이를 찾을 수 있는가?
  • '어떤 데이터를 분석해보니 이러한 결론이 나왔다'가 아니라 '어떤 것을 확인하기 위해 XX라는 데이터를 YY라는 데이터와 비교해보았다'는 식으로 데이터를 활용해야 한다. 데이터 중심으로 접근하는 사람의 결과물은 대체로 '결과'로 끝난다. 하지만 그렇지 않고 목적 중심으로 접근하는 사람은 '결론'을 말할 수 있다.
  • 비교를 할 때는 '평균'만을 단순히 비교해서는 안 된다. 추이, 변화, 편차, 비율 등을 함께 고려해야만 데이터를 보다 실제 현상에 가깝게 이해할 수 있다. 중요한 것은 같은 데이터라도 어떤 기준으로 평가하는가에 따라서 그 결론이 달라질 수도 있다는 것이다. 여기서 '뭐가 정답일까'라는 방식은 버려야 한다. 대신에 '이 사례에서는 어떤 평가가 중요할까? 어떤 설명이나 결론이 가능할까?'라는 관점에서 생각하자.

  • 가령 시간 외 근무 문제를 다룰 때 어떤 목적으로 이 문제를 다룰지, 그 정의에 따라, 현황을 파악하거나 평가하는 방식이 달라진다. 결과적으로 데이터에 어떤 평가 기준을 적용하는 것이 효과적일지도 결정된다
    • 만약 같은 부서에서 시간 외 근무 시간의 직원별 분포 상태를 평준화하고자 한다면, 부서별 평균 시간 외 근무에 대해 파악하는 것은 의미가 없다. 대신 부서 내 개인들의 편차를 나타내는 기준이 필요하다.
    • 또 만약 부서 내에 일정 시간 이상 근무하는 직원이 없도록 하고 싶다면, XX시간 이상 근무를 하고 있는 사람을 가려내면 된다. 이 때는 이상치를 확인하는 방식으로 데이터를 분석하면 될 것이다.
  • 단순하게 생각하자. 현재 직면하고 있는 문제나 그 배경에 대해 전혀 모르는 제3자에게 설명을 해야 된다고 생각하자. 그 사람에게 해당 문제를 설명하려면 어떤 데이터를 어떻게 보여줘야 할지 고민하자.

4. 결과가 나왔다고 끝난 것은 아니다.

원인 파악력: 행동으로 이어지는 힘

4-1. 최종 목표는 행동과 판단

  • 직접적이고 구체적인 행동을 일으키거나 판단을 내릴 만한 요소가 없다면, 그것은 데이터 분석이 아니라 정리에 불과하다.
  • 행동을 유도하기 위해서는 원인 파악이 먼저 이루어져야 한다. 예를 들어 경쟁사의 제품이 가격이 낮아져서 매출이 낮아진 것인데, 이 문제를 해결하기 위해 상품 디자인을 개편하는 것은 의미가 없다.

4-2. 데이터에서 원인을 찾는 사고방식과 방법

  • 원인 후보를 열거한 후 > 지표를 결정한다 > 이후 시각화(산포도) or 상관계수 분석 등을 통해서 관련성을 확인한다.
  • 만약 데이터 수집이 어렵다면 아래 순서대로 데이터 분석을 진행한다.
    • 유사한 데이터에는 어떤 것이 있을지 생각해본다.
    • 지금 바로 수집을 시작한다.
    • 정량적이 아닌, 정성적인 정보로 대응한다.
    • 포기한다.

4-3. 알아두어야 할 주의사항

  • 제 3의 변수가 있을 수 있다. 예를 들어 '점포 홈페이지의 업데이트 빈도'와 '점포 방문객 수'간에 높은 상관계수를 확인했다고 해도, 단지 유명 블로거가 리뷰글을 올려줘서 점포 방문객 수가 높아진 것일 수도 있다.
  • 선형이 아닌 관계성도 존재한다. 상관관계가 있다는 말은 두 데이터 사이의 관계가 선형이다라는 말과 같다. 예를 들어 V자형의 관계를 보여주는 데이터는 중간을 잘라서 따로 상관관계를 확인할 수도 있다.
  • 상관관계가 인과관계를 나타내는 것이 아니다. '상관관계가 있다'라는 결과가 분석을 통해 도출되지만, 양자 간 '인과관계'가 있는지 어떤지, 그리고 어느 쪽이 결과이고 어느 쪽이 원인인지는 분석자의 해석에 달려 있다.

'BOOK' 카테고리의 다른 글

비트겐슈타인의 말  (0) 2024.06.24
바바라 민토 논리의 기술  (1) 2023.05.10
프로덕트 오너  (0) 2023.05.10
비전공자를 위한 이해할 수 있는 IT 지식  (0) 2023.04.23
린 분석 (velog 이관)  (1) 2023.04.17