본문 바로가기
Daily Review

데이터 분석: 데이터에서 정보와 지식을 추출하는 프로세스

by data-analyst-luke 2022. 9. 10.
반응형

"영향을 위한 실행 가능한 통찰력 생성"이 주제에 추가될 수 있지만 매우 길 것입니다.

 

데이터 중심 세계에서 데이터 분석은 그 어느 때보다 중요합니다. 데이터를 이해하고 분석하면 더 나은 결정을 내리고, 효율성을 높이며, 복잡한 문제를 해결하고, 수익을 높일 수 있습니다 .

데이터 분석은 비즈니스 생활뿐만 아니라 우리 삶의 모든 측면에서 항상 어떤 형태를 띠고 있습니다. 예를 들어 최고의 품질/가장 저렴한/가장 빠른 배송을 찾아 제품을 구매하거나 취업 사이트에서 구직/인턴십을 찾는 것과 같은 것입니다.

 

영향 여정에 영향을 미치는 데이터(정보 대 지식으로 유명) — 출처: Gaping Void

 


오늘날 데이터는 어디에나 있습니다. 우리의 장치, 상호 작용 및 활동에 의해 생성됩니다. 그리고 그 규모, 속도, 다양성 면에서 계속해서 성장할 것입니다. 그러나 가장 기본적으로 데이터 는 정보 의 열쇠일 뿐입니다 . 숫자, 단어 또는 이미지일 수도 있습니다. 그리고 그 정보가 이해하고 사용하기 쉬운 방식으로 구성되고 구조화될 때 우리는 그것을 지식 이라고 부릅니다 . 결과적으로 통찰력 은 얻은 지식에 대한 일관되고 독창적인 사고에서 나옵니다. 통찰력 을 사용할 때 를 아는 것이 지혜 이며 경험 을 통해 날카롭게 합니다 . 마지막으로 중요한 것은 지혜를 영향력 을 위한 행동으로 바꾸는 것입니다.분석을 목표에 맞춰 조정합니다.

 

Coursera의 "Google Data Analytics Professional Certificate " 과정은 데이터에서 응용 학습 작업에 영향을 미치는 이 전체 프로세스를 설명합니다. 저는 항상 실습 과제가 있는 코스를 좋아하며 예상보다 많은 것을 배웠습니다. 열정적인 평생 학습자로서 저는 다양한 MOOC 플랫폼에서 수많은 온라인 과정을 시작했고 내가 좋아하는 과정만 완료했습니다. 전체 통계의 약 10%가 일반 통계와 일치합니다 . [1] . 이것은 내가 등록한 최고의 온라인 과정 중 하나였기 때문에 그 10% 안에 들었습니다.

"MOOC 완료율은 일반적으로 평균 7~10%입니다. "— Fu et al.   2021년;   Gütl et al.   2014년

 

응용 학습 프로젝트를 통해 Google의 데이터 분석 과정은 데이터 분석 프로세스를 6단계 로 명확하게 설명합니다.

종단 간 데이터 분석 프로세스

 


1/6 데이터 기반 의사 결정을 위한 질문

문제를 해결하는 가장 가까운 방법은 처음부터 핵심적인 질문을 하는 것입니다. 실용적인 질문을 하면 문제를 이해하고 생각을 정리하는 데 도움이 됩니다. 또한 이해 관계자의 기대치를 분명히 학습하면 성공으로 이어질 것입니다. 더 효율적인 질문을 하고 답을 얻을수록 분석 목표와 달성해야 하는 목표에 대한 더 나은 아이디어를 얻을 수 있습니다. 다음은 분석 목표를 배우는 데 도움이 되는 몇 가지 질문입니다.

  • 문제는 무엇이며 왜 이 문제를 해결하고자 합니까?
  • 가능한 "좋은" 솔루션은 무엇입니까?
  • 이 분석의 예상 결과는 무엇입니까?
  • 이 분석은 과거에 수행한 작업과 어떤 관련이 있습니까?

 

2/6 탐색을 위한 데이터 준비

데이터를 얻으려면 파일과 데이터베이스에 액세스해야 합니다. 나중에 쉽게 찾고 분석할 수 있도록 데이터를 구성해야 합니다. 숙련되고 경험이 풍부한 데이터 분석가는 항상 수집된 데이터를 체계적으로 구성합니다(예: 폴더 구조 유지, 쿼리 저장 등). 이는 데이터를 유형 또는 소스에 따라 범주로 분류하고 당면한 작업에 적합한 방식으로 정렬하는 것을 의미합니다. .

3/6 정돈된 데이터로 데이터 처리

획득한 데이터는 품질에 따라 더럽거나 깨끗할 수 있습니다. 예를 들어, 신뢰할 수 없거나 편향된 방법론을 통해 수집된 데이터는 정확하거나 신뢰할 수 있는 것으로 간주될 수 없습니다. 데이터에 오타, 잘못된 값 및 누락된 값과 같은 잘못된 데이터 요소가 포함되어 있으면 데이터가 더러워질 수도 있습니다. 또한 이상치는 요구 사항에 따라 데이터 세트에서 제거해야 하는 잘못된 데이터 포인트일 수 있습니다. 따라서 분석 및 모델링 전에 데이터 품질 확인이 중요합니다. 결과가 오류나 이상치로 인해 편향되지 않도록 하기 때문입니다.

 

4/6 질문에 답하기 위해 데이터 분석

이제 데이터를 조사하여 패턴과 추세를 식별하거나 과거를 기반으로 미래 이벤트를 예측하는 프로세스를 준비합니다. 데이터 분석은 여러 종류의 데이터 분석 기술에서 다양한 도구를 사용하여 수행할 수 있습니다. 예를 들어 Excel의 기본 데이터 분석은 100행 5열의 파일에 충분할 수 있지만 대규모 데이터베이스 체계에서 수백만 개의 행과 열이 있는 데이터를 분석하려면 SQL 쿼리 또는 python/r과 같은 프로그래밍 언어가 필요합니다. . 더 깊은 분석을 위해 다른 열/시트/파일을 병합하는 강력한 수식 외에도 그래프 및 피벗 차트와 같은 기본 제공 도구의 도움으로 쉽게 Excel에서 분석을 시작하는 것을 선호합니다.

 

5/6 시각화 기술을 통한 데이터 공유

분석에서 얻은 추론을 관련 시각 자료와 공유하면 모든 사람이 같은 페이지에 있다는 것을 알 수 있습니다. 또한 이해 관계자는 데이터 기반 스토리텔링을 통해 정보에 입각한 결정을 내리기 위해 무엇을 보고 있는지 이해해야 합니다. 따라서 데이터 시각화는 시각적으로 매력적일 뿐만 아니라 실행 가능한 통찰력을 제공하는 것이 필수적입니다. 정적 데이터를 사용하는 결과에 Excel 또는 Powerpoint를 사용할 수 있지만 Tableau, Microsoft PowerBI, Google Data Studio 및 Amazon QuickSight와 같은 비즈니스 인텔리전스 도구는 향상된 대화형 보고 및 동적 대시보드 요구 사항을 충족합니다.

 

6/6 영향에 대한 실행 가능한 통찰력

데이터 분석의 주요 목표는 의사 결정자가 직감이 아닌 데이터 기반 통찰력을 기반으로 결정을 내릴 수 있도록 돕는 것입니다. 따라서 의사결정 지원 시스템에 현장 데이터를 제공하면 프로세스를 개선하고 문제를 효율적으로 해결할 수 있습니다.

 

Gaping Void가 시각화되고 Google에서 설명하는 방식이 마음에 들었습니다. 최근에 저는 잘 알려진 레고 브릭 [2] 을 사용하여 데이터 분석 프로세스의 또 다른 완벽한 시각화를 발견했습니다 .

 

레고로 설명된 실행 가능한 데이터 — 출처: Stanford YCISL [2]

 

 

숙련된 엔지니어로서 데이터 분석에 대한 제 자신의 경로가 엔지니어의 아들이 되기 시작한 것은 운이 좋았습니다. 그 후, 대학 공학 교육과 전문 경력을 통해 내 기술은 날카로워졌습니다. 반면에, 저는 누구나 필요한 경험이나 학위 없이도 고성장 데이터 분석 분야에서 자신의 길을 시작할 수 있다고 믿습니다. 따라서 저는 이 전문 자격증 과정을 시작으로 추천합니다. 충분한 시간을 할애할 때 가치가 있을 것입니다.

 
반응형

댓글