본문 바로가기
반응형

데이터분석가10

시계열 분석 및 예측에 대한 종합 가이드 (2) 시계열 성분 조합론 시계열 모델은 2가지 방법론으로 나타낼 수 있습니다. 가법 방법론 - 시계열 추세가 적분 간의 선형 관계인 경우, 즉 계열의 주파수(너비)와 진폭(높이)이 같으면 가법 규칙이 적용됩니다. 덧셈 방법론은 계절적 변동이 타임스탬프에 대해 선형이거나 일정한 시계열이 있을 때 사용됩니다. 다음과 같이 나타낼 수 있습니다. y(t) 또는 x(t) = 수준 + 추세 + 계절성 + 노이즈 여기서 모델 y(다변량) 또는 x(단변량)은 시간 t의 함수입니다. 승법 방법론 - 시계열이 적분 사이의 선형 관계가 아닌 경우 곱셈 규칙에 따라 모델링이 수행됩니다. 승법 방법론은 계절적 변동이 시간에 따라 증가하는 시계열이 있을 때 사용되며, 이는 지수 또는 2차일 수 있습니다. 그것은 다음과 같이 표현됩니다.. 2022. 9. 12.
SQL에서 하기 가장 어려운 5가지 소개 우리 중 많은 사람들이 클라우드 데이터 웨어하우스 내에서 컴퓨팅을 중앙 집중화함으로써 제공되는 속도와 효율성의 핵심 능력을 경험했습니다. 이것이 사실이지만 우리 중 많은 사람들은 다른 것과 마찬가지로 이 가치에도 나름의 단점이 있다는 것을 깨달았습니다. 이 접근 방식의 주요 단점 중 하나는 다른 언어, 특히 SQL로 쿼리를 배우고 실행해야 한다는 것입니다. SQL을 작성하는 것이 Python을 실행하기 위해 보조 인프라를 구축하는 것(노트북 또는 사무실 서버에서)보다 빠르고 저렴하지만 데이터 분석가가 클라우드 웨어하우스에서 추출하려는 정보에 따라 다양한 복잡성이 따릅니다. 클라우드 데이터 웨어하우스로 전환하면 Python에 비해 복잡한 SQL의 활용도가 높아집니다. 이 경험을 통해 SQL에서 배우고.. 2022. 9. 11.
데이터 분석: 데이터에서 정보와 지식을 추출하는 프로세스 "영향을 위한 실행 가능한 통찰력 생성"이 주제에 추가될 수 있지만 매우 길 것입니다. 데이터 중심 세계에서 데이터 분석은 그 어느 때보다 중요합니다. 데이터를 이해하고 분석하면 더 나은 결정을 내리고, 효율성을 높이며, 복잡한 문제를 해결하고, 수익을 높일 수 있습니다 . 데이터 분석은 비즈니스 생활뿐만 아니라 우리 삶의 모든 측면에서 항상 어떤 형태를 띠고 있습니다. 예를 들어 최고의 품질/가장 저렴한/가장 빠른 배송을 찾아 제품을 구매하거나 취업 사이트에서 구직/인턴십을 찾는 것과 같은 것입니다. 오늘날 데이터는 어디에나 있습니다. 우리의 장치, 상호 작용 및 활동에 의해 생성됩니다. 그리고 그 규모, 속도, 다양성 면에서 계속해서 성장할 것입니다. 그러나 가장 기본적으로 데이터 는 정보 의 열쇠일.. 2022. 9. 10.
Python에서 루프와 함께 loc/iloc을 사용하지 말고 대신 이것을 사용하십시오! 60배 빠른 속도로 루프 실행 최근에 나는 파이썬에서 루프를 실험하고 있었고 루프 내에서 'iloc'/ 'loc'을 사용하는 것이 실행하는 데 많은 시간이 걸린다는 것을 깨달았습니다. 즉각적인 다음 질문은 'loc'이 너무 많은 시간을 소요하는 이유와 'loc'의 대안이 무엇입니까? 이 블로그에서는 몇 가지 실용적인 예를 살펴봄으로써 이러한 질문에 답할 것입니다. loc이란 무엇입니까 - 아직 모르는 경우! loc[] 함수는 행 인덱스와 열 이름을 사용하여 DataFrame 내의 값에 액세스하는 데 사용되는 pandas 함수입니다. 액세스하려는 행과 열을 알고 있을 때 사용됩니다. 예제를 사용하여 loc을 이해합시다. df(아래 표시)라는 이름의 다음 pandas DataFrame이 있고 'a' 열의 두.. 2022. 9. 8.
효과적인 데이터 시각화를 위한 8가지 팁 사람들에게 당신의 의견을 설득하는 가장 강력한 방법 중 하나는 반박할 수 없는 사실을 제공하는 것입니다. 문제는 청중에게 3페이지의 표로 작성된 데이터 세트를 제공하면 청중이 읽을 가능성이 매우 낮다는 것입니다. 이것이 우리가 데이터를 그림 표가 아닌 차트 및 시각화 형태로 표시하기로 선택한 이유 중 하나입니다. 간단하죠? PowerPoint를 열고 차트 마법사 버튼을 클릭하면 짜잔, 우리는 통계 마스터입니다. 그렇게 빠르지 않아! 시각화를 만드는 것은 그리 간단하지 않습니다. 사실, 데이터를 효과적으로 시각화하는 것이 다소 어려울 수 있습니다. 저는 비즈니스 이해 관계자에게 정보를 표시하는 다양한 방법을 상당히 실험했으며 이번 주에는 교육하고, 설득하고, 영감을 주고, 즐겁게 할 수 있는 효과적인 시각.. 2022. 9. 8.
사람들은 왜 직장을 그만둘까? 3단계 McKinsey 차트 최근의 흥미로운 McKinsey 연구의 차트는 몇 가지 이상한 데이터 시각화 선택을 했습니다. 이 게시물은 3단계로 수정하는 방법을 보여줍니다. 최근에 인터넷을 사용한 적이 있다면 피드에 아래 차트가 표시되는 것을 보았을 것입니다. 최근 McKinsey 보고서에서 발췌한 내용 입니다. 적합한 인재 풀을 찾고 있습니까? ". 이 보고서는 회사가 5가지 유형의 직원("페르소나")을 충족시켜 인재를 유치하고 유지할 수 있는 방법에 관한 것입니다. 이는 6개국의 직원을 대상으로 한 대규모 설문조사를 기반으로 합니다. 가장 흥미로운 결과 중 하나가 이 차트에 보고되어 있습니다. 보고서는 흥미롭고 아름답게 준비되었지만 이 차트는 끔찍 하기 때문에 짜증이 났습니다 . 여기서 설문조사 방법론을 말하는 것이 아닙니다. .. 2022. 9. 7.
라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 2 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 1 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
SQL을 사용한 레스토랑 판매의 탐색적 데이터 분석(EDA) 이 프로젝트에서는 SQL을 사용하여 레스토랑 판매 데이터 세트에 대해 EDA를 수행합니다. 데이터 세트는 Kaggle에서 다운로드하여 SQL Server Management Studio로 가져왔습니다. 이전 프로젝트에서 레스토랑 비즈니스에 대한 정보를 표시했으므로 이를 위해 SQL을 사용하여 동일한 분석을 수행할 것입니다. 시작하자. 다음 질문에 답하겠습니다 1. 총 주문 금액은 얼마입니까? 2. 판매된 상품의 총 수량은 얼마입니까? 3. 평균 배송 시간은 어떻게 됩니까? 4. 음식에 대한 평균 등급은 무엇입니까? 5. 가장 많이 주문한 고객은? 6. 가장 많이 주문한 식당은? 7. 고객이 자주 사용하는 결제 수단은 무엇입니까? 8. 가장 좋아하는 요리는? 9. 하루 중 고객이 가장 많이 주문한 시간은?.. 2022. 8. 30.
최신 데이터 파이프라인을 구축하는 방법 분석 엔지니어가 해결해야 할 일반적인 문제 엔지니어는 실제 문제를 해결할 때 최고의 도구를 구축하며, 앞서 언급했듯이 여기에서 해결해야 할 몇 가지 흥미로운 문제가 있습니다. 이 기사에서 해결 방법을 설명하기 위해 최선을 다할 것이며 도움이 되길 바랍니다. 문제 1: 모델 변경 및 테스트 타사 API를 사용하여 데이터를 가져와 데이터베이스에 저장한다고 가정해 보겠습니다. API를 다른 데이터 구조를 가질 가능성이 높은 다른 공급자로 변경해야 하는 상황이 발생합니다. API 공급자를 변경하는 것은 매우 간단할 수 있지만 변경이 분석에서 사용하는 데이터에 부정적인 영향을 미칠지 확신할 수 없습니다. 예를 들어 데이터 모델에 정수와 양수여야 하는 열 연령이 포함되어 있고 평균 연령을 계산하기 위해 해당 열을 .. 2022. 8. 29.
반응형