본문 바로가기
반응형

데이터분석6

시계열 분석 및 예측에 대한 종합 가이드 (1) 시계열 분석 및 예측은 데이터 과학, 데이터 분석 및 인공 지능 분야에서 매우 뚜렷하고 강력한 연구입니다. 변화하는 시간과 관련하여 저장된 데이터를 기반으로 사고의 확률을 분석하고 예측하거나 계산하는 데 도움이 됩니다. 예를 들어, 흉통 때문에 병원을 방문했고 심장이 건강하고 기능하는지 확인하기 위해 (ECG) 검사를 받고 싶다고 가정해 보겠습니다. 생성된 ECG 그래프는 시간에 따른 심박변이도(HRV)가 표시된 시계열 데이터로, 의사가 심장을 돌보고 뇌졸중이나 심장마비의 위험을 줄이기 위한 중요한 조치를 제안할 수 있는 분석입니다. 시계열은 의료 분석, 지리 공간 분석, 일기 예보 및 시간에 따라 지속적으로 변화하는 데이터의 미래 예측에 널리 사용됩니다! 시계열 분석이란 무엇입니까? 시계열 분석은 시계.. 2022. 9. 11.
PyOD로 이상값 감지 이름에서 알 수 있듯이 이상치는 나머지 관측치와 크게 다른 데이터 포인트입니다. 즉, 데이터의 평균 경로에서 멀리 떨어져 있습니다. 통계 및 기계 학습에서 이상값을 감지하는 것은 모델의 성능에 영향을 미칠 수 있으므로 중요한 단계입니다. 즉, 판매된 단위의 양을 기반으로 회사의 수익을 예측하려고 한다고 상상해 보십시오. 그렇게 하려면 단순 선형 회귀로 데이터를 맞추려고 하므로 OLS 전략을 진행하여 매개변수 알파 와 베타 를 찾습니다(선형 회귀에 대한 자세한 내용은 여기에서 제 이전 기사를 읽을 수 있습니다 ). 좋습니다. 하지만 데이터 중 특이치가 있다면 어떻게 될까요? 보시다시피 회귀선은 해당 이상값의 효과도 캡처하려고 하므로 더 가파르게 됩니다. 결과적으로 다른 모든 데이터 포인트를 맞추는 데 정확.. 2022. 9. 9.
데이터 사이언스 관련 직무 급여 데이터셋을 분석했습니다. Kaggle에서 데이터 과학 Job Salaries 데이터셋을 발견하고 이에 대한 분석 기술을 시험해봤습니다. 이 데이터 세트에는 2020년 고용 유형, 회사 위치 등과 같은 요소를 기반으로 하는 전 세계 데이터 과학 전문가의 급여에 대한 세부 정보가 포함되어 있습니다. 또한 2021년 데이터 과학 전문가의 예상 급여도 함께 제공됩니다. 저는 2020년과 2021년에 대한 급여 분포를 시각화했습니다. 2020년부터 2021년까지의 기간 동안 급여 상한선이 크게 증가한 것을 볼 수 있습니다. 또한 최대 300,000 USD까지 봉급을 자루에 넣는 전문가의 수가 크게 증가한 것을 관찰할 수 있습니다. 인도 기준으로 분석을 해봤어요. 질문 1. 초급 데이터 과학 전문가에게 가장 적합한 고용 유형은 무엇입니까?.. 2022. 9. 5.
CRM 분석, RFM 분석 CRM은 고객 관계 관리를 의미합니다. CRM에는 협업, 분석 및 운영 의 3가지 유형이 있습니다 . 데이터 사이언티스트로서 가장 중요한 접근 방식은 짐작할 수 있듯이 분석적 접근 방식입니다. 대부분의 회사에는 크고 귀중한 고객 데이터베이스가 있으며, 그 데이터베이스에서 데이터를 사용하지 않는 것은 부끄러운 일입니다. 더 나은 비즈니스 결정을 내리기 위해 회사는 RFM 분석을 사용하고 고객을 세분화할 수 있습니다. 각 고객에게 다른 접근 방식을 제공하는 것은 너무 어렵거나 불가능합니다. 세분화함으로써 기업은 고객 그룹에 보다 전략적으로 접근할 수 있습니다. RFM 분석 RFM은 Recency, Frequency, Monetary의 약자입니다. Recency : 마지막 트랜잭션과 분석 날짜 사이의 시간입니.. 2022. 9. 2.
최신 데이터 파이프라인을 구축하는 방법 분석 엔지니어가 해결해야 할 일반적인 문제 엔지니어는 실제 문제를 해결할 때 최고의 도구를 구축하며, 앞서 언급했듯이 여기에서 해결해야 할 몇 가지 흥미로운 문제가 있습니다. 이 기사에서 해결 방법을 설명하기 위해 최선을 다할 것이며 도움이 되길 바랍니다. 문제 1: 모델 변경 및 테스트 타사 API를 사용하여 데이터를 가져와 데이터베이스에 저장한다고 가정해 보겠습니다. API를 다른 데이터 구조를 가질 가능성이 높은 다른 공급자로 변경해야 하는 상황이 발생합니다. API 공급자를 변경하는 것은 매우 간단할 수 있지만 변경이 분석에서 사용하는 데이터에 부정적인 영향을 미칠지 확신할 수 없습니다. 예를 들어 데이터 모델에 정수와 양수여야 하는 열 연령이 포함되어 있고 평균 연령을 계산하기 위해 해당 열을 .. 2022. 8. 29.
시계열 데이터에 K-평균 클러스터링을 적용하는 방법 Intro 클러스터링은 알고리즘이 "실제" 레이블 없이 유사한 데이터 포인트를 그룹화하는 비지도 학습 작업입니다. 데이터 포인트 간의 유사성은 일반적으로 유클리드 거리( Euclidean distance )라고 하는 거리 측정법으로 측정됩니다 . 서로 다른 시계열을 유사한 그룹으로 클러스터링하는 것은 각 데이터 포인트가 순서가 지정된 시퀀스이기 때문에 어려운 클러스터링 작업입니다. 시계열 클러스터링에 대한 가장 일반적인 접근 방식은 시계열을 각 시간 인덱스(또는 시리즈 집계)에 대한 열이 있는 테이블로 평면화하고 k-means 와 같은 표준 클러스터링 알고리즘을 직접 적용하는 것 입니다. (K-평균은 샘플을 k 그룹으로 분할하고 각 클러스터의 제곱합을 최소화하여 데이터 클러스터를 구성하는 일반적인 클러스.. 2022. 8. 29.
반응형