본문 바로가기
반응형

전체 글46

이상 탐지를 위한 다변량 가우스 분포(Multivariate Gaussian distribution) T1, T2, P1, F1 및 Power가 있으며 작동이 정상일 때 변수가 특정 범위를 갖는다고 가정합니다. 시스템에 이상이 있는 경우 이러한 매개변수는 비정상적인 동작을 따릅니다. 따라서 간단히 말해서 데이터에서 이러한 숨겨진 비정상적인 동작을 찾는 것이 Anomaly detection” 문제입니다. pyod 라는 별도의 패키지에 구현된 많은 알고리즘이 있습니다 . 그러나 이 기사에서는 다변량 가우스 분포 알고리즘에 대해 설명합니다. 수식에 대한 내 손글씨 노트 — 기계 학습 과정인 Andrew Ng를 참조하십시오. 단계: 매개변수가 지정된 값 범위에 속할 확률을 찾습니다. 확률이 지정된 한계(도메인에 따라 다름) 이상으로 벗어나면 이상으로 간주됩니다. 일변량 가우스 분포는 단일 매개변수에 대해 표시됩.. 2022. 9. 9.
데이터 초보자가 Excel을 즉시 배워야 하는 10가지 이유 데이터 과학자가 되려는 시도 는 매우 지루한 여정 입니다. 저를 믿으십시오. 처음에는 즐길 수 있지만 계속 진행하면 완료하는 데 영원히 걸립니다. 개인적으로 저는 데이터 과학과 기계 학습을 배우는 두 사람을 알고 있습니다. 그들 중 하나는 데이터 엔지니어로 MNC에 정착했습니다. 그는 1~2년 동안 주당 3~4시간만 일했다. 그는 업그레이드에서 PG 디플로마 인증 프로그램을 완료했습니다. 다른 하나는 2개의 PG 디플로마(데이터 과학 및 기계 학습, 다른 하나는 인공 지능)를 수료했으며 런던 리버풀 대학에서 기계 학습 및 딥 러닝 석사 과정을 마쳤습니다. (업그레이드를 통해). 현재 3년 동안 힘들게 일했지만 2차 면접에도 진출하지 못했다. 제가 언급한 디플로마와 MS는 장기 연구에 불과합니다. 그는 U.. 2022. 9. 8.
Python에서 루프와 함께 loc/iloc을 사용하지 말고 대신 이것을 사용하십시오! 60배 빠른 속도로 루프 실행 최근에 나는 파이썬에서 루프를 실험하고 있었고 루프 내에서 'iloc'/ 'loc'을 사용하는 것이 실행하는 데 많은 시간이 걸린다는 것을 깨달았습니다. 즉각적인 다음 질문은 'loc'이 너무 많은 시간을 소요하는 이유와 'loc'의 대안이 무엇입니까? 이 블로그에서는 몇 가지 실용적인 예를 살펴봄으로써 이러한 질문에 답할 것입니다. loc이란 무엇입니까 - 아직 모르는 경우! loc[] 함수는 행 인덱스와 열 이름을 사용하여 DataFrame 내의 값에 액세스하는 데 사용되는 pandas 함수입니다. 액세스하려는 행과 열을 알고 있을 때 사용됩니다. 예제를 사용하여 loc을 이해합시다. df(아래 표시)라는 이름의 다음 pandas DataFrame이 있고 'a' 열의 두.. 2022. 9. 8.
효과적인 데이터 시각화를 위한 8가지 팁 사람들에게 당신의 의견을 설득하는 가장 강력한 방법 중 하나는 반박할 수 없는 사실을 제공하는 것입니다. 문제는 청중에게 3페이지의 표로 작성된 데이터 세트를 제공하면 청중이 읽을 가능성이 매우 낮다는 것입니다. 이것이 우리가 데이터를 그림 표가 아닌 차트 및 시각화 형태로 표시하기로 선택한 이유 중 하나입니다. 간단하죠? PowerPoint를 열고 차트 마법사 버튼을 클릭하면 짜잔, 우리는 통계 마스터입니다. 그렇게 빠르지 않아! 시각화를 만드는 것은 그리 간단하지 않습니다. 사실, 데이터를 효과적으로 시각화하는 것이 다소 어려울 수 있습니다. 저는 비즈니스 이해 관계자에게 정보를 표시하는 다양한 방법을 상당히 실험했으며 이번 주에는 교육하고, 설득하고, 영감을 주고, 즐겁게 할 수 있는 효과적인 시각.. 2022. 9. 8.
사람들은 왜 직장을 그만둘까? 3단계 McKinsey 차트 최근의 흥미로운 McKinsey 연구의 차트는 몇 가지 이상한 데이터 시각화 선택을 했습니다. 이 게시물은 3단계로 수정하는 방법을 보여줍니다. 최근에 인터넷을 사용한 적이 있다면 피드에 아래 차트가 표시되는 것을 보았을 것입니다. 최근 McKinsey 보고서에서 발췌한 내용 입니다. 적합한 인재 풀을 찾고 있습니까? ". 이 보고서는 회사가 5가지 유형의 직원("페르소나")을 충족시켜 인재를 유치하고 유지할 수 있는 방법에 관한 것입니다. 이는 6개국의 직원을 대상으로 한 대규모 설문조사를 기반으로 합니다. 가장 흥미로운 결과 중 하나가 이 차트에 보고되어 있습니다. 보고서는 흥미롭고 아름답게 준비되었지만 이 차트는 끔찍 하기 때문에 짜증이 났습니다 . 여기서 설문조사 방법론을 말하는 것이 아닙니다. .. 2022. 9. 7.
고객 분석 및 코호트 분석 - Retail 대시보드 메모: - Dunnhumby_Carbo-Loading의 데이터 세트 고객 분석 게이지 차트를 사용하여 "% 활성 고객"에서 시작한다고 생각합니다. 폭포형 차트 를 사용 하여 고객 유형("신규", "부활", "반복", "이탈" 및 "비활성")의 양을 표시합니다. RFM 모델을 기반으로 고객을 5개 그룹으로 분리합니다(0-20, 21-40, 41-60, 61-80 및 81-100에서 백분위수 사용). 그런 다음 누적 막대 차트를 사용하여 R-점수, F-점수 및 M-점수를 기반으로 한 총 평생 지출의 백분율을 표시합니다. R-score에 의한 생애 총 지출 그래프에서, 높은 R-score(마지막 방문 이후 낮은 일수)를 갖는 고객이 지출에 대한 가장 큰 비중을 차지합니다. 산포도 를 사용 하여 RFM 정보 표.. 2022. 9. 7.
60일 내의 데이터 분석이란. 내 데이터 분석 취업 준비 여정의 본질, 나와 함께 고임금 직업에 새로 취직하는 것이 쉽지 않기 때문에 노력이 필요하기 때문에 전염병 시대에는 직업을 찾는 것 자체가 어려운 일입니다. 100개 이상의 회사에서 데이터 분석 역할을 지원했습니다. 그 중 8~10개 정도에서 전화를 받았습니다. 별로 좋지 않습니다. 대부분이 동일한 채용 프로세스를 가지고 있습니다. SQL, R 또는 Python으로 코딩 기술을 확인합니다 . 면접관 앞에서 문제를 해결해야 하는 경우가 3가지 있습니다. 가정 평가 중에 또는 전면 문제 해결에서 매우 다른 형태의 라이브가 진행됩니다. 분석을 수행하려면 SQL을 실행하고 데이터베이스에서 데이터를 가져와야 하는 데이터를 얻기 위한 데이터가 필요하므로 SQL이 없으면 작업도 없습니다. .. 2022. 9. 7.
라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 2 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 1 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
나를 Kaggle 마스터로 만든 10가지 노트북 EDA, AutoML, 모델 비교, 초매개변수 조정 등… 캐글이란? Kaggle은 데이터 과학 목표를 달성하는 데 도움이 되는 강력한 도구와 리소스를 제공하는 세계 최대 데이터 과학 커뮤니티입니다. Kaggle은 데이터 과학자와 기계 학습 엔지니어의 온라인 커뮤니티입니다. Kaggle에는 데이터 과학자가 쉽게 작업하고 기술을 향상할 수 있는 많은 실제 데이터 세트가 포함되어 있습니다. 또한 Kaggle에 있는 대회는 기계 학습 모델을 위한 훌륭한 벤치마크 플랫폼입니다. Kaggle의 대회를 보면 강력한 ML 모델을 찾을 수 있습니다. 1. 데이터 과학에서 무엇이 바뀌었습니까? https://medium.com/databulls/welcome-2022-what-has-changed-in-data-scien.. 2022. 9. 6.
비지도 학습 기법을 적용한 사기 탐지 (Fraud Detection) 기초 이론 이상값 감지라고도 하는 이상 감지는 데이터 세트에서 발견된 이상 유형을 확인하고 해당 발생에 대한 세부 정보를 확인하는 데 사용되는 데이터 마이닝 프로세스입니다. 간단히 말해서, 이상 탐지는 일반적인 경향을 따르지 않는 비정상적인 패턴/행동의 식별을 처리합니다. 이상치는 주어진 데이터 세트의 다른 데이터 요소와 크게 다른 데이터 요소일 뿐입니다. 이상값은 환경에 따라 포인트 이상값 , 컨텍스트 이상값 또는 집합 적 이상값 과 같이 다양한 형태로 나타날 수 있습니다 . 포인트 이상치는 나머지 분포에서 멀리 떨어져 있는 단일 데이터 포인트입니다. 컨텍스트 이상값은 텍스트 분석을 구현할 때 구두점 기호 또는 음성 인식을 수행할 때 배경 노이즈 신호와 같은 데이터의 노이즈일 수 있습니다. 집합적 이상.. 2022. 9. 5.
데이터 분석 분야를 바꿀 3가지 Python 패키지 1. Mito Mito 는 코드를 생성하는 Python용 스프레드시트 인터페이스를 제공하여 사용자가 훨씬 빠르게 코딩할 수 있도록 합니다. Mito에서 편집할 때마다 아래 코드 셀에 동등한 Python이 생성됩니다 . 스프레드시트 인터페이스에서 작업을 수행하기만 하면 코드가 자동으로 생성되기 때문에 코드를 작성하는 매우 빠른 방법입니다. 데모 비디오는 다음과 같습니다. Mito용 설치 명령: python -m pip install mitoinstaller python -m mitoinstaller install 그런 다음 Jupyter Lab을 열고 Mitosheet를 호출합니다. import mitosheet mitosheet.sheet() 전체 지침은 Mito 웹사이트 의 "docs"에서 찾을 수 있.. 2022. 9. 5.
반응형