본문 바로가기
반응형

Fraud Detection3

라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 2 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
라벨 불균형 사기 탐지(Fraud Detection)의 분류 모델링 - 1 소개 불균형 데이터 세트로 작업하는 것은 일부 고전적인 머신 러닝 접근 방식에서 문제가 될 수 있지만 클래스 간에 데이터의 자연스러운 분포가 동일하지 않은 일부 상황이 있습니다. 이것은 Fraud Detection 문제의 전형입니다. Kaggle 의 다음 데이터 세트를 사용 하여 합법적인 거래가 많이 있고 전체 데이터의 0.17% 만이 사기 임을 알 수 있습니다.. 데이터 분포의 불균형이 있는 분류 문제에서 연구는 일반적으로 희귀 데이터 식별에 중점을 둡니다. 머신 러닝 모델의 성능은 주로 소수 계층의 예측에서 얻은 결과를 기반으로 측정되어야 합니다. 모델을 검증하기 위한 올바른 메트릭을 선택하는 방법과 우리 상황에서 Precision-Recall 트레이드오프의 실질적인 의미를 보여줍니다. 마지막으로 편.. 2022. 9. 6.
비지도 학습 기법을 적용한 사기 탐지 (Fraud Detection) 기초 이론 이상값 감지라고도 하는 이상 감지는 데이터 세트에서 발견된 이상 유형을 확인하고 해당 발생에 대한 세부 정보를 확인하는 데 사용되는 데이터 마이닝 프로세스입니다. 간단히 말해서, 이상 탐지는 일반적인 경향을 따르지 않는 비정상적인 패턴/행동의 식별을 처리합니다. 이상치는 주어진 데이터 세트의 다른 데이터 요소와 크게 다른 데이터 요소일 뿐입니다. 이상값은 환경에 따라 포인트 이상값 , 컨텍스트 이상값 또는 집합 적 이상값 과 같이 다양한 형태로 나타날 수 있습니다 . 포인트 이상치는 나머지 분포에서 멀리 떨어져 있는 단일 데이터 포인트입니다. 컨텍스트 이상값은 텍스트 분석을 구현할 때 구두점 기호 또는 음성 인식을 수행할 때 배경 노이즈 신호와 같은 데이터의 노이즈일 수 있습니다. 집합적 이상.. 2022. 9. 5.
반응형