본문 바로가기
반응형

분류 전체보기46

LSTM AE를 활용한 이상 탐지 프로젝트 실제 결과는 가격 예측에서 예측된 결과와 다릅니다. 우리가 알고 있듯이 실제 데이터는 스트리밍, 시계열 데이터 등이 있으며, 여기서 변칙성은 중요한 상황에서 중요한 정보를 제공합니다. 이상 감지에서 우리는 비정상적이거나 비정상적이거나 예상치 못한 기록을 발견하는 데 관심이 있으며 시계열 컨텍스트에서 이상은 단일 레코드의 범위 내에서 또는 하위 시퀀스/패턴으로 감지될 수 있습니다. 과거 데이터를 추정하는 시계열 기반 예측 모델은 현재 데이터로 추정하여 미래 가격을 예측하는 데 도움이 됩니다. 일단 예측을 하면 해당 데이터를 사용하여 실제와 비교할 때 이상을 감지할 수 있습니다. 그것을 구현하고 장단점을 살펴 보겠습니다. 따라서 여기에서 우리의 목표는 시계열 데이터에 대한 이상 감지 모델을 개발하는 것입니다.. 2022. 9. 1.
Autoencoder를 활용한 이미지 이상 탐지 Deep Convolutional Autoencoder를 탐색하여 이미지의 이상을 식별합니다. 이 글은 MNIST 및 Fashion MNIST에서 이미지 이상 감지에 Deep Convolutional Autoencoder를 사용할 수 있는지 확인하기 위한 실험적 작업입니다. Autoencoder 간단 요약 기능: Autoencoder는 중요한 잠재 기능 표현을 식별하기 위해 입력을 인코딩합니다..그런 다음 잠재 기능을 디코딩하여 입력 값과 동일한 출력 값을 재구성합니다. 목적: Autoencoder의 목적은 입력과 출력 사이의 재구성 오류를 최소화하는 것입니다. 이는 자동 인코더가 데이터에 있는 중요한 기능을 학습하는 데 도움이 됩니다. 아키텍처: Autoencoder는 Encoder 네트워크와 Deco.. 2022. 8. 31.
데이터 사이언티스트가 꼭 알아야 하는 '통계적 가설 검증법' 1가지. Wikipedia는 총 104개의 통계 테스트 를 집계합니다. 데이터 과학자는 압도당하고 스스로에게 다음과 같이 질문할 수 있습니다. “내가 다 알아야 합니까? 그리고 언제 다른 것을 사용해야 하는지 어떻게 알 수 있습니까?” 데이터 전문가로서 여러분이 알아야 할 테스트는 단 하나입니다. 하나의 테스트는 중요하고 다른 103개의 테스트는 무시할 수 있기 때문이 아닙니다. 하지만 다음과 같은 이유로: 모든 통계 테스트는 실제로 동일한 하나의 테스트입니다! 그리고 일단 이 테스트가 어떻게 작동하는지 진정으로 이해하면, 당신은 당신이 필요로 하는 어떤 가설도 테스트할 수 있을 것입니다. 증거를 원하십니까? 이 기사에서는 4가지 매우 다양한 통계 문제를 해결할 것입니다. 그리고 우리는 항상 동일한 정확한 알고리.. 2022. 8. 31.
스파게티 차트(Spaghetti Charts) 대신 제안된 대안: 격자 차트(Trellis Chart) 여기서는 많은 항목을 비교하는 데 일반적으로 사용되는 차트, 해당 문제, 제안된 대안에 대해 설명하고 내가 가장 좋아하는 데이터 시각화 도구인 Tableau에서 이를 수행하는 방법에 대한 빠른 비디오를 설명합니다. 스파게티 차트 자주는 아니지만 많은 수의 항목을 시각적으로 비교하고 싶습니다. 가장 큰 값부터 가장 작은 값까지 정렬된 가로 막대 차트는 고전적인 옵션이지만 비교할 항목이 많은 경우 모든 항목을 하나로 볼 수 없는 긴 스크롤 막대로 끝나므로 주의해야 합니다. 시간이 지남에 따라 비교하려는 경우 상황이 훨씬 더 복잡해 집니다. 꺾은선형 차트는 여기에서 고전적인 옵션이지만 비교할 항목이 많을 때 스파게티 덩어리처럼 보이기 때문에 이름이 붙여졌습니다. 모든 차트는 여기 에서 찾아 다운로드할 수 있습.. 2022. 8. 31.
An End-to-End Unsupervised Anomaly Detection 일괄 처리를 위한 Facebook의 Prophet을 사용한 시계열 이상값 감지 2016년에 출시된 Getcontact는 월간 활성 사용자가 5천만 명 이상이고 4개 대륙에 걸쳐 입지가 확대되고 있는 전 세계 최고의 모바일 ID 및 사기 방지 서비스 중 하나로 통합되었습니다 . Getcontact 애플리케이션의 이러한 급속한 성장은 등록된 사용자 및 확인된 사용자와 같은 많은 기본 KPI를 기술 측면에서 제어할 수 있음을 의미합니다. KPI를 매일 검토하고 머신 러닝 알고리즘으로 지원하면 성장 전략을 보다 정확하게 계획하는 데 도움이 됩니다. 사용자 행동의 변화를 면밀히 모니터링하면 일부 중요한 경우 시스템 과부하를 예방하고 균형을 유지하는 데 도움이 됩니다. 그런 다음 KPI 수에서 올바른 이상 지점을 .. 2022. 8. 30.
SQL을 사용한 레스토랑 판매의 탐색적 데이터 분석(EDA) 이 프로젝트에서는 SQL을 사용하여 레스토랑 판매 데이터 세트에 대해 EDA를 수행합니다. 데이터 세트는 Kaggle에서 다운로드하여 SQL Server Management Studio로 가져왔습니다. 이전 프로젝트에서 레스토랑 비즈니스에 대한 정보를 표시했으므로 이를 위해 SQL을 사용하여 동일한 분석을 수행할 것입니다. 시작하자. 다음 질문에 답하겠습니다 1. 총 주문 금액은 얼마입니까? 2. 판매된 상품의 총 수량은 얼마입니까? 3. 평균 배송 시간은 어떻게 됩니까? 4. 음식에 대한 평균 등급은 무엇입니까? 5. 가장 많이 주문한 고객은? 6. 가장 많이 주문한 식당은? 7. 고객이 자주 사용하는 결제 수단은 무엇입니까? 8. 가장 좋아하는 요리는? 9. 하루 중 고객이 가장 많이 주문한 시간은?.. 2022. 8. 30.
머신 러닝을 위한 데이터 전처리 데이터 전처리에는 데이터 준비, 통합, 정리, 정규화 및 데이터 변환이 포함됩니다. 및 데이터 축소 작업; 기능 선택, 인스턴스 선택, 이산화 등과 같은 데이터 전처리 작업의 안정적인 연결 후 예상되는 결과는 최종 데이터 세트이며, 이는 추가 데이터 마이닝 알고리즘에 정확하고 유용한 것으로 간주될 수 있습니다. 많은 실제 데이터 과학 활동에서 데이터 세트에는 범주형 변수가 포함됩니다. 이러한 변수는 일반적으로 다양한 특성을 나타내는 텍스트 값으로 저장됩니다. 값이 무엇에 사용되든 문제는 분석에서 이 데이터를 사용하는 방법을 결정하는 것입니다. 많은 기계 학습 알고리즘은 추가 조작 없이 범주형 값을 지원할 수 있지만 그렇지 않은 알고리즘이 더 많습니다. 따라서 분석가는 이러한 텍스트 속성을 추가 처리를 위.. 2022. 8. 30.
데이터 분석가로서 알아야 할 7가지 SQL 쿼리 SQL이란 무엇입니까? Structured Query Language 의 약자인 SQL 은 데이터베이스 시스템 또는 관계형 데이터베이스 관리 시스템과 상호 작용하는 데 사용되는 표준 컴퓨터 언어입니다. 따라서 사용자는 SQL을 사용하여 데이터베이스 시스템에서 데이터를 추가, 수정, 업데이트, 검색 및 삭제할 수 있습니다. 오늘날 우리는 데이터가 얼마나 중요한지 알고 있습니다. 이 게시물에서는 연구 사례와 함께 가장 일반적인 SQL 쿼리를 볼 것입니다. 참고: 모든 쿼리는 https://www.w3schools.com/sql/ 에 작성되었습니다 . 1. 고유 및 집계 함수 선택 1.1 고유 선택 테이블 내부의 열에는 종종 많은 중복 값이 ​​포함됩니다. 때로는 다른(고유한) 값만 나열하고 싶을 수도 있습니.. 2022. 8. 29.
최신 데이터 파이프라인을 구축하는 방법 분석 엔지니어가 해결해야 할 일반적인 문제 엔지니어는 실제 문제를 해결할 때 최고의 도구를 구축하며, 앞서 언급했듯이 여기에서 해결해야 할 몇 가지 흥미로운 문제가 있습니다. 이 기사에서 해결 방법을 설명하기 위해 최선을 다할 것이며 도움이 되길 바랍니다. 문제 1: 모델 변경 및 테스트 타사 API를 사용하여 데이터를 가져와 데이터베이스에 저장한다고 가정해 보겠습니다. API를 다른 데이터 구조를 가질 가능성이 높은 다른 공급자로 변경해야 하는 상황이 발생합니다. API 공급자를 변경하는 것은 매우 간단할 수 있지만 변경이 분석에서 사용하는 데이터에 부정적인 영향을 미칠지 확신할 수 없습니다. 예를 들어 데이터 모델에 정수와 양수여야 하는 열 연령이 포함되어 있고 평균 연령을 계산하기 위해 해당 열을 .. 2022. 8. 29.
시계열 데이터에 K-평균 클러스터링을 적용하는 방법 Intro 클러스터링은 알고리즘이 "실제" 레이블 없이 유사한 데이터 포인트를 그룹화하는 비지도 학습 작업입니다. 데이터 포인트 간의 유사성은 일반적으로 유클리드 거리( Euclidean distance )라고 하는 거리 측정법으로 측정됩니다 . 서로 다른 시계열을 유사한 그룹으로 클러스터링하는 것은 각 데이터 포인트가 순서가 지정된 시퀀스이기 때문에 어려운 클러스터링 작업입니다. 시계열 클러스터링에 대한 가장 일반적인 접근 방식은 시계열을 각 시간 인덱스(또는 시리즈 집계)에 대한 열이 있는 테이블로 평면화하고 k-means 와 같은 표준 클러스터링 알고리즘을 직접 적용하는 것 입니다. (K-평균은 샘플을 k 그룹으로 분할하고 각 클러스터의 제곱합을 최소화하여 데이터 클러스터를 구성하는 일반적인 클러스.. 2022. 8. 29.
반응형