반응형 전체 글46 머신 러닝 인터뷰 준비 팁 데이터 전처리 데이터 준비는 일반적으로 다음 단계로 구성됩니다. 데이터 수집(데이터 세트 생성) 데이터 탐색(데이터 이해) 데이터 서식 지정(정리, 크기 조정, 품질 개선) 기능 엔지니어링 및 데이터 변환(예: 주소 문자열을 필요한 정보로 선택하고 이를 국가, 도시, 거리에 대한 정보 조각으로 나누기) 그러나 이미 데이터가 있을 때 정확히 무엇을 합니까? 글쎄, 그것은 우리가 작업하는 데이터와 작업에 따라 약간 다릅니다. 1) 이미지의 경우: 각 이미지가 예상되는 것을 나타내는지 확인 다른 이미지 청소 이미지 크기 조정/크기 조정 2) 테이블 및 숫자 데이터의 경우: 데이터 탐색 평균 결측값 및 이상값 제거 또는 채우기 추가 열 삭제 필드를 검토하여 정보를 제공하고 작업하기에 좋은지 확인 변수를 선택하고.. 2022. 9. 13. Matplotlib 차트를 향상시키는 7가지 간단한 방법 Matplotlib 는 Python 내에서 사용할 수 있는 가장 인기 있는 데이터 시각화 라이브러리 중 하나입니다 . 일반적으로 파이썬을 배울 때 접하는 첫 번째 데이터 시각화 라이브러리입니다. 몇 줄의 코드로 그림을 생성할 수 있지만 생성되는 플롯은 종종 형편없고 시각적으로 매력적이지 않으며 정보가 없습니다. 이를 방지하기 위해 몇 줄의 추가 코드로 그림의 통신 능력을 향상시킬 수 있습니다. 이 기사에서는 기본적인 matplotlib 산점도 에서 최종 사용자/독자에게 시각적으로 더 매력적이고 유익한 것으로 어떻게 갈 수 있는지 다룰 것 입니다. 라이브러리 및 데이터 가져오기 matplotlib 내에서 산점도를 향상할 수 있는 방법에 대한 다음 예에서는 Xeek 및 FORCE 2020 (Bormann e.. 2022. 9. 12. 시계열 분석 및 예측에 대한 종합 가이드 (3) 시계열 데이터 고정 검사 그럼 먼저 고정 시계열 데이터가 무엇인지 요약해 보겠습니다! 고정은 용어에서 알 수 있듯이 일관성이 있습니다. 시계열에서 계절성이나 추세가 포함되지 않은 데이터를 정상적이라고 합니다. 따라서 특정 추세 또는 계절성이 있는 다른 시계열 데이터는 고정적이지 않습니다. 우리가 작업한 두 개의 시계열 데이터 중 출산 데이터에는 추세나 계절성이 없고 고정적이라는 것을 기억할 수 있습니까? 반면, 일일 평균 기온 데이터에는 계절성 요인과 드리프트가 있으므로 비정상적이며 모델링하기 어렵습니다! 시계열의 정상성은 3가지 유형에서 두드러진다 - (a) 고정 추세 - 이러한 종류의 시계열 데이터에는 추세가 없습니다. (b) 계절성 고정 — 이러한 종류의 시계열 데이터에는 계절성 요인이 없습니다. .. 2022. 9. 12. 시계열 분석 및 예측에 대한 종합 가이드 (2) 시계열 성분 조합론 시계열 모델은 2가지 방법론으로 나타낼 수 있습니다. 가법 방법론 - 시계열 추세가 적분 간의 선형 관계인 경우, 즉 계열의 주파수(너비)와 진폭(높이)이 같으면 가법 규칙이 적용됩니다. 덧셈 방법론은 계절적 변동이 타임스탬프에 대해 선형이거나 일정한 시계열이 있을 때 사용됩니다. 다음과 같이 나타낼 수 있습니다. y(t) 또는 x(t) = 수준 + 추세 + 계절성 + 노이즈 여기서 모델 y(다변량) 또는 x(단변량)은 시간 t의 함수입니다. 승법 방법론 - 시계열이 적분 사이의 선형 관계가 아닌 경우 곱셈 규칙에 따라 모델링이 수행됩니다. 승법 방법론은 계절적 변동이 시간에 따라 증가하는 시계열이 있을 때 사용되며, 이는 지수 또는 2차일 수 있습니다. 그것은 다음과 같이 표현됩니다.. 2022. 9. 12. 시계열 분석 및 예측에 대한 종합 가이드 (1) 시계열 분석 및 예측은 데이터 과학, 데이터 분석 및 인공 지능 분야에서 매우 뚜렷하고 강력한 연구입니다. 변화하는 시간과 관련하여 저장된 데이터를 기반으로 사고의 확률을 분석하고 예측하거나 계산하는 데 도움이 됩니다. 예를 들어, 흉통 때문에 병원을 방문했고 심장이 건강하고 기능하는지 확인하기 위해 (ECG) 검사를 받고 싶다고 가정해 보겠습니다. 생성된 ECG 그래프는 시간에 따른 심박변이도(HRV)가 표시된 시계열 데이터로, 의사가 심장을 돌보고 뇌졸중이나 심장마비의 위험을 줄이기 위한 중요한 조치를 제안할 수 있는 분석입니다. 시계열은 의료 분석, 지리 공간 분석, 일기 예보 및 시간에 따라 지속적으로 변화하는 데이터의 미래 예측에 널리 사용됩니다! 시계열 분석이란 무엇입니까? 시계열 분석은 시계.. 2022. 9. 11. 올바른 데이터에 대한 올바른 차트 이 게시물에서는 다양한 유형의 차트를 분석하여 데이터 시각화 및 분석의 맥락에서 차트를 사용하는 방법과 경우를 이해합니다. 이 게시물은 데이터 과학의 몇 가지 기본 개념을 분석한 이전 게시물과 연결된 것으로 간주할 수 있습니다. https://medium.com/@entango/some-basic-concepts-in-data-analysis-data-science-part1-213b4a129d3d Some basic concepts in Data Analysis & Data Science — Part1 As I approached the world of data science I encountered some basic concepts that every beginner should know. Thes.. 2022. 9. 11. SQL에서 하기 가장 어려운 5가지 소개 우리 중 많은 사람들이 클라우드 데이터 웨어하우스 내에서 컴퓨팅을 중앙 집중화함으로써 제공되는 속도와 효율성의 핵심 능력을 경험했습니다. 이것이 사실이지만 우리 중 많은 사람들은 다른 것과 마찬가지로 이 가치에도 나름의 단점이 있다는 것을 깨달았습니다. 이 접근 방식의 주요 단점 중 하나는 다른 언어, 특히 SQL로 쿼리를 배우고 실행해야 한다는 것입니다. SQL을 작성하는 것이 Python을 실행하기 위해 보조 인프라를 구축하는 것(노트북 또는 사무실 서버에서)보다 빠르고 저렴하지만 데이터 분석가가 클라우드 웨어하우스에서 추출하려는 정보에 따라 다양한 복잡성이 따릅니다. 클라우드 데이터 웨어하우스로 전환하면 Python에 비해 복잡한 SQL의 활용도가 높아집니다. 이 경험을 통해 SQL에서 배우고.. 2022. 9. 11. 데이터 분석: 데이터에서 정보와 지식을 추출하는 프로세스 "영향을 위한 실행 가능한 통찰력 생성"이 주제에 추가될 수 있지만 매우 길 것입니다. 데이터 중심 세계에서 데이터 분석은 그 어느 때보다 중요합니다. 데이터를 이해하고 분석하면 더 나은 결정을 내리고, 효율성을 높이며, 복잡한 문제를 해결하고, 수익을 높일 수 있습니다 . 데이터 분석은 비즈니스 생활뿐만 아니라 우리 삶의 모든 측면에서 항상 어떤 형태를 띠고 있습니다. 예를 들어 최고의 품질/가장 저렴한/가장 빠른 배송을 찾아 제품을 구매하거나 취업 사이트에서 구직/인턴십을 찾는 것과 같은 것입니다. 오늘날 데이터는 어디에나 있습니다. 우리의 장치, 상호 작용 및 활동에 의해 생성됩니다. 그리고 그 규모, 속도, 다양성 면에서 계속해서 성장할 것입니다. 그러나 가장 기본적으로 데이터 는 정보 의 열쇠일.. 2022. 9. 10. 5개의 데이터 시각화 대시보드 템플릿 데이터 시각화를 위한 효과적인 대시보드를 제공하는 사이트는 무엇입니까? “학교에서 우리는 언어와 수학에 대해 많은 것을 배웁니다. 언어 측면에서 우리는 단어를 문장과 이야기로 결합하는 방법을 배웁니다. 수학을 통해 우리는 숫자를 이해하는 법을 배웁니다. 그러나 이 두 가지가 짝을 이루는 경우는 드뭅니다. 아무도 우리에게 숫자로 이야기를 전달하는 방법을 알려주지 않습니다. 이로 인해 점점 더 수요가 증가하는 중요한 작업에 대한 준비가 제대로 되지 않습니다.” — 콜 누스바우머 크나플릭 데이터 분석가로 첫 직장을 구하면 a) 팀에 통찰력을 공유하고 b) 팀에서 자체 통찰력을 추출할 수 있는 대시보드 제품을 구축하여 즉각적인 가치를 보여야 한다는 압박감이 있습니다. 다양한 산업 분야의 데이터 분석가 역할 사이.. 2022. 9. 10. 데이터 과학자가 되어서는 안 되는 이유 주변에 특이한 직책이 있습니다. 더 특이한 사람 중 하나는 데이터 과학자입니다. 이 사람들은 다양한 조직에서 찾을 수 있지만 실제로 우리가 생각하는 의미는 아닙니다. 이 블로그에서는 데이터 과학자를 살펴보고 데이터 과학자가 되어서는 안 되는 이유에 대해 설명합니다. 데이터 과학 신화 오늘날 많은 사람들이 데이터 과학자가 될 수 있다고 믿습니다. 데이터 과학자가 되는 데 도움이 될 수 있는 수백 개의 온라인 과정과 데이터 과학자가 된다는 것이 무엇을 의미하는지에 대한 수천 개의 기사가 있습니다. 그러나 불행히도 이러한 기사와 과정의 대부분은 실제로 당신을 오도하고 있습니다. 데이터 과학자는 SQL, R, Python 및 Hadoop을 아는 사람이 아닙니다. 데이터 과학자는 데이터로 비즈니스 문제를 해결하는.. 2022. 9. 10. 단 6개월 만에 데이터 과학자가 되는 방법! 현재 데이터 사이언티스트인 저는 데이터 사이언티스트가 되기까지 얼마나 걸렸는지 종종 질문을 받습니다. 사실은 그렇게 오래 걸리지 않았습니다. 사실 저는 불과 6개월 만에 데이터 과학자가 되었습니다. 6개월 만에 데이터 과학자가 되는 것이 쉽다는 말은 아닙니다. 확실히 노력과 헌신이 필요합니다. 하지만 기꺼이 노력한다면 단 6개월 만에 데이터 과학자가 될 수 있습니다. 6개월 만에 데이터 과학자가 될 수 있는 방법은 다음과 같습니다. 1. 프로그래밍의 기초부터 배우기 데이터 과학자가 되려면 강력한 프로그래밍 기술이 필요합니다. 좋은 소식은 데이터 과학자가 되기 위해 전문 프로그래머가 될 필요가 없다는 것입니다. 프로그래밍에 대한 기본적인 이해만 있으면 충분합니다. 자원: 코딩 방법: 어린이와 성인을 위한 .. 2022. 9. 9. PyOD로 이상값 감지 이름에서 알 수 있듯이 이상치는 나머지 관측치와 크게 다른 데이터 포인트입니다. 즉, 데이터의 평균 경로에서 멀리 떨어져 있습니다. 통계 및 기계 학습에서 이상값을 감지하는 것은 모델의 성능에 영향을 미칠 수 있으므로 중요한 단계입니다. 즉, 판매된 단위의 양을 기반으로 회사의 수익을 예측하려고 한다고 상상해 보십시오. 그렇게 하려면 단순 선형 회귀로 데이터를 맞추려고 하므로 OLS 전략을 진행하여 매개변수 알파 와 베타 를 찾습니다(선형 회귀에 대한 자세한 내용은 여기에서 제 이전 기사를 읽을 수 있습니다 ). 좋습니다. 하지만 데이터 중 특이치가 있다면 어떻게 될까요? 보시다시피 회귀선은 해당 이상값의 효과도 캡처하려고 하므로 더 가파르게 됩니다. 결과적으로 다른 모든 데이터 포인트를 맞추는 데 정확.. 2022. 9. 9. 이전 1 2 3 4 다음 반응형