본문 바로가기
반응형

전체 글46

데이터 사이언스 관련 직무 급여 데이터셋을 분석했습니다. Kaggle에서 데이터 과학 Job Salaries 데이터셋을 발견하고 이에 대한 분석 기술을 시험해봤습니다. 이 데이터 세트에는 2020년 고용 유형, 회사 위치 등과 같은 요소를 기반으로 하는 전 세계 데이터 과학 전문가의 급여에 대한 세부 정보가 포함되어 있습니다. 또한 2021년 데이터 과학 전문가의 예상 급여도 함께 제공됩니다. 저는 2020년과 2021년에 대한 급여 분포를 시각화했습니다. 2020년부터 2021년까지의 기간 동안 급여 상한선이 크게 증가한 것을 볼 수 있습니다. 또한 최대 300,000 USD까지 봉급을 자루에 넣는 전문가의 수가 크게 증가한 것을 관찰할 수 있습니다. 인도 기준으로 분석을 해봤어요. 질문 1. 초급 데이터 과학 전문가에게 가장 적합한 고용 유형은 무엇입니까?.. 2022. 9. 5.
데이터 시각화(Data Visualize) : 알아야 할 가장 중요한 5가지 여러분, 안녕하세요. 이 게시물에서는 데이터 시각화 기술을 향상시키기 위해 알아야 할 가장 중요한 5가지 사항을 배웁니다. 이 게시물이 끝나면 시각화 수준을 높일 수 있는 지식을 갖게 될 것이라고 약속합니다. 바로 들어가 봅시다! 단순함이 핵심입니다. 품질 시각화의 첫 번째이자 가장 중요한 요소는 단순성 입니다. 포스트의 나머지 부분으로 넘어가기 전에 그 중요성을 강조해야 할 정도로 중요합니다. 단순함을 강화 요소가 아니라 데이터 시각화의 전제 조건으로 생각하십시오. 시각화의 요점은 비즈니스 소유자에게 스토리를 전달하고 비즈니스 소유자가 이 스토리를 기반으로 결정을 내리도록 돕는 것입니다. 이 작업을 수행하는 방법은 여러 가지가 있습니다. 그러나 요점을 바로 전달하려면 청중을 혼란스럽게 할 수 있는 요소.. 2022. 9. 4.
Python을 사용한 고급 탐색 데이터 분석(EDA) - 3 거의 모든 테이블 형식 데이터 세트를 빠르게 처리하는 방법 새 데이터 세트에 대한 좋은 느낌을 얻는 것이 항상 쉬운 일이 아니며 시간이 걸립니다. 그러나 훌륭하고 광범위한 탐색적 데이터 분석(EDA)은 데이터 세트를 이해하고, 데이터가 어떻게 연결되어 있는지, 데이터 세트를 적절하게 처리하기 위해 수행해야 하는 작업에 대한 느낌을 얻는 데 많은 도움이 될 수 있습니다. 이 기사에서는 여러 가지 유용한 EDA 루틴을 다룰 것입니다. 그러나 내용을 짧고 간결하게 유지하기 위해 항상 더 깊이 파고들거나 모든 의미를 설명하지 못할 수도 있습니다. 그러나 실제로 데이터 세트를 완전히 이해하기 위해 적절한 EDA에 충분한 시간을 투자하는 것은 훌륭한 데이터 과학 프로젝트의 핵심 부분입니다. 일반적으로 데이터 준비 .. 2022. 9. 4.
Python을 사용한 고급 탐색 데이터 분석(EDA) - 2 거의 모든 테이블 형식 데이터 세트를 빠르게 처리하는 방법 새 데이터 세트에 대한 좋은 느낌을 얻는 것이 항상 쉬운 일이 아니며 시간이 걸립니다. 그러나 훌륭하고 광범위한 탐색적 데이터 분석(EDA)은 데이터 세트를 이해하고, 데이터가 어떻게 연결되어 있는지, 데이터 세트를 적절하게 처리하기 위해 수행해야 하는 작업에 대한 느낌을 얻는 데 많은 도움이 될 수 있습니다. 이 기사에서는 여러 가지 유용한 EDA 루틴을 다룰 것입니다. 그러나 내용을 짧고 간결하게 유지하기 위해 항상 더 깊이 파고들거나 모든 의미를 설명하지 못할 수도 있습니다. 그러나 실제로 데이터 세트를 완전히 이해하기 위해 적절한 EDA에 충분한 시간을 투자하는 것은 훌륭한 데이터 과학 프로젝트의 핵심 부분입니다. 일반적으로 데이터 준비 .. 2022. 9. 4.
Python을 사용한 고급 탐색 데이터 분석(EDA) - 1 거의 모든 테이블 형식 데이터 세트를 빠르게 처리하는 방법 새 데이터 세트에 대한 좋은 느낌을 얻는 것이 항상 쉬운 일이 아니며 시간이 걸립니다. 그러나 훌륭하고 광범위한 탐색적 데이터 분석(EDA)은 데이터 세트를 이해하고, 데이터가 어떻게 연결되어 있는지, 데이터 세트를 적절하게 처리하기 위해 수행해야 하는 작업에 대한 느낌을 얻는 데 많은 도움이 될 수 있습니다. 이 기사에서는 여러 가지 유용한 EDA 루틴을 다룰 것입니다. 그러나 내용을 짧고 간결하게 유지하기 위해 항상 더 깊이 파고들거나 모든 의미를 설명하지 못할 수도 있습니다. 그러나 실제로 데이터 세트를 완전히 이해하기 위해 적절한 EDA에 충분한 시간을 투자하는 것은 훌륭한 데이터 과학 프로젝트의 핵심 부분입니다. 일반적으로 데이터 준비 .. 2022. 9. 3.
Python을 사용한 Spotify 데이터 분석 및 시각화 (2) 소개 Spotify에는 귀하를어디에나 있는노래와 그 기능의 데이터베이스. 예를 들어, 좋아하는 노래에서 시각적 통찰력을 얻거나 재생을 웹 응용 프로그램에 통합할 수 있습니다. 또한 강력한 노래 검색 엔진을 사용할 수 있을 뿐만 아니라 좋아하는 노래를 더 많이 들을 수 있도록 도와주는 추천 시스템도 있습니다. 앞선 프로젝트 1에 이어서 진행합니다. 트랙의 기능 시각화 다음은 트랙 기능의 상관 행렬입니다. import seaborn as sn sn.set(rc = {'figure.figsize':(12,10)}) sn.heatmap(tf_df.corr(), annot=True) plt.show() 특정 변수 쌍에 대해 이변량 KDE를 표시할 수도 있습니다. sn.set(rc = {'figure.figsize.. 2022. 9. 3.
Python을 사용한 Spotify 데이터 분석 및 시각화 (1) 소개 Spotify에는 귀하를어디에나 있는노래와 그 기능의 데이터베이스. 예를 들어, 좋아하는 노래에서 시각적 통찰력을 얻거나 재생을 웹 응용 프로그램에 통합할 수 있습니다. 또한 강력한 노래 검색 엔진을 사용할 수 있을 뿐만 아니라 좋아하는 노래를 더 많이 들을 수 있도록 도와주는 추천 시스템도 있습니다. 전제 조건 Spotify 공식 웹사이트 에서 비용과 노력 없이 가입하는 것부터 시작해 보겠습니다 . 그런 다음 애플리케이션 대시보드 를 열고 "앱 만들기" 버튼을 누르십시오. 필요한 세부 정보를 입력하고 탐색을 준비합니다. ClientID와 Client Secret을 확보하고 좋아하는 Python IDE를 시작하십시오. 코딩할 시간입니다. 우리는 SpotiPy라는 Spotify API 주변의 래퍼 유.. 2022. 9. 3.
CRM 분석, RFM 분석 CRM은 고객 관계 관리를 의미합니다. CRM에는 협업, 분석 및 운영 의 3가지 유형이 있습니다 . 데이터 사이언티스트로서 가장 중요한 접근 방식은 짐작할 수 있듯이 분석적 접근 방식입니다. 대부분의 회사에는 크고 귀중한 고객 데이터베이스가 있으며, 그 데이터베이스에서 데이터를 사용하지 않는 것은 부끄러운 일입니다. 더 나은 비즈니스 결정을 내리기 위해 회사는 RFM 분석을 사용하고 고객을 세분화할 수 있습니다. 각 고객에게 다른 접근 방식을 제공하는 것은 너무 어렵거나 불가능합니다. 세분화함으로써 기업은 고객 그룹에 보다 전략적으로 접근할 수 있습니다. RFM 분석 RFM은 Recency, Frequency, Monetary의 약자입니다. Recency : 마지막 트랜잭션과 분석 날짜 사이의 시간입니.. 2022. 9. 2.
model.fit() 데이터 사이언티스트를 위한 자리는 없습니다. 많은 사람들이 데이터 사이언스 분야에 진출합니다. 그것이 우리에게 좋은 일이라고 생각합니다. 정말 좋은 일입니다. 더 많은 사람들은 더 많은 재능과 더 의미 있는 작업을 수행할 수 있는 능력을 의미합니다. 그리고 지옥, 데이터 과학이 거의 모든 조직에서 달성하는 데 도움이 될 수 있는 많은 것들이 있습니다. 저는 최근에 회사의 선임 데이터 분석가와 이야기를 나누며 " Python 데이터 사이언티스트를 충분히 고용할 수 있습니까?" 라고 물었습니다. 그의 대답은 이랬습니다. 데이터 과학자를 고용할 수는 있지만 좋은 사람을 찾기가 어렵습니다. 저는 데이터 과학 관리자이자 경험 많은 데이터 과학자이며 이에 대해 많은 공감을 할 수 있습니다. 동료들과 함께 일할 때, 나는 그들이 테이블에 가져다 주는 독특한 아.. 2022. 9. 2.
"Isolation Forest": 모든 데이터 분석가가 알아야 할 이상 탐지 알고리즘 "Isolation Forest"는 2009년에 탄생한 뛰어난 이상 탐지 알고리즘입니다( 여기 에 원본 논문이 있습니다). 이후 매우 유명해졌습니다. Scikit-learn에서도 구현됩니다( 문서 참조 ). 이 기사에서 우리는 이 알고리즘 뒤에 숨겨진 직관의 아름다움에 감사하고 몇 가지 예를 통해 내부에서 정확히 어떻게 작동하는지 이해할 것입니다. "이상 탐지가 왜 그렇게 어려운가요?" 이상(또는 이상치) 탐지는 대부분의 관찰과 비교하여 "매우 이상한" 데이터 포인트를 식별하는 작업입니다. 이는 결함 감지에서 금융 사기 발견, 건강 문제 발견에서 불만족 고객 식별에 이르기까지 다양한 응용 분야에서 유용합니다. 또한 이상값을 제거하면 모델 정확도가 증가한다는 것이 입증 되었기 때문에 기계 학습 파이프라인에.. 2022. 9. 2.
데이터사이언티스트에게 필요한 3가지 이상 탐지 모델(Anomaly Detection) 아래 2가지 상황을 경험해본 적 있을 것이다. 모델이 원하는 대로 작동하지 않습니다. 일부 포인트가 나머지 포인트와 크게 다르다는 사실에 주목하지 않을 수 없습니다. 이런 상황이라면, 아마도 데이터에 이상치가 있다는 거다. 이상치란 무엇입니까? 통계에서 이상치는 다른 관측치와 크게 다른 데이터입니다. 위의 그림에서 우리는 대부분의 점이 선형 초평면 안에 있고 그 주위에 있지만 단일 점이 나머지 부분에서 발산하는 것을 볼 수 있음을 분명히 알 수 있습니다. 이 점은 이상치 입니다. 예를 들어 아래 목록을 살펴보십시오. [ 1,35,20,32,40,46,45 , 4500 ] 여기에서 1과 4500이 데이터 세트의 이상값임을 분명히 쉽게 알 수 있습니다. 내 데이터에 이상치가 있는 이유는 무엇입니까? 일반적으.. 2022. 9. 1.
Data-Driven Organization을 향한 디자인 씽킹 데이터 중심 조직을 향한 발걸음 매일 우리는 전 세계적으로 약 2500조 바이트의 데이터를 생성합니다. 모든 조직은 데이터 중심이 되고 데이터 중심 의사 결정을 내리기를 원합니다. 약 11가지 유형의 데이터베이스 와 100개 이상의 데이터베이스가 있습니다. 조직에는 사용하거나 기반으로 하는 하나 이상의 제품이 있습니다. 제품에는 여러 기능이 있으며 기능의 사용 사례와 데이터 구조 및 모델링 요구 사항에 따라 하나 이상의 데이터베이스를 사용할 수 있으며 다중 언어 및 마이크로서비스 아키텍처도 이를 달성하는 데 도움이 됩니다. 그러나 조직에서 사용하는 여러 데이터베이스(하나 이상의 유형)에 대한 다양성이 증가함에 따라 이를 하나의 우산 아래 통합 관리하고 유지해야 하는 높은 책임도 따릅니다. 단순히 많은 양.. 2022. 9. 1.
반응형