본문 바로가기
Daily Review

model.fit() 데이터 사이언티스트를 위한 자리는 없습니다.

by data-analyst-luke 2022. 9. 2.
반응형

 

많은 사람들이 데이터 사이언스 분야에 진출합니다. 그것이 우리에게 좋은 일이라고 생각합니다. 정말 좋은 일입니다. 

더 많은 사람들은 더 많은 재능과 더 의미 있는 작업을 수행할 수 있는 능력을 의미합니다. 

그리고 지옥, 데이터 과학이 거의 모든 조직에서 달성하는 데 도움이 될 수 있는 많은 것들이 있습니다. 

 

저는 최근에 회사의 선임 데이터 분석가와 이야기를 나누며

" Python 데이터 사이언티스트를 충분히 고용할 수 있습니까?" 라고 물었습니다. 그의 대답은 이랬습니다.

 

데이터 과학자를 고용할 수는 있지만 좋은 사람을 찾기가 어렵습니다.

 

저는 데이터 과학 관리자이자 경험 많은 데이터 과학자이며 이에 대해 많은 공감을 할 수 있습니다. 

동료들과 함께 일할 때, 나는 그들이 테이블에 가져다 주는 독특한 아이디어에 종종 깊은 인상을 받습니다. 그러나 모든 고급 데이터 과학자에게는 지식이 저에게 충격을 주는 데이터 과학자가 있습니다. 특히 판다 사용 방법에 대한 과정을 수강하고 model.fit() 사용 방법을 배운 다음 스스로를 "데이터 과학자"라고 부르는 데이터 과학자가 있습니다.

 

오해하지 마세요. 모두가 거기서 시작해야 합니다. 경력 초기에 전 동료들과의 대화를 기억합니다. Cross Validation의 내부 작동 방식과 그 결과를 해석하는 방법을 이해하는 데 너무 오랜 시간이 걸렸습니다. 데이터 과학자가 되려면 이 그룹(model.fit() 데이터 과학자)이 기존 기술을 개선해야 한다고 생각합니다. 그렇지 않으면 지식 부족으로 인해 큰 장애물이 생길 것입니다.

 

 

충분하지 않은 이유

오늘날 기업 수준에서 데이터 과학을 재창조하는 데 사용할 수 있는 모든 도구가 있습니다. 

일반적으로 AutoML과 워크플로라는 두 가지 접근 방식을 볼 수 있습니다. AutoML 제품은 일상 업무에서 많은 생각을 필요로 합니다. 데이터 과학자로서 저는 다음 질문에 답할 수 있어야 합니다.

 

내 작업이 AutoML 작업보다 나은 이유는 무엇입니까?

 

세심하게 제작된 기능, 보다 강력한 모델 및 전처리 트릭은 마음에 떠오르는 몇 가지 이유일 뿐입니다. 

또한 모델 교육에는 수많은 뉘앙스가 있으며 이를 영리하게 결합하여 매우 정확한 모델을 구축할 수 있습니다. 

그러나 model.fit()을 사용하는 것만으로는 확실히 거기에 도달할 수 없으므로 AutoML에 직면하여 기술이 무의미해집니다.

 

 

80/20 분할 검증으로 그라디언트 부스트 트리를 피팅하는 RapidMiner 의 간단한 워크플로

RapidMiner Studio와 같은 워크플로 도구를 사용하면 AutoML보다 실습 문제가 더 많은 단계별로 모델을 신중하게 구축할 수 있지만 순수 코딩으로 모델을 구축하는 것과 비교하여 워크플로 디자이너가 얼마나 우수한지에 대해서는 여전히 많은 논란이 있습니다. 

내 경험에 비추어 볼 때 RapidMiner의 워크플로 디자이너 측면은 코드 없이 거의 모든 문제를 해결할 수 있는 진정으로 다재다능한 도구입니다(숙련된 데이터 과학자가 제공함). 

시장에서 쉽게 구할 수 있는 RapidMiner와 같은 도구를 사용하여 다음과 같이 자문해야 합니다.

 

비즈니스 전문가가 필요한 것을 알고 있기 때문에 모델링을 하도록 내버려 두어서는 안 되는 이유는 무엇입니까?

 

다시 말하지만, 모델을 모델링하고 구축하는 데 많은 경험을 가진 데이터 과학자를 위한 자리는 항상 있을 것입니다. 

그러나 한 가지는 확실합니다.

 

간단한 model.fit()과 약간의 ETL은 더 이상 당신을 차별화하기에 충분하지 않을 것입니다.

진정한 부가가치가 되려면 훨씬 더 많은 기술과 전문 분야가 필요합니다.

 

따라서 model.fit() 데이터 과학자라면 주의하십시오! 

이제 기술을 강화하고 보다 전문화된 데이터 과학자가 되기 시작할 때입니다.

반응형

댓글