일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- redis bloom filter
- 하둡에코시스템
- Python
- Data engineering
- 빅데이터플랫폼
- 데이터엔지니어링
- BigData
- cloudera
- pyspark
- recommendation system
- 개발자
- eks
- kafka
- 하둡
- apache spark
- hadoop
- 클라우데라
- 블로그
- DataEngineering
- Spark structured streaming
- 개발자혜성
- Terraform
- 빅데이터
- spark
- kubernetes
- AWS SageMaker
- mlops
- 데이터엔지니어
- 추천시스템
- dataengineer
- Today
- Total
Hyesung Oh
[기상청 날씨 빅데이터 콘테스트] 공모전 후기/ 공모전 수상 팁 본문
안녕하세요 설까치IT 블로그의 첫 포스팅입니다. 취업 스펙과 실력을 쌓기 위해 많은 분들이 준비하는 것이 바로 공모전이라 생각합니다. 그 중에서도 제가 오늘 다룰 공모전 주제는 요즘 4차 산업혁명과 함께 각광받고 있는 분야인
빅데이터 공모전입니다.
저는 데이터사이언스에 관심을 가지고 공부를 시작한 지 6개월 정도 된 시점에서 (2019.1.1 공부시작) 실전 경력을 쌓아보고자 좋은 기회를 얻어 공모전에 참가하였습니다. 제가 참가했던 첫 공모전은 기상청 날씨 마루에서 주최하는
'날씨 빅데이터 콘테스트' 였으며, 주3회 4시간씩 한 달간 고생한 끝에 (2019.6.24 -7.22) .500여 이상의 팀이 참가한 대회에서 유통분야 우수상이라는 좋은 결과를 얻을 수 있었습니다.
그저 운이 좋아 수상을 한 것은 아니라는 생각이 듭니다. 따라서 제가 개인적으로 수상하기 위해 알아 두면 정말 유익한 5 가지 정도를 소개해드리고자 합니다. 저 또한 참가함 첫 공모전이기에 많이 서툴렀고 모르는 것이 많았습니다.
아래 5가지는 제가 경험 후 깨달은 것들로서, 공모전에 처음으로 참가하시는 분들에게는 큰 도움이 될 것이라 생각합니다.
<날씨 빅데이터 콘테스트 수상 꿀팁 5가지>
1. 주제 선정? 수상 당락의 50프로 결정
2. 역할 분담은 어떻게?
3. 효과적인 의사소통이란?
4. 심사위원분들이 중요하다고 생각하는 것들?
5. 발표시간 10분, 질의응답 시간 10분. 어떻게 준비할까?
시작하겠습니다.
1. 주제선정? 수상 당락의 50프로를 결정
2019 날씨 빅데이터의 공모 주제는 크게 유통분야, 자유분야 두 가지였습니다. 저희는 '판매량 예측을 통한 재고관리 고도화' 라는 주제로 유통분야에 참가하였습니다.
유통분야였기 때문에 주제의 범위가 크게 넓지 않지만, 날씨와 유통 데이터를 활용한 다양한 비즈니스 아이디어 제시를 할 수 있다고 생각했고, 실제 본선에서도 10팀의 발표를 들어본 결과 프로젝트의 방향은 비슷했지만 고안한 전략과 활용방안은 각양각색이었습니다.
사실 무엇보다 중요한 것은 바로 자신이 선정한 주제에 대해 얼마나 깊은 도메인 지식을 가지고 있고, 그것을 녹여낼 수 있는지입니다. 이는 실제로 심사위원분께서 하신 말씀입니다.
저희 팀은 산업공학을 전공한 사람 4명, 통계학을 전공한 사람 1명으로 구성되어, 유통에 대한 전공 지식을 활용하여 프로젝트에 녹여낼 수 있었고, 이는 타 팀들과 구분 짓는 큰 강점이었다는 생각이 듭니다.
2. 역할 분담은 어떻게?
프로젝트를 진행하다보면 시행착오를 대부분 겪게 될 것입니다. 시행착오를 겪지 않고 순탄하게 작업이 진행되고 있다면 작성한 코드, 결과물에서 발생한 실수, 오류 등을 놓치고 가고 있는 것은 아닌지 의심해보는 게 좋습니다.
이를 뒤늦게 발견하여 다시 처음으로 돌아가야하는 불상사가 발생할 확률이 곳곳에 도사리고 있기 때문입니다. 실제 저희 팀의 경우 제출 며칠 전까지 이러한 케이스가 발생하여 제출 직전 날밤을 새는 투혼을 발휘해야 했습니다.
이러한 불상사를 방지하기 위해 필요한 역할분담
첫 번째, 프로젝트를 진행하는 동안 작성한 코드나 결과물을 정리하는 사람, 정리된 결과물을 PPT로 만드는 사람이 있다면 이러한 불상사가 발생하여도 시간에 쫓기는 부담을 더는데 좋을 것 같습니다.
두 번째, 한 사람이 모두 맡아 하는 것보단 2-3명이서 분담하여 피처엔지니어링 및 모델 검증을 하는 것이 효율적입니다.
데이터 정의, 전처리가 끝이 나면 머신러닝 모델을 정의할 것입니다. 이때 적어도 3가지 이상의 모델을 사용할 텐데
한 사람이 모두 맡을 시, 모델링 과정에서 범한 치명적인 실수를 발견하지 못할 위험이 있기 때문입니다.
역할을 분담한다면, 평가 척도를 바탕으로 비교 분석할 때에도 용이할 뿐더러, 각자가 맡은 부분을 설명해주는 과정에서 서로가 서로의 오류를 지적해줄 수 있는 장점이 있다 생각합니다.
3. 효과적인 의사소통이란?
개인으로 참가한 분도 계실테지만, 대부분이 2-3명 이상의 팀원을 구성하여 참가할 거라 생각합니다. 위에서 말한 역할 분담이 끝나고 나면 각자가 맡은 부분에 대해 성실히 작업을 진행할 것입니다.
하지만 이때 의사소통이 원활히 이루어지지 못해 각기 다른 방향으로 작업이 진행이 된다면 다시 원점으로 돌아가야 하는 불상사가 생기게 됩니다.
예를 들어, 활용하기로 한 데이터 불일치, 전처리 방법 불일치, 모델 학습 및 예측 방법론에 있어서의 불일치 등이 있을 수 있습니다.
이러한 일이 자주 발생하게 되면 동기부여 상실로 이어질 수도 있고 무엇보다 큰 시간낭비가 아닐 수 없습니다. 이러한 불상사를 방지하기 위한 방법
첫 번째, 구글 문서 및 ppt를 활용하여 공동작업을 하시는 것을 추천드립니다.
구글 문서를 팀원들과 공유하여 각자가 진행하고 있는 부분을 상세히 적어놓는 것입니다. 그렇게 함으로서 다른 팀원들이 하고 있는 부분을 참고하여 미래에 범할 수 있는 실수를 원천 차단 할 수 있는 효과를 얻을 수 있습니다.
두 번째, 화이트 보드가 있는 스터디룸을 활용하시는 것을 추천드립니다.
브래인 스토밍이나 아이디어 제시를 하며 회의를 진행하다 보면 회의 내용이 잘 기억이 나지 않거나, 내용이 구조화되지 않는 문제점이 발생할 수 있습니다.
이때 화이트보드에 한 사람이 적어가면서 구조화를 하면 가시적인 효과로 인해 기억에 잘 남고 의사전달에 있어서도 효율적이기 때문입니다. 또한 원하는 방향으로 프로젝트가 진행되어 가고 있는지, 팀원들간의 합의점에 도달하고 있는지 중간 점검을 함으로써 동기부여에도 좋은 영향을 줄 수 있다고 생각합니다.
4. 심사위원분들이 중요하다고 생각하는 것들?
이 부분에 있어서는 이 글을 읽고 계신 여러분들 또한 알고 계실거라 생각합니다.
바로 도메인 지식과, 비즈니스 활용 가능성입니다.
첫 번째, 도메인 지식
"창의적인 EDA, 높은 수준의 머신러닝 및 딥러닝 모델, 우수한 모델 성능 결과 이 모든 것들은 그저 tool에 불과하다"
는 것이 심사위원분의 말씀이셨습니다. 결국에 중요한 것은, 자신들이 선정하고 분석하고 있는 주제에 대해 도메인 지식을 가지고 있느냐라는 것입니다.
예를 들어, 편의점의 미래 판매량을 낮은 수준의 오차범위내에서 예측하여 재고관리 계획을 세운다 했을 때, 편의점의 발주 시스템과 재고관리에 대한 지식이 없다면, 자신이 아무리 창의적인 내세운 설루션을 주장한다 한들, 그것이 실제로 현산 업에 적용이 될 가능성은 미비하기 때문입니다.
따라서 자신이 분석하고 있는 현산 업 시스템에 대한 도메인 지식을 갖추어야 한다는 것입니다.
두 번째, 비즈니스 활용 가능성
데이터 사이언티스트의 최종 목적은 결국 비즈니스 문제를 해결하는 것입니다. 따라서 모델의 예측 정확도에 너무 치중하는 것 보다는 이러한 결과를 바탕으로 비즈니스에 활용할 수 있는 창의적인 아이디어에 대해 생각하고 제시하는 것이 수상하는데 유리하다고 생각합니다.
실제로 최우수상을 수상한 팀의 경우, 다른 팀과는 차별적인 비즈니스 아이디어를 제시하였고 그것이 최우수상을 받은 가장 큰 요인이 아니었나 개인적으로 생각을 합니다.
저희 같은 경우 수요 예측을 통한 재고관리 고도화라는 주제로 발표를 하였고 다른 부분에서 높은 평가를 받아 우수상을 받을 수 있었습니다. 하지만 이 주제는 이미 현업에서도 연구를 하고 있는 주제로서, 창의성 면에서는 큰 점수를 받지 못했다는 생각이 듭니다.
따라서 이미 현업에서 연구하고 있는 분야 외에 자신들만의 창의적인 비즈니스 활용방안에 대해 제시를 할 수 있다면 최우수상을 받는데 아주 유리하지 않을까 생각을 합니다.
5. 발표시간 10분, 질의응답 시간 10분. 어떻게 준비할까?
개인적으로 이 질문에 대한 뾰족한 답은 없다고 생각합니다. 하지만 확실하게 대답할 수 있는 것은 몇 가지 있습니다.
바로 치열하게 고민하고 분석해보라는 것입니다.
첫 번째, 가정을 세우고 분석한 뒤 꼭 검증을 해보자.
왜 이러한 결과가 나왔는지 의심하고 또 의심하여 그러한 결과가 나온 이유에 대해 자기 나름의 주장을 정립해 보는 시간을 가져야 합니다.
두 번째, 사용한 모델의 사용 이유에 대해 나름의 이유를 생각해보자.
딥러닝을 사용하였다면 왜 사용하였는지, 하이퍼파라미터는 왜 그렇게 설정을 했는지 이유에 대해 공부하고 생각해보는 시간을 가져야 합니다.
이 두가지를 스킵하지 않고 철저하게 챙겨가신다면, 질의응답 시간에 심사위원분들이 어떠한 질문을 하여도 나름의 이유에 대해 잘 설명하실 수 있을 것입니다.
이상으로 기상청 날씨 빅데이이터 공모전 후기와 수상 팁에 대한 소개를 마치겠습니다.
긴 글 읽어주셔서 감사합니다.
'ETC > review' 카테고리의 다른 글
[빅매칭 데이/ 기상청 날씨빅데이터 콘테스트 후속 지원] 참가, 면접 후기 (0) | 2019.12.13 |
---|