.
- 개요
- kb금융그룹 사칭 스미싱 문자들로 인한 기업의 이미지 손실 우려
- 최근 지능적인 스미싱 문자 패턴 등으로 인한 고객들의 피해증가
- 최근 사기 패턴을 적용한 알고리즘의 구현 필요성 증가
- 고객의 피해방지를 위한 공익목적의 알고리즘 개발 필요성
주제
- 본 대회에서는 KB금융그룹 및 KISA(한국인터넷진흥원)에서 제공받은 최근 5년간의 고객들에게 전송한 문자
데이터 및 2019년 1월부터 9월까지 스미싱 문자로 확인이 된 문자 데이터 및 해당 날짜, 고유 ID, 스미싱 여부가
데이터로 주어집니다.
- 문제 및 답안 제출 : 해당 train, test.csv 파일을 활용하여, test.csv파일에서 없는 항목인 smishing 변수의
각 예측값을 만들어내고 id별로, 해당 스미싱 문자 여부를 스미싱문자가 아니라면 0으로 표시하고,
스미싱 문자라면 1로 표시하고 정답을 제출하여 주시면 됩니다.
* 주의: 제공되는 데이터에는 개인정보 보호를 위해, 개인정보로 간주될 수 있는 이름, 전화번호 및 원활한
대회 진행을 위하여, 은행 이름, 지점명은 X 혹은 *로 필터링 되어 제공이 됩니다.
기간 및 일정
- 제출 : 2019년 11월 21일 00:00 ~ 2020년 01월 12일 23:59
- Private ranking 공개 및 코드 제출: 2020년 01월 13일 오후 ~ 01월 20일 23:59분 (추후 수정 될 수 있음)
- 내부 평가 : 2020년 01월 21일 ~ XX월 XX일 (추후 협의)
- 시상 : 2020년 XX월 XX일 XX:00 ~ XX:00 (장소 미정, 추후 협의)
참가대상
- 별도의 자격을 요구하지 않습니다.
시상내역
- 1등 : 1,000만원, 2등 : 500만원, 3등 : 250만원, 4등 : 100만원, 5등 ~ 7등 : 각 50만원
- 총 상금 2,000만원, 총 수여 팀 수 7팀
활동내용
O 코드 관련
1) 입상자는 코드 제출 필수. 제출 코드는 예측 결과를 리더보드 점수로 복원할 수 있어야 함
2) 코드 제출시 확장자가 R user는 R or .rmd. Python user는 .py or .ipynb
3) 코드에 ‘/data’ 데이터 입/출력 경로 포함 제출
4) 전체 프로세스를 일목요연하게 정리하여 주석을 포함하여 하나의 파일로 제출
5) 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함되어야 함).
6) 코드와 주석의 인코딩은 모두 UTF-8을 사용하여야 함
O 외부 데이터 관련
1) 외부 공공 데이터 사용이 가능하나, 코드 제출 시 함께 제출
2) 공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능
3) 외부 데이터를 크롤링할 경우, 크롤링 코드도 함께 제출
O pre-training 관련
1) 기존에 공개된 pre-training model 사용이 가능하며, 이를 활용하여 최적의 결과를 만드시는 것이 가능합니다.
다만 pre-training model을 사용하실 경우, 구현 당시의 해당 환경 설정 상황, 제출 당시 사용하셨던
pre-training model을 함께 제출 하셔야 합니다.
2) 유명한 nlp pre-training model 8종을 공유해드립니다.
다목적 nlp 모델 : ULMFiT, Transformer Google’s BERT, Transformer-XL, OpenAI’s GPT-2
Word Embeddings : ELMo, Flair
기타 : StanfordNLP
10. 저작물 소유권, 알고리즘 공개 및 최종 우승자 코드
- 대회 종료 이후, 해당 알고리즘의 성능이 우수하다고 판단이 될 때,
주최인 KB금융그룹에서 해당 알고리즘을 공개할 예정입니다.
- 수상자들에게 상금이 수여된 경우, 코드 및 저작물 관련 양수양도 계약이 작성이 되며,
해당 계약이 성사된 이후, 해당 코드 및 관련 저작물의 소유권은 모두 kb금융그룹의 소유로 인정됩니다.
심사기준
- 참가자 하루 제출 횟수 3회, 평가 지표(Metric)은 AUC입니다.
평가는 다음과 같은 과정으로 이루어집니다.
A. 임시 랭킹 (Public Score) : 대회 중 test 데이터의 50%로 채점합니다.
B. 최종 랭킹 (Private Score) : Public Score에서 사용하지 않은 test 데이터의 나머지를 합하여 채점합니다.
(즉, 100%의 데이터 사용).
리더보드 운영 기간 중에는 확인할 수 없으며, 대회 종료 이후에 공개됩니다.
- 단, Private Score 는 마지막 제출 파일로 채점되므로, 참가자는 자신이 채점 받고 싶은 제출 파일을 최종적으로
갱신하여야 합니다.
순위 평가는 마지막 제출일(2020년 01월 12일 23:59분) 이후에 리더보드 운영을 종료하고, 내부 채점 및
검토 이후 공개가 되며, Private Score 랭킹이 가장 높은 참가자 7팀은 1월 20일까지 dacon@dacon.io 로
보내드린 정해진 코드 양식에 맞는 코드 파일과 내용을 설명하는 간단한 PPT(자유양식)를 제출합니다.
응모분야
빅데이터, 텍스트마이닝, 자연어처리
참가방법