공모전

.
  • 작성자
  • 작성일자
  • 조회5
  • 개요

       - kb금융그룹 사칭 스미싱 문자들로 인한 기업의 이미지 손실 우려
       - 최근 지능적인 스미싱 문자 패턴 등으로 인한 고객들의 피해증가
       - 최근 사기 패턴을 적용한 알고리즘의 구현 필요성 증가
       - 고객의 피해방지를 위한 공익목적의 알고리즘 개발 필요성


  • 주제

    - 본 대회에서는 KB금융그룹 및 KISA(한국인터넷진흥원)에서 제공받은 최근 5년간의 고객들에게 전송한 문자
      데이터 및 2019년 1월부터 9월까지 스미싱 문자로 확인이 된 문자 데이터 및 해당 날짜, 고유 ID, 스미싱 여부가
      데이터로 주어집니다.

    - 문제 및 답안 제출 : 해당 train, test.csv 파일을 활용하여, test.csv파일에서 없는 항목인 smishing 변수의
      각 예측값을 만들어내고 id별로, 해당 스미싱 문자 여부를 스미싱문자가 아니라면 0으로 표시하고,
      스미싱 문자라면 1로 표시하고 정답을 제출하여 주시면 됩니다.  


    * 주의: 제공되는 데이터에는 개인정보 보호를 위해, 개인정보로 간주될 수 있는 이름, 전화번호 및 원활한
                대회 진행을 위하여, 은행 이름, 지점명은 X 혹은 *로 필터링 되어 제공이 됩니다. 


  • 기간 및 일정

    - 제출 : 2019년 11월 21일 00:00 ~ 2020년 01월 12일 23:59
    - Private ranking 공개 및 코드 제출: 2020년 01월 13일 오후 ~ 01월 20일 23:59분 (추후 수정 될 수 있음)
    - 내부 평가 : 2020년 01월 21일 ~ XX월 XX일 (추후 협의)
    - 시상 : 2020년 XX월 XX일 XX:00 ~ XX:00 (장소 미정, 추후 협의)


  • 참가대상

    - 별도의 자격을 요구하지 않습니다.


  • 시상내역

    - 1등 : 1,000만원, 2등 : 500만원, 3등 : 250만원, 4등 : 100만원, 5등 ~ 7등 : 각 50만원

    - 총 상금 2,000만원, 총 수여 팀 수 7팀


  • 활동내용

    O 코드 관련
    1) 입상자는 코드 제출 필수. 제출 코드는 예측 결과를 리더보드 점수로 복원할 수 있어야 함
    2) 코드 제출시 확장자가 R user는 R or .rmd. Python user는 .py or .ipynb
    3) 코드에 ‘/data’ 데이터 입/출력 경로 포함 제출
    4) 전체 프로세스를 일목요연하게 정리하여 주석을 포함하여 하나의 파일로 제출
    5) 모든 코드는 오류 없이 실행되어야 함(라이브러리 로딩 코드 포함되어야 함).
    6) 코드와 주석의 인코딩은 모두 UTF-8을 사용하여야 함


    O 외부 데이터 관련
    1) 외부 공공 데이터 사용이 가능하나, 코드 제출 시 함께 제출
    2) 공공 데이터 외의 외부 데이터는 법적인 제약이 없는 경우에만 사용 가능
    3) 외부 데이터를 크롤링할 경우, 크롤링 코드도 함께 제출

     
    O pre-training 관련
    1) 기존에 공개된 pre-training model 사용이 가능하며, 이를 활용하여 최적의 결과를 만드시는 것이 가능합니다.
        다만 pre-training model을 사용하실 경우, 구현 당시의 해당 환경 설정 상황, 제출 당시 사용하셨던
         pre-training model을 함께 제출 하셔야 합니다.

    2) 유명한 nlp pre-training model 8종을 공유해드립니다.
        다목적 nlp 모델 : ULMFiT, Transformer Google’s BERT, Transformer-XL, OpenAI’s GPT-2
        Word Embeddings : ELMo, Flair
        기타 : StanfordNLP


    10. 저작물 소유권, 알고리즘 공개 및 최종 우승자 코드
    - 대회 종료 이후, 해당 알고리즘의 성능이 우수하다고 판단이 될 때,
      주최인 KB금융그룹에서 해당 알고리즘을 공개할 예정입니다.
    - 수상자들에게 상금이 수여된 경우, 코드 및 저작물 관련 양수양도 계약이 작성이 되며,
      해당 계약이 성사된 이후, 해당 코드 및 관련 저작물의 소유권은 모두 kb금융그룹의 소유로 인정됩니다.


  • 심사기준

    - 참가자 하루 제출 횟수 3회, 평가 지표(Metric)은 AUC입니다.
     
      평가는 다음과 같은 과정으로 이루어집니다.

    A. 임시 랭킹 (Public Score) : 대회 중 test 데이터의 50%로 채점합니다.
    B. 최종 랭킹 (Private Score) : Public Score에서 사용하지 않은 test 데이터의 나머지를 합하여 채점합니다.
                                                  (즉, 100%의 데이터 사용).
     
       리더보드 운영 기간 중에는 확인할 수 없으며, 대회 종료 이후에 공개됩니다.

    -  단, Private Score 는 마지막 제출 파일로 채점되므로, 참가자는 자신이 채점 받고 싶은 제출 파일을 최종적으로
       갱신하여야 합니다.

      순위 평가는 마지막 제출일(2020년 01월 12일 23:59분) 이후에 리더보드 운영을 종료하고, 내부 채점 및
      검토 이후 공개가 되며, Private Score 랭킹이 가장 높은 참가자 7팀은 1월 20일까지 dacon@dacon.io 로
      보내드린 정해진 코드 양식에 맞는 코드 파일과 내용을 설명하는 간단한 PPT(자유양식)를 제출합니다.


  • 응모분야

    빅데이터, 텍스트마이닝, 자연어처리


  • 참가방법

       홈페이지 : https://dacon.io/cpt14
       이 메 일 : dacon@dacon.io 

       https://dacon.io/cpt14로 지원


김성환
LV.1