Speaker Recognition Contest

개인 목표 : Pytorch와 친해지고 최신 논문들을 구현해 보는데 의의를 두고 참가를 하였다.

대회 목적 : 두개의 음성이 같은 화자인지 아닌지 구분하는 Task

대회 결과 :

본선1에서 13등, 본선2에서 5등으로 통과하여 결승에 진출.

아쉽게도 본선에서 9등으로 마무리 하였다

기간 : 2021.10.03 - 2021.11.31

참가인원 : 2명

과정 : 예선 -> 본선 -> 결승

데이터 타입 : wav(비정형)

하드웨어(클라우드) : Naver Systems, NVIDIA TITAN 32G

배운점 : Pytorch, metric learning, siamese method / 새로운 시스템에 적응하는법

코드

github

본선 : 5등

처음 음성데이터를 다루어보며 가장 어려웠던 점은 wav파일을 정형으로 바꾸는 전처리 방법에 있었다. wav에서 정형으로 바꾸는 방법으로 사람이 만든 Feature extraction방법과, end-to-end로 처리하는 방법 두가지가 있다. 사람이 만든 Feature Extraction방법으로 푸리에변환, ShortTimeFourier, mel-spectrogram등 매우 많은 방법론이 존재하여 선택에 어려움을 느꼈다. 본선에서는 보편적으로 쓰는 방법인 Mel-spectrogram을 전처리로 사용을 하였다.

처음 생각한 모델은 두 화자의 데이터를 시간축으로 concat을 하고, transformer의 encoder구조로 attention을 해가며 feature를 extraction하는 방법을 생각했지만, 학습이 이루어 지지 않아 다른 방법론을 생각해야 했다. Mel-spectrogram을 이미지로 생각하고 ResNet으로 feature를 추출한뒤 두 화자를 비교해보면 좋지 않을까 라는 생각을 하였다. 나중에 알았지만 이러한 방법을 Siamese Neural Networks라는 방법이었다. 결론적으로 이 모델로 본선에서 5등을 하였다.

어려웠던 점 :

불친절한 NSML document로 네이버 클라우드 NSML에 적응하는데 상당한 시간을 소비하여, 깊이있는 공부를 하지는 못하였다.