헬창 개발자

[졸업 프로젝트] 감정 -2- 본문

프로젝트

[졸업 프로젝트] 감정 -2-

찬배 2023. 2. 3. 21:33

저번 포스팅에서는 VAD 데이터를 학습한 언어모델과 얼굴 정보를 인식하는 영상모델을 통해 멀티모달을 구현한다고 하였습니다. 아래 그림은 이번 프로젝트에서 제안하는 시스템 구조입니다.

음성 추출

음성 추출 단계에서는 사용자의 음성정보를 텍스트로 바꾸기위해 STT(Speech to Text)를 사용한다. 이는 구글 API를 이용하여 구현합니다.

 

텍스트 감정 인식 모델

텍스트로 변환된 음성정보의 감정을 인식하기 위해서는 VAD 데이터를 학습한 언어 모델이 필요합니다. 모델 학습은 BERT를 이용하여 학습을 하며 데이터셋은  vad lexicon 데이터셋을 활용 합니다. 이 데이터셋은 단어를 VAD의 대한 지표 계산한 데이터 입니다.

https://saifmohammad.com/WebPages/nrc-vad.html

 

Saif | VAD Lexicon

Papers Obtaining Reliable Human Ratings of Valence, Arousal, and Dominance for 20,000 English Words. Saif M. Mohammad. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics, Melbourne, Australia, July 2018. Paper (pdf)

saifmohammad.com

 

표정 추출 및 감정 인식

OpenCvCNN으로 구현된 모델을 사용 합니다.

Comments