
Parametryczne t-SNE dla czasowej, multimodalnej analizy emocji
Wizualizacja rozpoznawania emocji z parametrycznym t‑SNE
Parametryczne t‑SNE i „przestrzeń emocji” do porównań modeli temporalnych.
Opis projektu
Celem badań było lepsze zrozumienie modeli rozpoznawania emocji poprzez wizualizację wyników nietemporalnych i temporalnych.
Przegląd
Wraz z rozwojem ML i dostępnością danych pojawia się wiele modeli rozpoznawania emocji. Większość z nich opiera się na 6 podstawowych emocjach Paula Ekmana i przewiduje 6 wartości jednocześnie.
Łączenie wielu modalności utrudnia interpretację wyników i otwiera możliwość lepszych technik wizualizacji, które pomagają w zrozumieniu działania modeli.
Wprowadzamy pojęcie przestrzeni emocji i nakładamy na nią informację temporalną, co pozwala porównywać modele i źródła danych. Wyniki prezentujemy m.in. dla modeli KNN i LSTM trenowanych na CMU MOSEI.
Projekt powstał na kursie Cognitive Science.
Szczegóły techniczne
Przestrzeń emocji tworzymy przez osadzenie 6‑wymiarowego stanu emocji do 2D za pomocą parametrycznego t‑SNE. Odzwierciedla to relacje między emocjami w danych treningowych.
Kluczowe jest użycie parametrycznego t‑SNE – wytrenowana sieć pozwala mapować nowe próbki do tej samej przestrzeni, co umożliwia wizualizację predykcji modeli.

Przykładowo model LSTM osiąga lepsze MAE od KNN, ale wizualizacja pokazuje, że uczy się głównie rozróżniać happy/sad. Raport dostępny jest tutaj.
Mój wkład
Byłem autorem pomysłu, pracowałem z parametrycznym t‑SNE i trenowałem model LSTM na wielu modalnościach.