Parametryczne t-SNE dla czasowej, multimodalnej analizy emocji

Parametryczne t-SNE dla czasowej, multimodalnej analizy emocji

Wizualizacja rozpoznawania emocji z parametrycznym t‑SNE

Parametryczne t‑SNE i „przestrzeń emocji” do porównań modeli temporalnych.

PythonPythonKerasParametric t-SNE

Opis projektu

Celem badań było lepsze zrozumienie modeli rozpoznawania emocji poprzez wizualizację wyników nietemporalnych i temporalnych.

Przegląd

Wraz z rozwojem ML i dostępnością danych pojawia się wiele modeli rozpoznawania emocji. Większość z nich opiera się na 6 podstawowych emocjach Paula Ekmana i przewiduje 6 wartości jednocześnie.

Łączenie wielu modalności utrudnia interpretację wyników i otwiera możliwość lepszych technik wizualizacji, które pomagają w zrozumieniu działania modeli.

Wprowadzamy pojęcie przestrzeni emocji i nakładamy na nią informację temporalną, co pozwala porównywać modele i źródła danych. Wyniki prezentujemy m.in. dla modeli KNN i LSTM trenowanych na CMU MOSEI.

Projekt powstał na kursie Cognitive Science.

Szczegóły techniczne

Przestrzeń emocji tworzymy przez osadzenie 6‑wymiarowego stanu emocji do 2D za pomocą parametrycznego t‑SNE. Odzwierciedla to relacje między emocjami w danych treningowych.

Przestrzeń emocji
Przestrzeń emocji

Kluczowe jest użycie parametrycznego t‑SNE – wytrenowana sieć pozwala mapować nowe próbki do tej samej przestrzeni, co umożliwia wizualizację predykcji modeli.

Przykład wizualizacji
LSTM minimalizuje MSE, rozróżniając głównie happy/not‑happy

Przykładowo model LSTM osiąga lepsze MAE od KNN, ale wizualizacja pokazuje, że uczy się głównie rozróżniać happy/sad. Raport dostępny jest tutaj.

Mój wkład

Byłem autorem pomysłu, pracowałem z parametrycznym t‑SNE i trenowałem model LSTM na wielu modalnościach.