Uwaga wzrokowa w rozpoznawaniu obiektów

Uwaga wzrokowa w rozpoznawaniu obiektów

Eye‑tracking i wizualizacja uwagi w rozpoznawaniu obiektów

Porównanie uwagi CNN z uwagą człowieka (eye‑tracking).

PythonPythonCNNTensorflowKerasEye-tracking

Opis projektu

Celem projektu było porównanie tego, jak sieci CNN i ludzie postrzegają świat, analizując obszary uwagi podczas rozpoznawania obiektów.

Przegląd

Rozwój mechanizmów uwagi w ML pozwala modelować proces koncentracji uwagi w komputerze. W projekcie z kognitywistyki sprawdzaliśmy, czy model zwraca uwagę na te same obszary co człowiek, oraz czy dane eye‑tracking pomagają w trenowaniu modelu.

Projekt realizowany w ramach kursu Cognitive Science na University of Copenhagen.

Szczegóły techniczne

Wykorzystujemy POET dataset z danymi eye‑tracking dla ponad 6 tys. obrazów i 10 klas.

Punkty fiksacji oka
Mapy cieplne uwagi
Źródło: http://calvin.inf.ed.ac.uk/datasets/poet-dataset/

Projekt dzieli się na kilka części badających relacje między uwagą człowieka i modelu:

  1. Standardowy CNN z global pooling i mapami aktywacji klas (reference).
  2. CNN z mechanizmem uwagi (reference).
  3. Wykorzystanie danych eye‑tracking do poprawy uczenia.

Wyniki

Raport końcowy dostępny jest tutaj.

Mój wkład

Byłem autorem pomysłu i opracowałem podejście. Zaproponowałem nowe metody wizualizacji uwagi człowieka na podstawie danych eye‑tracking.

Zbudowałem model soft‑attention w Tensorflow oraz rozszerzyłem otwarty model CAM. Porównałem mechanizmy uwagi z ludzką uwagą używając PCC.