Zrozumieć decyzje algorytmów – wyjaśnialność sztucznej inteligencji

17.09.2024 | Teresa Kulawik

Modele AI przedstawiane są często jako czarne skrzynki, a ich działanie owiane jest tajemnicą, jednak możliwość wyjaśnienia, jak działają i dlaczego zwracają takie, a nie inne wyniki, jest niezwykle ważna. Powodów jest wiele – chcemy nie tylko zaspokoić ciekawość oraz budować zaufanie wśród użytkowników, ale również poprawiać jakość modeli oraz wykrywać nieprawidłowości w ich działaniu. Co więcej, ze względu na wymagania regulacyjne, w niektórych zastosowaniach wyjaśnialność wyników staje się wręcz koniecznością. 

Wyjaśnialość a interpretowalność modeli

Czy wyjaśnialność jest tym samym, co interpretowalność modeli? Te określenia nie są tożsame, ponieważ interpretowalność odnosi się do algorytmów, które ze swojej natury są przejrzyste. Przykładem może być regresja liniowa – po wytrenowaniu modelu otrzymujemy równanie, którego interpretacja jest prosta. Wiemy, jak zmienne wpływają na otrzymywane wyniki, ponieważ ich wpływ jest określony wagami. Większość współczesnych rozwiązań AI jest jednak na tyle złożona, że nie jesteśmy w stanie prześledzić ich „rozumowania”. W odpowiedzi na potrzebę wyjaśnialności powstają więc liczne techniki pozwalające przybliżyć, co dzieje się w modelu.

Dzielą się one na dwie grupy, pod kątem obsługiwanych modeli:

  • specyficzne (ang. model-specific) –  przeznaczone dla modeli danej klasy, np. sieci neuronowych,
  • agnostyczne (ang. model-agnostic) – działające dla dowolnych modeli, niezależnie od ich rodzaju, jak omówione poniżej metody SHAP i LIME,

a z innego punktu widzenia – na techniki:

  • lokalne – pozwalające wyjaśnić konkretną predykcję (tj. wynik otrzymany z modelu),
  • globalne – wyjaśniające zachowanie modelu, jako całości.

Aby rozjaśnić te koncepcje, omówię dwie techniki SHAP oraz LIME, które można użyć uniwersalnie, niezależnie od klasy modelu. Obydwie metody są technikami lokalnymi, natomiast, jeśli zastosujemy je na większym zbiorze predykcji, możemy przybliżyć za ich pomocą działanie modelu, jako całości.

Mechanizm ich działania w uproszeniu składa się z kroków:

  • wybierz predykcję, którą chcesz wyjaśnić i dokonaj pewnych zmian w danych, na bazie których ta predykcja była wykonana,
  • wykonaj predykcję na zmienionych danych,
  • następnie sprawdź, jak wprowadzone zmiany wpływają na predykcje.

LIME (Local Interpretable Model-Agnostic Explanations)

LIME jest techniką, która opiera się na użyciu prostszego, interpretowalnego modelu (np. regresji liniowej) i wyjaśnieniu za jego pomocą predykcji modelu bardziej złożonego. Podstawowe założenie jest takie, że o ile globalnie (dla całego zbioru) granice decyzyjne są skomplikowane, o tyle lokalnie (tj. w obszarze bliskim konkretnej predykcji) jesteśmy w stanie je przybliżyć prostszym modelem.

Aby zobrazować różnice pomiędzy globalnymi i lokalnymi granicami decyzyjnymi, posłużmy się poniższym wykresem.

 

 

Na powyższym rysunku kropkami oznaczone są obserwacje, opisywane przez dwie cechy (osie), a za pomocą kolorów ich przypisanie do jednej z dwóch klasy. Kolorem fioletowym oznaczono globalne granice decyzyjne modelu: jeśli nowa obserwacja znajdzie się w tym obszarze, zostanie zaklasyfikowana do klasy pierwszej, a jeśli poza nim, to do klasy drugiej. Granice decyzyjne są trudne do opisania globalnie, natomiast lokalnie możemy je przybliżyć.  Na przykład, dla obserwacji zaznaczonej strzałką, lokalne przybliżenie granic decyzyjnych oznaczono przerywaną linią.

Aby uzyskać takie lokalne przybliżenie za pomocą interpretowalnego modelu, wykorzystujemy właśnie algorytm LIME, który w uproszczeniu wygląda następująco:

  • wybierz konkretną obserwację, dla której wykonujemy predykcję,
  • wygeneruj nowe punkty danych, podobne do wybranej obserwacji, ale z drobnymi zmianami,
  • wyznacz predykcje modelu dla nowych punktów danych,
  • nadaj poszczególnym punktom wagi, tym wyższe, im bardziej podobne są one do punktu wybranego na początku,
  • użyj nowych punktów (z uwzględnieniem wag) i predykcji dla nich, aby wytrenować prostszy, interpretowany model.

SHAP (SHapley Additive exPlanations)

SHAP wywodzi się od tzw. Wartości Shapley’a i swoimi korzeniami sięga dziedziny matematyki zwanej teorią gier. Zadaniem tych wartości jest określenie wkładu w wygraną poszczególnych członków zespołu, co umożliwia sprawiedliwy podział nagrody z uwzględnieniem kontrybucji każdego z członków drużyny. Kontrybucja ta jest liczona, jako wkład każdej z osób, z uwzględnieniem interakcji między nimi, na przykład tego, czy dopiero współpraca dwóch osób powoduje wypracowanie wartości lub sytuacji odwrotnej, gdy ich praca jest zduplikowana. 

Dokładnie tak samo jest ze zmiennymi modelu: czasami mogą wnosić dużą wartość do predykcji, kiedy współwystępują, a czasami się duplikować. Żeby policzyć ich wkład, symulujemy scenariusze, gdzie tylko niektóre zmienne są obecne i dla każdego ze scenariuszy obliczamy predykcję. Dzięki temu wiemy, które zmienne najbardziej wpływają na wynik.

Którą metodę wybrać?

Żadna z technik, LIME ani SHAP, nie jest jednoznacznie lepsza od drugiej i obydwie metody w różny sposób podchodzą do kwestii wyjaśnialności, więc ich wyniki czasem mogą się różnić pomiędzy sobą.

Dlatego, w wielu sytuacjach, najlepszym podejściem będzie zastosowanie obu tych metod w celu uzyskania pełniejszego obrazu. Ich kombinacja pozwala na wykorzystanie ich mocnych stron i minimalizowanie ograniczeń, co prowadzi do bardziej wszechstronnych i wiarygodnych wyjaśnień.

W miarę jak technologia AI będzie wykorzystywana coraz szerzej, w szczególności w obszarach związanych z bezpieczeństwem, zdrowiem, finansami, wyjaśnialność wyników będzie coraz bardziej nabierać znaczenia. Dlatego warto inwestować w zrozumienie i implementację tych technik, aby zapewnić, że nasze modele będą nie tylko skuteczne, ale także przejrzyste i godne zaufania.