Pulp Fiction – analiza filmu

Jak dobrze znacie Pulp Fiction? Ja widziałem ten film chyba ze 20 razy. Ciekawe jak widzi go maszyna… Jeśli nie oglądaliście jakimś cudem filmu uprzedzam – poniżej są spoilery. Nawet maszyna je wychwyciła ;)

Zajmiemy się analizą scenariusza. Podobnie jak było z twittami przy Oscarach – nie będziemy go czytać (no, prawie – do uporządkowania danych przyda się znajomość filmu – jak widać poniżej wskazuję konkretne linijki), pozwolimy na mechaniczną analizę.

Na początek potrzebny będzie tekst scenariusza. Jest kilka serwisów, na których można znaleźć takie rzeczy, wczytajmy więc gotowy tekst. Potrzebujemy tekstu angielskiego – w drugiej części wpisu pokusimy się o analizę emocjonalną tekstu, a tutaj o polskie słowniki trudno. Trudno byłoby też pewnie znaleźć przetłumaczony scenariusz.

Najtrudniejszą (i najnudniejszą jednocześnie) pracą analityka jest czyszczenie danych. Trzeba je rozumieć, znać ich znaczenie i format, wiedzieć jak powinny wyglądać, a czasem naprawiać – coś usunąć albo dodać. Albo uśrednić. 3/4 czasu pracy analityka to takie za przeproszeniem rzeźbienie w wiadomo czym.

Mamy “ramkę danych” z tekstem i przygotowanymi kolumnami na oznaczenie numeru sceny i bohatera wypowiadającego kwestię (to będziemy analizować w drugiej części).

W scenariuszu są miejsca – przy czarnych planszach z nazwami rozdziałów – w których brakuje jasnej informacji (dla maszyny – dla osoby czytającej tekst jest to zrozumiałe) o rozpoczęciu nowej sceny. Musimy dodać to odpowiednio podmieniając wiersz tekstu.

W Hollywood obowiązuje określony szablon scenariusza opisujący przede wszystkim lewe marginesy dla odpowiednich części tekstu. Dzięki temu pójdzie nam dość łatwo.

Wiersz po wierszu “czytamy” scenariusz dodając odpowiednie znaczniki, całość sprowadza się do:

  • oznaczenia linii niepotrzebnych (to co nie jest wypowiadaną kwestią)
  • oznaczenia numerów scen
  • oznaczenia postaci wypowiadających kwestie
  • oczyszczenia skryptu z linii niepotrzebnych

Odpowiednio oznakowany scenariusz czyścimy ze zbędnych linii:

Lance i Vincent w kluczowym momencie z Mią i strzykawką krzyczą razem – jedna linijka tekstu, a zaburza później grafy ;) dlatego to wycinamy powyżej.

Niektóre imiona pojawiają się dopiero w dalszych częściach sceny lub w kolejnych scenach, ale wiemy kto je wypowiada, więc możemy odpowiednio przypisać słowa

Osoby, które mówią z offu zmieniamy na “normalne” wypowiedzi (bo to bez znaczenia czy z offu czy nie).

Scenariusz mamy oczyszczony i przygotowany do analizy. Na początek zobaczmy kto gra w której scenie?

Skoro już to wiemy, to zobaczmy to:

Widać tutaj kolejne bloki fabularne (wiem, bo znam film):

  • Pumpkin i Honey Bunny w barze, scena otwierająca
  • Vincent i Jules odwiedzają mieszkanie w poszukiwaniu walizki Marcellusa
  • Vincent odwiedza Lance’a, kupuje co trzeba na wieczór
  • Vincent spotyka się z Mią. Widać tutaj, że w scenach 23-27 nikt niczego nie mówi (można to sprawdzić w oryginalnym scenariuszu z oznaczonymi numerami scen – tabela script). To sekwencja przed wyjściem Mii i Vincenta do “Jack Rabbit Slim’s”
  • Mia ląduje z Vincentem u Lance’a
  • historia o zegarku (kapitan Koons)
  • Butch, długo o nim – najpierw z Esmereldą, potem z Fabienne, potem potrącenie pieszego
  • na chwilę wpada też Zed, na chwilę, z kolegami
  • wracamy do mieszkania, żeby zobaczyć jak skończyły się odwiedziny Vincenta i Julesa, chwilę później już jesteśmy w mieszkaniu Jimmy’ego
  • do mieszkania Jimmy’ego z pomocą przyjeżdża Mr. Wolf
  • sprzątanie i na koniec trafiamy do baru z Pumpkin i Honey Bunny

A z kim wchodzi w interakcję? To widać już po tym gdzie postacie występują razem. Spróbujmy do tego podejść inaczej – budując graf. Grafy to bardzo ciekawe struktury, wykorzystywane w wielu dziedzinach. Dla niezaznajomionych z tematem – na początek Wikipedia.

Na początek potrzebujemy tabeli gdzie dla każdej sceny będziemy mieć wszystkie pary osób w niej występujących.

Dalsza praca to biblioteka do manipulacji grafami – igraph. Zróbmy graf (nieskierowany – nie ma znaczenia kto do kogo mówi, a nawet jeśli – nie jesteśmy tego w stanie na poziomie suchego tekstu wychwycić maszynowo).

Zobaczmy jak ten graf wygląda (i co to w ogóle jest).

Nie wygląda to za ciekawie. W sensie jest brzydkie. Spróbujmy jakoś wyróżnić wierzchołki grafu, trochę pozmieniać wielkość napisów.

Pozwolimy R zakwalifikować każdy z wierzchołków do jakiejś grupy i na tej podstawie go pokolorujemy. O szczegółach przypisania do grupy możecie doczytać w opracowaniach dotyczących teorii grafów.

Co tutaj widać? W połączeniu z “planem występów” z poprzedniego wykresu mamy cały film. Graf wyraźniej pokazuje nam interakcje bohaterów między sobą. Spójrzmy na poszczególne grupy bohaterów.

Grupa pierwsza:

group person
1 BUTCH
1 MARSELLUS
1 ENGLISH DAVE
1 ESMARELDA
1 FABIENNE
1 MOTHER
1 CAPT. KOONS
1 KLONDIKE
1 PEDESTRIAN
1 GAWKER #1
1 GAWKER #2
1 LOOKY-LOO WOMAN

Czyli to co dzieje się wokół Butcha. Jest Fabienne, jest Esmarelda (pani z taksówki), jest historia o zegarku. Wpadł też tutaj Marcellus, chociaż mógł równie dobrze wpaść do innej grupy.

Ostatnie cztery osoby na powyższej liście to uczestnicy jednej sceny, która zmienia fabułę filmu (wypadek samochodowy) – Marcellus zauważa Butcha – i to widać na grafie: te osoby są połączeni z dwoma panami.

Grupa druga:

group person
2 VINCENT
2 JULES
2 THE WOLF
2 JIMMIE
2 PUMPKIN
2 HONEY BUNNY
2 MARVIN
2 MANAGER
2 BRETT
2 WAITRESS
2 ROGER
2 WINSTON
2 RAQUEL
2 PATRON
2 YOLANDA
2 FOURTH MAN

Vincent i Jules i wydarzenia z nimi związane. Panowie od walizki Marcellusa i kłopoty jakie z tego wniknęły (Mr. Wolf w mieszkaniu Jimmy’ego). A do tego Pumpkin i Honey Bunny, bo przecież ostatnia scena łączy ich z Vincentem i Julesem.

Vincent mógł pojawić się w grupie z Butchem, ale potrzebowaliby zamienić ze sobą kilka słów, w kilku dodatkowych scenach.

Grupa trzecia:

group person
3 MIA
3 LANCE
3 JODY
3 TRUDI
3 PREACHER (EMIL SIMKUS)
3 BUDDY
3 ED SULLIVAN

Mia i jej przygody związane z towarem od Lance’a. Plus kelnerzy z Jackrabbit Slim’s.

Grupa czwarta do której mógłby należeć także Marcellus i Butch to trójca:

group person
4 MAYNARD
4 ZED
4 THE GIMP

Na grafie widać, że tych trzech panów łączy z Marcellusem postać Butcha.

Na koniec pozostali, jako oddzielna grupa (widać na grafie, że nie wchodzą w interakcję z nikim innym) – sprawozdawcy sportowi słyszani w radio, w taksówce Esmareldy.

Czas na analizę kwestii – o czym się mówi i jak się mówi?

Najpierw rozdzielimy (bardzo wygodna biblioteka tidytext) wszystkie kwestie na bi-gramy, czyli dwuwyrazowe ciągi. Przykład takiego rozdzielenia to:

  • dla zdania “Lubię oglądać filmy przyrodnicze” wszystkie bi-gramy to:
  • lubię oglądać
  • oglądać filmy
  • filmy przyrodnicze

co tu się wydarzyło? Rozdzieliliśmy kwestie na bi-gramy. Później każdy z bi-gramów na pojedyncze słowa, żeby odfiltrować (słowo pierwsze i drugie z osobna) śmieci, tak zwane stop words (bibliotek tidytext zawiera ich 728) – słowa, które nie niosą żadnych emocji. Po odfiltrowaniu łączymy to co zostało.

Tak wyglądają najpopularniejsze (najczęściej występujące) słowa wypowiadane w Pulp Fiction:

Bez filtrowania stop words dostajemy masę nieistotnych śmieci:

Zobaczmy jeszcze nasze bigramy (te odfiltrowane) w innym układzie, dość standardowym.

Królem (tutaj to widać wyraźniej) jest “foot massage”. Wszystko przez jedną, monotematyczną scenę. Widać też kluczowe kwestie tego filmu: “adrenaline shot”, “marsellus wallace” czy też “dead nigger” albo “fuckin’ dead”.

Sprawdźmy z ciekawości tri-gramy:

Ezekiel 25:17. To wszystko. Reszta przypadkowo.

 

A najpopularniejsze pojedyncze słowa? Na ich podstawie policzymy coś ciekawego.

Fuck, shit, ass, dead. No ten film raczej nie jest pozytywny, prawda? Tak przynajmniej wynika z używanego słownictwa.

Kurt Vonnegut wygłosił kiedyś pewien wykład, o tym że wszystkie historie mają jakiś charakterystyczny przebieg. Sami zobaczcie:

Podzielmy scenariusz na pojedyncze (tylko znaczące – bez stop words) słowa:

Teraz spróbujmy narysować to, o czym mówi Vonnegut. Każdemu ze słów przypiszmy sentiment czyli wartość liczbową opisującą ładunek emocji. Ujemną dla słów negatywnych, dodatnią dla pozytywnych.

Krwawo jest. Albo inaczej – nie jest miło. Język Pulp Fiction jest nieprzyjazny, raczej pesymistyczny.

Są jednak wyjątki – poszukajmy ich.

scene sentiment
4 1.333333
20 1.000000
32 0.360000
34 0.250000
52 1.125000
87 1.000000
88 1.000000
89 0.800000
91 2.000000
93 0.250000
94 1.111111

Najbardziej “pozytywna” scena to według analizy scena 91:

Powód tak “pozytywnej” oceny to słowa (te, które zostały po oczyszczeniu i mają przypisaną wartość emocjonalną):

person word score
THE WOLF fine 2
THE WOLF clean 2
THE WOLF clean 2

Jak widać słów zostało mało i to same pozytywne. Niestety to jest ułomność tej metody. Można próbować analizować całe zdania zamiast pojedynczych słów. Są narzędzia, które na to pozwalają.

Sprawdźmy jak zmienił się sentiment dla kwestii wypowiadanych przez jedną postać na przestrzeni filmu. Na przykład Mia Wallace:

Wszystko było dobrze do sceny 29 (wówczas było nalepiej). To scena w Jackrabbit Slim’s. Z analizy wynika, że Mia używa całej masy niepotrzebnych słów poza jednym (z maksymalną wartością emocji pozytywnych) – love. Robi wynik.

W scenie 32 Mia używa mniej więcej w równym stopniu słów pozytywnych i negatywnych, ale negatywne są “silniejsze”: killing, worse, boring (w porównaniu do pretty, smart, win).

Na koniec jeszcze jedna rzecz – kto jest tym dobrym, a kto tym złym? Czy da się to określić na podstawie wypowiadanych kwestii? Użyjemy też analizy pojedynczych słów, ale skorzystamy z innego słownika (NRC zamiast AFINN) do opisania emocji poszczególnych słów. Słownik ten zamiast pojedynczej wartości zwraca wartość określającą jak bardzo słowo pasuje do jednej z kategorii (emocji).

Jak widać wszyscy są negatywni. Mówią brzydko, bo to oznacza “są negatywni”. Taki urok filmów Tarantino.

Zobaczmy dokładnie, kto pasuje do której emocji – po uśrenieniu całego filmu:

Otrzymujemy listę tych pozytywnych, negatywnych i strasznych:

  • positive
    • BUTCH
    • MIA
    • THE WOLF
    • WINSTON
  • negative
    • BUDDY
    • ESMARELDA
    • FABIENNE
    • HONEY BUNNY
    • JIMMIE
    • JODY
    • JULES
    • ANCE
    • MARSELLUS
    • MAYNARD
    • PUMPKIN
    • VINCENT
  • fear
    • CAPT. KOONS

Opowieść o zegarku jest według takiej metody straszna. No trochę jest.

Wpis te powstał po inspiracji popularnym (przy tego typu zagadnieniach) poście o analizie “Love Actually”.

Wczoraj zaś znalazłem świeżutką, analogiczną analizę wszystkich części “Władcy Pierścieni”. Polecam.

Dodaj komentarz