Oscar 2017 „Best Picture” – kto wygra?

Czy da się wytypować zdobywcę Oscara za pomocą matematyki?

Spróbujmy odpowiedzieć na tak postawione pytanie. I sprawdźmy, czy model oparty na dostępnych danych wskaże faworyta “La la land” jako zwycięzcę w kategorii “Najlepszy film”.

Na początek rozważmy czego możemy się dowiedzieć z ogólnodostępnych źródeł? Weźmy na przykład bazę filmów z serwisu IMDb.com. Mamy tam takie informacje:

  • średnia głosów społeczności
  • ilość oddanych głosów
  • mamy ocenę krytyków (wskaźnik MetaScore)
  • informacje o obsadzie, reżyserze, gatunku
  • informacje o czasie trwania
  • koszt (budżet) filmu
  • mamy przychód z kin – w weekend otwarcia oraz całkowity
  • wreszcie – wiemy czy film zdobył Oscara wcześniej czy nie (w odpowiednim roku)

Spróbujmy zatem na początek pobrać potrzebne informacje wprost z IMDb.com.

Te biblioteki nam się przydadzą:

Żeby coś widzieć w danych, najpierw te dane trzeba zgromadzić.
Poniższa funkcja pobierze informacje o nominacjach oraz wygranych w kategorii “Best Picutre” wprost ze stron IMDb.com. Na początek wystarczą nam linki do stron poszczególnych filmów:

Skoro mamy gotową funkcję – możemy pobrać z jej pomocą informacje z kolejnych edycji Oscarów. W przykładzie ograniczamy się do lat 2000-2016.

Dlaczego tylko tyle? Kino w XXI wieku jest nieco inne niż na przykład w latach siedemdziesiątych XX wieku. Osobiście uważam, że filmy oskarowe z lat ’70 (pierwsza i druga część “Ojca chrzestnego”, “Żądło”, “Lot nad kukułczym gniazdem”, “Annie Hall” czy “Łowca jeleni”) czy też ’80 (“Amadeusz”, “Gandhi”, “Pluton”, “Ostatni cesarz”) są zdecydowanie inne, żeby nie powiedzieć “ambitniejsze” od tych z ostatnich kilkunastu lat (lata ’90: “Angielski pacjent”, “Zakochany Szekspir”; XXI wiek: “Argo” wygrywające z “Miłością” Hanekego, “Jak zostać królem” rzekomo lepsze od “Czarnego łabędzia” czy “Prawdziwego męstwa”).

Kino jest coraz bardziej rozrywką (Oscar dla “Władcy pierścieni”), a Hollywood daje temu wyraz. To nagrody europejskie (Cannes, Berlin, Wenecja) doceniają artyzm, co świetnie spuentował Woody Allen w zakończeniu “Koniec z Hollywood”: “The French saw your movie in Paris. They say it’s the greatest American film in 50 years!” (a jeśli znacie film, który powstał w filmie Allena to łapiecie dowcip).

OK, ale koniec dygresji – do pobierania!

Uwaga – jeśli chcemy pobrać lata wcześniejsze (np. wszystkie edycje nagrody – od 1929 roku) trzeba uważać na niespodzianki. Są dwie:

  • w 1930 były dwie edycje rozdania nagród, informacje są na stronach z końcówką “/1930-1” i “/1930-2” zamiast (jak w innych przypadkach) “/1930”
  • w 1933 roku nie było Oscarów – ten rok trzeba pominąć

Z takimi wyjątkami powyższy fragment kodu będzie bardziej rozbudowany:

Warto pobrać te dane i przeanalizować w podobny (jak poniżej) sposób. Wychodzą ciekawostki.

Kiedy mamy już linki do wszystkich filmów z oznaczeniem czy film wygrał w kategorii “Best Picture” oraz w którym to było roku – warto uzupełnić linki do pełnego adresu URL. Na stronie linki są w postaci względnej (chociaż nie zawsze).

Mamy historię, ale co z nominowanymi w 2017 roku? To dodajmy ręcznie. Ręcznie wyszukałem te filmy i wpisałem je poniżej.

Mamy “namiary” na wszystkie interesujące nas filmy. Czas zdobyć ich “dane szczegółowe”. Posłużymy się poniższą funkcją, którą wywołamy 122 razy (tyle ile mamy filmów).

Uff – mamy czym pobierać dane o filmach. Czas to zrobić, co trochę potrwa.

Po wykonaniu tej pętli zgromadzimy ciekawe dane, ale tabela jest bardzo szeroka, więc jej nie pokażę :)

 

Co widać w tych danych? Uwaga, wreszcie jakieś obrazki!

Na początek zobaczmy jak oceniane przez społeczność IMDb.com są filmy, które zdobyły Oscara.

Widać, że lepiej oceniane są filmy z Oscarem. Czyli nagroda odpowiada gustom publiczności, co potwierdza tezę, że Oscar to nagroda dla kina rozrywkowego.

A jak mają się do nagrody informacje o pieniądzach?

Najpierw budżet:

Filmy z Oscarem są ostatnio tańsze w produkcji – taka tendencja widoczna jest od 2008 roku. Czyli Akademia preferuje kino kameralne nad blockbustery? Sprawdźmy to po przychodach:

  • z weekendu otwarcia:

  • i z całkowitego przychodu:

Widzieliśmy już, że publiczność wyżej ocenia filmy Oscarowe. A krytycy (oceny MetaScore)?

 

Co się stanie 26 lutego 2017?

Spróbujmy teraz przewidzieć który film wygra w kategorii “Best Picture”. Zbudujemy model typu random forest zasilony danymi z lat 2000-2016.

Najpierw (jak to w modelach) jednak trzeba podzielić dane na część uczącą i testową – próbką treningową będą poprzednie lata, zaś predykcję będziemy robić na roku 2017. Podział trochę szalony – 94% to dane treningowe, tylko 6% to dane testowe. Zazwyczaj jest to 80:20 albo 70:30 – może to prowadzić do nadmiernego dopasowania modelu. Nie wykorzystamy jednak wszystkich zgromadzonych danych (typu obsada czy reżyser lub scenarzysta). Porządny model powinien brać pod uwagę kilka innych czynników (na końcu znajdziecie linki do innych opracowań na ten sam temat, biorących pod uwagę inne dane), ale jak zobaczymy – to się sprawdza całkiem nieźle (random forest zazwyczaj sprawdza się nieźle – o tym będzie innym razem).

Zbudujemy model. Banalnie – wywołując po prostu jedną fukncję. Będziemy przewidywać wartość “Won” na podstawie pozostałych danych.

Przy okazji, sprawdźmy jakie znaczenie w modelu mają poszczególne dane opisujące film:

Jak widać ważne są przede wszystkim:

  • liczba głosów na IMDb.com – czyli popularność filmu
  • średnia ocena użytkownikóW IMDb.com
  • przychód – zarówno całkowity jak i z weekendu otwarcia

Utwierdza (mnie) to w przekonaniu o charakterze tej nagrody…

 

Przewidujemy. Znowu – jedną linijką kodu! Za to właśnie lubię R.

 

“And the winner is!…”

Title Rating Votes Genres MetaScore Probability
La La Land 8.5 176689 Comedy 93 33.6%
Manchester by the Sea 8.1 73738 Drama 96 25.5%
Moonlight 7.9 54827 Drama 99 9.8%
Hidden Figures 7.9 42283 Biography 74 6.5%
Arrival 8.1 244387 Drama 81 6.2%
Hacksaw Ridge 8.3 131307 Drama 71 6.1%
Lion 8.0 43208 Drama 69 5.4%
Fences 7.4 22132 Drama 79 4.0%
Hell or High Water 7.7 88963 Action 88 2.9%

Na pierwszym miejscu fawort.

Krytycy różnią się w opiniach.

Wspomniałem, że można też estymować inaczej, z innych danych. Bardzo ciekawe opracowana można znaleźć tutaj:

 

Czy model jest skuteczny?

Jak bardzo można mu wierzyć? Warto to sprawdzić (zanim pójdziemy do bukmachera postawić grube miliony na “La la land”). Na przykład próbując wytypować to, co już wiemy. Sprawdźmy więc, czy z tych samych danych, tym samym modelem możemy wytypować laureatów z lat poprzednich. Wszystkich (pomiędzy 2000 a 2016) lat.

Odpowiednio wybierając za dane testowe określony rok, a resztę jako dane treningowe i wrzucając wszystko w pętlę możemy porównać dane estymowane z rzeczywistością.

Co trafiliśmy? A raczej z jaką skutecznością?

Może więc warto zaczekać z tym bukmacherem ;)

Wiemy, że skuteczność jest taka sobie, ale kto powinien wygrać według modelu – to jest ciekawe!

Year Title Won
2000 The Green Mile FALSE
2001 Wo hu cang long FALSE
2002 The Lord of the Rings: The Fellowship of the Ring FALSE
2003 The Pianist FALSE
2004 Mystic River FALSE
2005 Sideways FALSE
2006 Crash TRUE
2007 Little Miss Sunshine FALSE
2008 No Country for Old Men TRUE
2009 Slumdog Millionaire TRUE
2010 Inglourious Basterds FALSE
2011 The King’s Speech TRUE
2012 The Artist TRUE
2013 Silver Linings Playbook FALSE
2014 12 Years a Slave TRUE
2015 The Imitation Game FALSE
2016 Mad Max: Fury Road FALSE

Widzicie to? “Zielona mila”, “Pianista”, “Rzeka tajemnic”, Tarantino, czy “Tajemnica Brokeback Mountain” – same dobre filmy!

Sprawdźmy jeszcze kto wygrywał, bo że się mylimy to już wiadomo…

Year Title
2000 American Beauty
2001 Gladiator
2002 A Beautiful Mind
2003 Chicago
2004 The Lord of the Rings: The Return of the King
2005 Million Dollar Baby
2006 Crash
2007 The Departed
2008 No Country for Old Men
2009 Slumdog Millionaire
2010 The Hurt Locker
2011 The King’s Speech
2012 The Artist
2013 Argo
2014 12 Years a Slave
2015 Birdman or (The Unexpected Virtue of Ignorance)
2016 Spotlight

Różnice – jako zapalony kinoman – mogę skomentować tak:

  • “American Beauty” uważam za lepszy film, jest też bardziej hollywoodzki
  • “Pianista” – Polański nie mógł dostać Oscara z oczywistych względów…
  • widowiskowy “Władca pierścieni” wygrywa ze znakomitym, ciężkim i mrocznym thrillerem – kolejne potwierdzenie, że Oscar to nagroda dla rozrywki
  • Tarantino przegrał z wojną na Bliskim Wschodzie – w Ameryce nic dziwnego, szczególnie po 9/11
  • “Spotlight” się należało, to jakiś wyjątek w nagrodach dla kina rozrywkowego

 

Dużo było dzisiaj. Mam nadzieję, że ciekawie. I mam nadzieję, że Akademia poprawi skuteczność tego prostego modelu dając już za kilkadziesiąt godzin nagrodę dla „La la land”.  Chociaż film uważam za taki właśnie „oskarowy” – ładny, kolorowy, z prostą fabułą. Sobotni wieczór, kiedy dzieci już śpią, butla Prosecco i można oglądać. Uleci z głowy tak samo jak „Artysta” z 2012 roku.

2 myśli na temat „Oscar 2017 „Best Picture” – kto wygra?

  1. Myślę, że może istnieć pewien problem związany z danymi wejściowymi. Sam fakt że dany film dostał lub nie dostał Oskara może wpłynąć na jego późniejsze oceny. Dane były by bardziej wiarygodne gdyby dotyczyły okresu przed wyłonieniem laureata w danym roku. Ale nie wiem czy takie dane są dostępne.

Dodaj komentarz