Najbardziej aktywni użytkownicy na stronach partii

Kim są osoby najbardziej aktywne na fanpage’ach poszczególnych partii?

Po artykule Anny Mierzyńskiej a jeszcze bardziej (i wcześniej) po publikacji wyników analizy naukowców z Oxfordu na temat fake-newsów i kont-botów zapragnąłem zrobić dokładnie to samo. Sprawdzić jak bardzo prawdopodobne jest, że konta które są najbardziej aktywne są botami.

Metodologia jest stosunkowo prosta: trzeba wytypować najbardziej aktywne konta, sprawdzić ile osób mają w znajomych, co lajkują (jak często) i co podają dalej, jak dużo napisały postów i w jakim czasie (czy są młode czy stare). Na podstawie kilku wskaźników można określić z jakimś prawdopodobieństwem czy konto jest botem.

Niestety, o ile na Twitterze większość informacji można pobrać, o tyle z Facebookiem jest już gorzej i niewiele się da wyciągnąć z API. Anna Mierzyńska swoją analizę przeprowadziła ręcznie. Ja nie lubię takiej dłubaniny, szczególnie jeśli są narzędzia.

Podczas prób moja analiza obrała nieco inny kierunek (nie Czy konto jest botem? a Kim jest użytkownik?). Zobaczmy co wyszło.

Na początku potrzebujemy danych. Wytypowałem osiem facebookowych stron partii pokazywanych w sondażach:

Te same strony analizowałem już wcześniej, pod kątem upodobań sportowych (polecam!).

Pobrałem po 500 najnowszych postów z wymienionych stron. Następnie wybrałem najbardziej gorące posty, czyli te w których liczba komentarzy mieściła się w górnych 25%. Pozostało 1013 postów (z czterech tysięcy).

Dla tych postów pobrałem listę osób, które weszły w interakcję (zostawiły komentarz lub dały lajka) z postem. Następnie policzyłem która z osób jest najbardziej aktywna. Aktywność w tym przypadku to miara określona liczbą interakcji w stosunku do liczby postów danej partii. Jeśli partia opublikowała jeden post i ktoś go skomentował: będzie miał aktywność na poziomie jeden. Jeśli dodatkowo dał lajka – aktywność będzie na poziomie dwa. W masie postów i osób średnia wychodzi około 0.3 (przy medianie 0.44).

Kolejny krok to wybór po 500 osób najbardziej aktywnych na stronach każdej z partii. Dało to w sumie cztery tysiące profili do sprawdzenia.

Tylko jak sprawdzić profil nieznanej osoby? Bez klikania na każdy z nich. Interesujące byłyby już wspominane informacje:

  • liczba znajomych
  • liczba opublikowanych postów
  • wiek konta (data pierwszej publikacji)
  • wiek i płeć osoby
  • liczba polubionych stron (i jakie to strony)
  • zdjęcie profilowe

Niestety nie uda się uzyskać dostępu do tych danych. Możemy mieć imię, nazwisko i zdjęcie profilowe (aktualne). To bardzo mało danych.

Ale ze zdjęcia można coś wyczytać – od czego sztuczna inteligencja? I to w dodatku taka dostępna online? Jest sobie coś takiego jak usługi poznawcze w ramach Microsoft Azure, a szczególnie interfejs API twarzy, który przy rozsądnych parametrach (do 20 zapytań na minutę, i jednocześnie nie więcej niż 30 tysięcy zapytań miesięcznie) jest darmowy. Dla 4 tysięcy osób to wystarczy. Zobaczmy co da połączenie danych z Facebooka z danymi uzyskanymi z Microsoftu.

Na początek sprawdźmy jaki procent kont ma ustawione standardowe zdjęcie profilowe. To mogą być potencjalne boty czy też fałszywe konta.

Łatwo rozpoznać takie zdjęcie: powinno być ich najwięcej (odpowiednio w wersji dla chłopaka i dziewczyny), bo przecież każdy swoje zdjęcie ma unikatowe, a zaślepka jest jedna dla wielu. Sprawdzamy więc jakie zdjęcie (jego adres URL) występuje najczęściej i to uznajemy za zdjęcie domyślne.

Ile mamy takich profili w naszych czterech tysiącach badanych kont?

Widzimy, że najwięcej podejrzanych (czyli nie należących do prawdziwej osoby, a przynajmniej do takiej, która na Facebooku zachowuje się standardowo) kont komentuje profil Janusza Korwin-Mikke. Najmniej takich kont jest na stronie partii Razem. Zapewne jest tak, że użytkownicy aktywni na stronach Razem to prawdziwi ludzie, dla których Facebook jest naturalnym sposobem komunikacji.

Teraz do akcji wkracza interface Face API. Dla każdego konta badamy jego zdjęcie profilowe prosząc o rozpoznanie wieku i płci, dodatkowo zapytamy czy osoba na zdjęciu się uśmiecha i czy ma okulary.

Oczywiście zdjęcia profilowe nie muszą przedstawiać osoby (albo jej twarzy) – zdarzają się kwiatki (dosłownie) czy jakieś symbole. Na zdjęciu może znajdować się więcej niż jedna osoba – w takim przypadku pobieramy wynik dla pierwszej z osób opisanych przez Face API. Dodatkowo za skuteczne rozpoznanie uznamy to, gdzie wiek jest większy od zero (są pojedyncze przypadki z wiekiem rozpoznanym jako 0).

Ile twarzy udało się opisać?

Jest to około 200 dla każdego z fan page’y, łącznie 41.5% najbardziej aktywnych kont. To całkiem niezły wynik, już dający jakieś miary statystyczne. Będziemy na tym polegać.

W jakim wieku są najbardziej udzielające się pod postami osoby?

Na stronie SLD udzielają się najstarsi użytkownicy, najmłodsi działają na stronie Korwin-Mikke. W przypadku największy partii (PiS, PO, PSL, .N) wąsy są najszersze, co oznacza największy przekrój wieku.

Widać też ciekawostkę: w przypadku partii Razem mediana wieku kobiet jest niższa niż mężczyzn (25 versus 35 lat), odwrotnie jest w przypadku PO (kobiety około 47, mężczyźni około 41). W pozostałych przypadkach rozbieżności nie są tak duże.

Kto jest bardziej aktywny – kobiety czy mężczyźni?

Zrównoważony podział widzimy na stronach PO i PSL. Drugie w kolejności są Nowoczesna i PiS. U Kukiza i Korwina zdecydowanie więcej akcji podejmują mężczyźni.

A jak wygląda połączenie wieku i płci? Podzielmy wiek na siedem przedziałów.

Najpierw zobaczmy podział na płeć i wiek, bez rozróżniania partii.

Widzimy, że struktura wieku kobiet aktywnych na badanych fanpage’ach jest mniej więcej zbliżona do struktury wieku kobiet w społeczeństwie (Facebook nie pozwala osobom zbyt młodym na posiadanie konta). Zaś u mężczyzn więcej jest aktywnych 25-45 latków niż można by się spodziewać w zestawieniu z rozkładem wieku wszystkich mężczyzn. Pytanie też jaka jest struktura wieku polskich użytkowników Facebooka? Sądzę, że zbliżona do rozkładu widocznego powyżej po lewej stronie.

Dodajmy do tego podział na fanów stron. Wysokość słupków w ramach jednego wykresu (czyli jedna płeć dla jednej partii) sumują się do 100% – pozwala to na określenie która grupa wiekowa wybranej płci jest dominująca jeśli chodzi o interakcje z fanpage’em. Daje to również pogląd na grupę odbiorców komunikatów danej partii. Lub grupę przeciwników – należałoby przeanalizować treść poszczególnych komentarzy (na przykład ich wydźwięk emocjonalny).

Widzimy to, co wiemy już z poprzednich wykresów:

  • młode kobiety (do 35 roku życia) udzielają się na stronie Korwin-Mikke (ale to ma raczej związek z wiekiem – strona Korwina przyciąga młodszych) oraz na stronie Razem, co ma związek z programem partii
  • Nowoczesna to ugrupowanie dla ludzi w średnim wieku, podobnie jak pozostałe duże partie (na przykładzie Nowoczesnej widać to nieco wyraźniej)
  • ciekawy jest Sojusz, który swoich zwolenników (lub przeciwników) ma w gronie starszych osób

Gdzie określona grupa wiekowa (i o określonej płci) jest najbardziej aktywna? Kogo przyciągają poszczególne strony i partie?

40% kobiet w wieku 18-25 lat (pamiętając, że jest to wiek określony mechanicznie, na podstawie zdjęcia profilowego) to aktywistki na stronach Razem. Tę wartość bije tylko ponad 40% mężczyzn w wieku 18-25 na stronie Korwin-Mikke. Swoją drogą: ta sama grupa wiekowa, zupełnie odmienne poglądy.

Na drugim końcu mamy najstarszych mężczyzn aktywnych na stronach SLD.

Ciekawa jest odmienność płci dla środka przedziałów wiekowych (25-55 lat). Kobiety udzielają się u PiS, PO, Nowoczesnej i PSL, zaś mężczyźni wybierają Kukiza i Razem.

Proszę porównać to z demograficznym spojrzeniem na sondaże (albo wyniki wyborów). Czy jest tak samo?

Na koniec coś na rozluźnienie: u kogo uśmiechają się bardziej? Algorytm Face API pozwala określić prawdopodobieństwo (od 0 do 1) tego, czy osoba na zdjęciu się uśmiecha.

Najwięcej uśmiechu mają polskie dziewczyny aktywne na stronach Kukiz’15. Użytkowniczki strony PiS również się uśmiechają.

Zdjęcia z poważnymi minami mają panowie, najbardziej u Korwin-Mikke i Razem.

I jeszcze gdzie jest najwięcej okularników?

W okularach chodzą panie (kolejno): PSL, SLD, Razem, PO i Nowoczesna oraz panowie: Razem (ponad jedna trzecia), PSL, PO, SLD. Za okularami słonecznymi twarz ukrywa co szósty pan aktywny na stronach Korwina. Niektórzy zakładają okularki do pływania, i nie są to zwolennicy z ugrupowania kojarzonego z Maderą.

Dla zainteresowanych kod źródłowy w R na GitHubie.

Przy okazji zapraszam na facebookowy fanpage Dane i Analizy gdzie znajdziecie informacje o najnowszych wpisach z bloga, trailery i teasery nowych materiałów ale też wiele innych ciekawostek (głównie linki do treści o analizie danych lub samych danych).

2 myśli na temat „Najbardziej aktywni użytkownicy na stronach partii

  1. Ciekawa analiza! Świetna znajomość narzędzi analitycznych ;technicznych: – ze tak powiem. Choć tak sobie myślę po prześledzeniu kolejnych setek kont na FB, że analiza zdjęć profilowych na FB jest jednak trudna do wnioskowania. Wczoraj analizowałam (ręcznie :-) ) ponad 30-tu udostępniających na profilu jednego z posłów Kukiz`15, i wśród zdjęć profilowych znalazły się: oko kota, małpa, organy (instrument), pies, zdjęcie powstańca z plakatu, małe dziecko, zamaskowany mężczyzna w przebraniu.
    Stąd realne trudności analityczne. Ale i tak szacun!

    • Wszystko się zgadza. Jak widzisz Face API wykryło tylko dane dla 41% zdjęć. Stawiam tezę, że jakby było nie 200 zdjęć na fanpage a 1000 to wyniki wiele by się nie różniły.

Dodaj komentarz