CSI: Lemur

Gdzie mieszkasz? I gdzie pracujesz?

Daj mi dane z Google Takeout i powiem Ci wszystko!

Google nas śledzi. Wie jakie strony oglądamy, jakie filmy. Jeśli używamy Google Maps i mamy włączone śledzenie lokalizacji w telefonie – wie gdzie jesteśmy. I jeszcze do tego zarabia na tym pieniądze.

Ja mam (i wcale się tego nie boję). Dzięki temu za darmo mam dane, którymi mogę się pobawić, a co więcej – wiem dlaczego te dane są takie a nie inne, rozumiem je najlepiej jak tylko się da. Bo to moje życie.

Ale gdyby tak ktoś chciał na podstawie tylko jednej porcji danych (tych o lokalizacji) dowiedzieć się czegoś o nas… co może zobaczyć? W bardzo prosty sposób bardzo dużo. Odsłonię trochę siebie.

Na początek potrzebujemy pliku JSON z historią lokalizacji. Wchodzimy na Google Takeout i zlecamy przygotowanie danych zaznaczając Location History w formacie JSON. Po jakimś czasie (do kilkudziesięciu minut) dane trafią we wskazane w kolejnych krokach miejsce.

Teraz bierzemy je na waRsztat.

To potrwa jakiś czas (im więcej danych tym dłużej), a finalnie w locations dostajemy mięso, z którego najważniejsze są trzy kolumny zawierające moment rejestracji położenia określony w milisekundach oraz samą lokalizację (długość i szerokość geograficzna) – w stopniach kątowych przemnożonych (cholera wie po co – pewnie żeby trzymać w bazie inty a nie floaty) przez 10 milionów.

Trochę przekształceń daty i rozbicie jej na atomowe części:

i dane gotowe, w układzie zrozumiałym od razu dla przeciętnego człowieka.

Ile danych mamy dla poszczególnych dni?

Widać, że sensowne dane (o mnie) zaczynają się gdzieś w okolicy kwietnia 2013. Usuwamy więc wcześniejsze dane.

Zobaczmy gdzie bywałem i kiedy

Najpierw jednak przygotujemy uśrednione dane godzinowe – będzie dzięki temu mniej danych, szybciej będzie się wszystko rysowało. Można oczywiście operować na wszystkich danych.

Wiem, że w ostatnich 4 latach nie ruszyłem się poza Europę (Chiny były dawno temu… niestety), więc mapa starego kontynentu wystarczy. Pobieramy

i rysujemy mapę, a nawet kilka – każdy rok osobno:

wszystko się zgadza (o ile pamiętam miejsca, bo z datami już gorzej):

  • mieszkam gdzieś w środku Polski
  • w 2013 zrobiliśmy objazd Andaluzji, z lotem do i z Madrytu przez Londyn
  • w 2017 zdążyłem odwiedzić Budapeszt

Przybliżmy Polskę:

Teraz wiemy trochę więcej, na przykład, że

mieszkam w Warszawie

bo tutaj tych punkcików najwięcej, ale też:

  • w 2013 byłem w Gdańsku (może słabo to widać) i na Podlasiu
  • w 2014 byłem na Opolszczyźnie (dwoma trasami), w Tatrach, na Warmii
  • w 2015 – już tylko na Warmii, zahaczając o Olsztyn. Pojawiają się też punkty w stronę Tatr – być może miałem wyłączoną lokalizację przez większość czasu w telefonie i dlatego jest to takie niepewne?
  • w 2016 – Warmia (z Toruniem po drodze), Opolszczyzna i Podlasie

Mieszkam w Warszawie, ale jak się po niej poruszam? Bez rozdzielenia na lata, za to z nieco zmienionym nasyceniem czerwonego (żeby wydobyć to co trzeba):

Warszawa to dla mnie oś północ – południe, gdzieś pomiędzy Tarchominem, Mokotowem i Śródmieściem. Widać nagromadzenie punktów w sumie w 4 miejscach i smugę (to w dużym uproszczeniu metro i tramwaje pomiędzy Świętokrzyską a Placem Wilsona).

Czy coś tutaj zależy od dnia tygodnia?

Wiecie już gdzie mieszkam? Tam gdzie najczęściej jestem w weekend… albo pomiędzy 19 a 6 rano – bo i tak można do tego podejść:

Przy odpowiednim przybliżeniu mapy (tego Wam nie pokażę, nie przesadzajmy – odrobina prywatności być musi, a nie tak adres na tacy) widać dwa punkty. Gdyby rozdzielić dodatkowo dane na poszczególne lata to widać byłoby przeprowadzkę w ramach dzielnicy w 2014 roku. Wszystko się zgadza.

Współrzędne domu

znajdziemy dla każdego miesiąca. Szukać będziemy tylko w “kwadracie” Warszawy, tylko nocami, tylko w weekendy. Normalnie jak jacyś bywalcy nocnych lokali. Użyjemy w agregacji nie średniej, a mediany, która daje lepsze efekty w tym przypadku (po bożemu powinna być wartość najczęściej występująca).

Wiadomo gdzie mieszkam (i wyjaśnia się dlaczego chciałem wiedzieć ile kosztuje wynajęcie mieszkania na Białołęce, prawda?), a w takim razie co z tym Mokotowem i Śródmieściem?

Gdzie pracuję?

Zrobimy podobnie – w swoich pracach ludzie są od 9 do 17 (jak na biurowe standardy w Warszawie przystało). Dla bezpieczeństwa zawęzimy to jeszcze o godzinę (spóźnienia, wcześniejsze wyjścia) i wybierzmy tylko poniedziałki do piątków.

  • widać Tarchomin – pewnie święta przypadające w tygodniu, ale był też pewien czas freelancerki i bezrobocia
  • widać wyraźnie Mokotów – pracowałem tam przez jakieś dwa lata z badanego okresu (w dodatku w dwóch miejscach)
  • w Śródmieściu pracuję w drugim już miejscu – oba widać na mapie

A teraz dodajmy lokalizacje mieszkania (obu) do oryginalnych danych i zobaczmy

jak daleko się wypuszczam

Dane o położeniu mieszkania mamy zagregowane do miesięcy, więc połączenie rok-miesiąc będzie dobrym kluczem łączącym dwie tabele. W obu przygotujemy klucz i połączymy:

Możemy policzyć odległość pomiędzy mieszkaniem a punktem (średnim) w jakim przebywałem w danej godzinie. Weźmiemy najprostszą odległość – w stopniach, w mierze euklidesowej (pierwiastek z sumy kwadratów różnicy współrzędnych)

    \[odleglosc = \sqrt{(x_0-x_1)^2+(y_0-y_1)^2}\]

i zobaczmy jak odległość od domu wyglądała w czasie:

Najdalej od domu byłem w 2013 – pamiętacie? To Andaluzja.

Zestawmy jeszcze mapę z odległościami:

Teraz widać, że w Andaluzji byłem we wrześniu/październiku (to oczywiście można zobaczyć też inaczej – np. 2013 rok rozdzielić na mapki dla danego miesiąca, albo po prostu patrząc w dane).

W kolejnym – 2014 roku – najdalej od domu byłem w początku roku, ale to nic (kilkukrotnie mniej) w porównaniu z Hiszpanią; podobnie dla kolejnych lat. W 2017 roku poza Budapesztem nie ruszałem się (jeszcze) nigdzie poza Warszawę.

Zastanawiające jest coś innego – spadek odległości od domu w drugiej połowie września 2013 i później powrót wysokich wartości:

Tak naprawdę to wcale nie jest zaskakujący. Pamiętacie jak liczyliśmy miejsca, w których jest dom? Tam była mediana położenia dla sobót i niedziel w nocy.

We wrześniu 2013 tak długo (bodaj trzy tygodnie) przebywałem poza Warszawą, że według tego algorytmu Hiszpania stała się moim domem. Co zabawne – w Madrycie byliśmy tylko dwie noce – pomiędzy przylotem do Hiszpanii a wyruszeniem autem w kierunku Andaluzji i tak samo w drodze powrotnej. Nie pamiętam czy były to weekendy.

Stąd właśnie spadek odległości od domu. Bo domy w 2013 roku były w następujących miejscach (wg algorytmu):

Warszawa i Madryt.

Należałoby zatem w tabeli mieszkanie odpowiednio wygładzić dane – np. dla każdego punktu (miesiąca) sprawdzić czy odstaje od dwóch sąsiednich i jeśli tak to nadać mu nowe wartości (chociażby średnią z sąsiadów)

Weźmy jeszcze 2017 bez Budapesztu (wyłączymy cały marzec), żeby sprawdzić

gdzie się bywa w Warszawie?

chociaż raczej – jak daleko od domu poruszam się po mieście?

widać tutaj periodyczność (i pierwszą kropkę związaną z powrotem spoza Warszawy po Nowym Roku) – kilka kropek na górze, przerwa i znowu kilka na górze. Kilka to zazwyczaj pięć. To może prowadzić do wniosku, że coś dzieje się w tygodniu. Wiadomo co, ale zobaczmy:

W weekendu stycznia i lutego 2017 siedziałem w pobliżu domu, ot co.

Średnio (mediana) w innych latach też :) Domator znaczy.

Co więcej, 40% czasu spędzam w pobliżu domu, jakieś 8% spędziłem w odległości 0.1 stopnia od domu, 6% – w odległości 0.135 stopnia. Wiem to z tego rozkładu:

Mam wrażenie, że te procenty trochę są oszukane… bo 40 godzin pracy tygodniowo to 23.8% całego tygodnia (tak, pracujemy 1/4 swojego życia, a do tego ze dwie godziny dziennie robimy trasę dom-praca-dom), a 6 i 8 to tytlko 14… Ktoś ma pomysł?

Obstawiam urlopy, czas bez pracy, święta itp. Szczegółowo warto przyjrzeć się rozkładowi miesiąc po miesiącu. Bo taki luty 2017 to już wychodzi 1/3 w pracy, 2/3 w domu co ma zdecydowanie większy sens.

Odległość w stopniach to raczej nie jest intuicyjna miara. Na równiku według Wikipedii 1 stopień to 111 km (w przybliżeniu), na warszawskiej szerokości geograficznej jest to raczej około 70 km (jeśli ktoś nie wierzy niech poszuka stosownych wzorów).

Zatem te 0.135 stopnia to około 9.9 km, zaś 0.1 – 7 km. W linii prostej. Domyślam się jakie to są miejsca (praca oczywiście) i używając miarki na Google Maps widzę, że Google uznaje, że 1 stopień to bardziej te 111 km niż 70…

Konkurs

To kto się podzieli plikami z Google Takeout i da się przebadać? Najchętniej ktoś, kto dużo podróżuje po Polsce albo i świecie. Do wygrania darmowa inwigilacja.

A to tylko jeden element tego, co Google wie o nas…

Przerażające. I fascynujące zarazem.

7 myśli na temat „CSI: Lemur

  1. Hej,

    probowalem sam i wysypuje sie w tym miejscu:
    > ggmap(map_eu, darken = 0.3) +
    + geom_count(data=locations_hour, aes(long, lat, alpha=..prop..),
    + size=1, color=”red”) +
    + scale_alpha(range = c(0.2, 0.8)) +
    + facet_wrap(~year) +
    + theme_void() +
    + theme(legend.position = „none”)
    Warning message:
    Removed 1 rows containing non-finite values (stat_sum).

    Wiesz może co robię źle?

    • To tylko warning mówiący o tym, że jeden punkt nie został narysowany na wykresie. Jakiś wynik jest, czy jest pusta mapka?
      Bez wglądu w dane trudno wyrokować.

      • To chyba raczej prędkość działania R/RStudio – przy tej ilości danych generowanie wykresu trochę trwa i RStudio nie wyświetla gotowego wyniku natychmiast. Bywają sytuacje (przy milionach punktów) kiedy trwa to nawet kilkanaście sekund. Pobrałem Twoje dane i rzeczywiście tak było – wykres pojawia się po kilkunastu sekundach.
        Z tego powodu dane w pierwszej fazie są agregowane do średnich godzinowych – żeby z milionów punktów zrobić kilkanaście tysięcy.

        Cieszę się, że czytają nas w Londynie, niedaleko Portland Palace, przy Beaconsfield Rd. Podróż po UK (11-13 sierpnia) udana? :) Oleg, skasuj ten plik JSONa z publicznego dostępu.

  2. Usunięty :)
    ale nie trafiłeś z miejscem zamieszkania, jakies 600m różnicy :)
    Edynburg warty polecenia oczywiscie, zwlaszcza w sierpniu na festiwal Fringe, warto polaczyc z jakas degustacja szkockiej.
    zastanawialem sie czy na podstawie tego wyciagniesz 4 ostatnie adresy zamieszkania, oraz gdzie pracowalem w Polsce i UK, ale z jakiegos powodu historia nie pokazuje danych ktore byly w Google Latitude, tylko Maps.
    Ale jak sie bedziesz nudzic to mozesz poanalizowac do woli.

Dodaj komentarz