Lubimy czytać – coś o książkach

Jakiś czas temu była analiza ocen filmów (na podstawie bazy Filmwebu), obiecałem w różnych miejscach, że będzie też o książkach. Zatem sprawdźmy czego możemy się dowiedzieć z danych pobranych z serwisu LubimyCzytać.pl.

Przez kilka tygodni skrypt działający sobie grzecznie na serwerze pobierał stronę po stronie z serwisu, analizował zapisane na niej dane i przepisywał je sobie do lokalnego pliku (dane zgromadziłem w pliku books_total.RDS, z którego za chwilę je wczytamy).

I tutaj ciekawostka. Poprosiłem redakcję serwisu o przesłane danych, tak aby nie zapychać im serwerów. Poprosiłem jednocześnie zaznaczając, że chcę przygotować niniejszą analizę, a jeśli nie otrzymam danych – pobiorę je samodzielnie. Odmówiono mi. Żeby być miłym oszczędziłem serwery (swoje i cudze) i przed kolejnymi hitami w stronę czekałem losową liczbę sekund (od 1 do 3). Warto to robić, warto być przyzwoitym. Ale mimo wszystko nie udało się pobrać wszystkich danych (a ileż możecie czekać na nowy post?). Tak czy inaczej – mamy ponad 330 tysięcy wierszy.

Wiersze zawierają informację o tytule książki, jej autora, wydawnictwo, datę wydania (skorzystamy tylko z roku), liczbie stron i kategorii do której dana książka została przypisana w serwisie. Dodatkowo – to co najbardziej ciekawe – mamy średnią ocenę, liczbę ocen oraz liczbę każdej z ocen przyznanych przez użytkownika (od 1 do 10 gwiazdek). Gdzieś jest też znacznik w jakim języku jest książka. Fajne dane, można sobie porobić różne przekroje. I tak zrobimy.

Zaczynamy oczywiście od przygotowania środowiska – wczytanie pakietów i danych:

Od razu przystąpimy do analizy. Średnia ocena książki to 6.78 przy średniej liczbie ocen 65. A jak to wygląda według kategorii?

Średnia ocena książki według kategorii

Może trochę zaskakujące? Najlepiej oceniane są książki w kategoriach album, sztuka, komiks (z tych “obrazkowych”) oraz religia i poezja.

Najgorsze według użytkowników LubimyCzytać są książki z kategorii literatura obyczajowa i romans (wiecie, że to tzw. harlequiny, prawda?).

W środku stawki, powyżej średniej oceny (6.78) mamy większość kategorii.

Ważne jest jeszcze jedno – żeby uznać średnią ocenę jako dość obiektywną powinna być zebrana z odpowiednio dużej próby. O wielkości tej próby będzie za chwilę, ale już teraz można powiedzieć, że niektóre kategorie mają za mało ocen. Takie mapy i atlasy na przykład, wspomniana sztuka czy już ewidentnie czasopisma.

Skąd zaskoczenie? Sądziłem, że to co bardziej poczytne (druga liczba w nawiasie – kategorie najpopularniejsze to: klasyka, literatura młodzieżowa, thriller/kryminał, przygodowa, fantastyka i sci-fi, literatura współczesna i piękna) będzie miało większe oceny. Ale przecież z drugiej strony – wcale najpopularniejsze nie oznacza najlepsze, wręcz może być odwrotnie (w imię eat shit, miliony much nie mogą się mylić). Zobaczymy to za chwilę.

20 najpopularniejszych książek razem z ocenami

Wykres jest ułożony przewrotnie – na górze mamy te tytuły, które mają najwięcej ocen, a długość słupka odpowiada ocenie.

Moja ulubiona książka Masłowskiej to bardzo dobry przykład na (uwaga, popularne słowo) hejt w internecie. Mam wrażenie, że sporo z tych ocen to jedynki, a mało jest tych ciągnących w górę… Można by zobaczyć to bezpośrednio w danych, ale problem jest taki (i dotyczy on większości tytułów), że w bazie LubimyCzytać powtarza się bardzo dużo książek. Bo wydane są w różnych wydawnictwach, bo są wznowienia (wydania w kolejnych latach), bo chyba coś nie tak jest w bazie danych. Taka właśnie “Wojna polsko-ruska pod flagą biało-czerwoną” występuje kilka razy (linki do stron dotyczącej tej książki poniżej) i wpisy wiele się nie różnią:

n Strona Ocena Liczba ocen
1 Wydawnictwo: Lampa i Iskra Boża, rok: 2002 5.185 2937
2 Wydawnictwo: Lampa i Iskra Boża, rok: 2003 5.184 2950
3 Wydawnictwo: Świat Książki, rok: 2003 5.185 2937
4 Wydawnictwo: Lampa i Iskra Boża, rok: 2005 5.184 2938
5 Wydawnictwo: Code Red Tomasz Stachewicz, rok: 2015 5.184 2938
6 Wydawnictwo: Lampa i Iskra Boża 5.185 2937
7 Wydawnictwo: Aleksandria 5.185 2937
8 Wydawnictwo: Lampa i Iskra Boża 5.425 4615

Zobaczmy więc jaka jest średnia liczba poszczególnych ocen (liczba gwiazdek) dla tej konkretnej książki:

Tak jak można było podejrzewać – dużo jedynek i trójek (łącznie to 1/4 ocen), bardzo mało 10. Najwięcej szóstek i siódemek (1/3 ocen) co się zgadza z ogółem (o tym będzie za moment).

Wracając do najpopularniejszych książek – nie znam większości z tych tytułów, po tytułach wnioskuję że to czytadła pokroku “Sagi Zmierzch” dla młodzieży. Stosunkowo mało tutaj Paulo Coelho, znowu widać powtórki w tytułach, raz “Niezgodna” jest z autorem, innym razem bez, “Akademia wampirów” dwa razy… Oj, kiepska jakość bazy, kiepska.

A Coelho jest ze średnią oceną 6.43 i średnią liczbą ocen 301. Z wykresu widać też, że “Brida” to jego najpopularniejsza książka.

Liczba ocen a ocena

Czy liczba ocen ma znaczenie? Pytanie (nie bezpośrednio) padło wyżej, poszukajmy odpowiedzi:

Liczba głosów nie ma znaczenia dla średniej oceny książki. Książki albo są dobre, albo złe – to czy swój głos odda 10 czy 1000 osób nie ma większego znaczenia. Poza tym, że średnia będzie coraz bliższa rzeczywistej obiektywnej oceny.

Weryfikowałem to w przypadku filmów – co 30 minut pobierałem średnią ocenę i liczbę oddanych głosów filmu, który miał premierę (zaczynał więc bez żadnej oceny). Gdzieś w okolicach 100-200 oddanych głosów średnia się ustabilizowała. Można więc przyjąć, że jeśli na daną pozycję zagłosowało 100 lub więcej osób to ocena jest wiarygodna i nie będzie się zmieniać w czasie. Oczywiście wahnięcia o ułamek punktu są możliwe. To jest między innymi przyczyna, dla której wszelakie listy Top500 na IMBd.com lub innym FilmWebie są dość stabilne.

To wynika też ze statystyki i liczności próby badawczej. Dlaczego badania przeprowadza się na reprezentatywnej próbie tysiąca Polaków? Dlatego, że tyle osób wystarczy do określenia jakie preferencje ma prawie 40 milionów. Serwisy internetowe mają mniejszą bazę użytkowników, w związku z tym liczebność próby badawczej (owe 100 ocen) jest mniejsza.

Średnia według wydawnictwa

Największe wydawnictwa wydają najlepsze tytuły. Po prostu. Pozycja druga to błąd w danych (lub ich scrappingu). Widzicie Harlequina na dole wykresu? Pamiętacie kategorię literatura obyczajowa i romans? Łączy się to jakoś? Nie widać tego bezpośrednio, można to jednak udowodnić odpowiednio zestawiając dane.

Przejdźmy jednak dalej.

Rozkład liczby stron

Jak grube są książki?

Najwięcej jest książek około 180-230 stronicowych.

Rozkład liczby ocen

Najwięcej jest książek mających po kilka-kilkanaście ocen. Średnia liczba ocen to 65, obetnijmy więc powyższy wykres tylko do książek, które mają więcej ocen niż ich średnia:

Jak widać – niewiele się zmienia, a najwięcej jest książek po około 100 ocen. Napisałem coś wyżej o stabilizacji średniej przy około 100 głosach albo o liczebności próby badawczej? Właśnie.

Rozkład ocen

Zobaczmy teraz jaka średnia ocena jest najbardziej popularna. Ale już uwzględniając te książki, które mają co najmniej 65 ocen (żeby wykluczyć książki ocenione na 10 przez jedną osobę).

Średnio książka ma zatem ocenę bliską 7 (dokładnie 6.958) oraz medianę (połowa książek jest oceniona lepiej, a połowa gorzej) równą 6.979. Różnica pomiędzy średnią i medianą prawie żadna, a to widać już po wykresie gęstości prawdopodobieństwa – mamy tutaj rozkład taki trochę kopnięty normalny.

Jak wygląda rozkład głosów? Czyli jakie oceny przyznają użytkownicy?

Rozkład nadawanych głosów

Najbardziej popularną oceną jest siódemka, następna w kolejności to szóstka (i to oczywiście powoduje średnią pomiędzy 6 a 7 – pamiętacie jeszcze oceny książki Masłowskiej?). To ciekawe spostrzeżenie, można je zauważyć w innych serwisach oceniających, na przykład filmy (sprawdź pierwszy wykres słupkowy w tekście o ocenach filmów). Może to być również przyczynek do upraszczania systemu gwiazdek – zamiast skali 10 stopniowej powinna wystarczyć na przykład trzystopniowa: zły, średni, dobry? Albo dwustopniowa: lubię lub nie lubię. Przy filmach pokusiłem się nawet o wyliczenie czegoś na kształt wskaźnika NPS.

Rozkład ocen według kategorii

Jak wyglądają oceny w ramach kategorii? Czy jedne kategorie mają więcej ocen dobrych niż inne? Czyli czy po prostu książki z danej kategorii są lepiej oceniane?

To bardziej precyzyjny obraz niż średnia ocena według kategorii – tutaj widać zróżnicowanie. Im szerszy słupek tym większy rozrzut. I na przykład taka motoryzacja jest w miarę zwarta. Jak bardzo? Ano:

Widać, że 1 i 3 kwartyl nie są tak bardzo od siebie oddalone.

Czas na najciekawsze pytanie:

Jakie są najlepsze książki (według kategorii)?

Ano takie:

Kategoria Tytuł Autor Ocena
albumy Witold Pilecki. Fotobiografia Maciej Sadowski 9.42
astronomia, astrofizyka Nasz matematyczny Wszechświat. W poszukiwaniu prawdziwej natury rzeczywistości Max Tegmark 8.56
bajki Baśnie braci Grimm Ruth Brocklehurst 8.80
baśnie, legendy, podania Baśnie Andersena Hans Christian Andersen 8.60
biografia/autobiografia/pamiętnik Dziennik 1943-1948 Sándor Márai 9.36
biznes, finanse Dzieła zebrane. T. 1 Frédéric Bastiat 9.29
czasopisma Teraz Rock. Kolekcja ‘po całości’, nr 8. Guns N’ Roses Redakcja magazynu Teraz Rock 8.40
encyklopedie i słowniki Moja pierwsza encyklopedia zwierząt Marta Kotecka 8.77
ezoteryka, senniki, horoskopy Przywracanie zdrowia David R. Hawkins 9.40
fantastyka, fantasy, science fiction Wojownicy. Cisza przed burzą Erin Hunter 9.22
film/kino/telewizja 33 x Trójka Wiesław Weiss 8.43
filozofia i etyka Boża Opatrzność Catalina Rivas 9.44
flora i fauna Ptaki. Przewodnik Collinsa Lars Svensson 9.32
historia Getto Warszawskie. Przewodnik po nieistniejącym mieście. Barbara Engelking, Jacek Leociak 9.30
historia Narodziny cywilizacji Wysp Brytyjskich Wojciech Lipoński 9.30
historie biblijne Biblia 8.73
historie biblijne Biblia to jest Pismo Święte Starego i Nowego Testamentu z Apokryfami autor nieznany 8.73
hobby Inwazja bazgrołów. Książka do kolorowania Zifflin, Kerby Rosanes 8.90
horror The Whisperer in Darkness: Collected Stories Volume I Howard Phillips Lovecraft 8.45
informatyka i matematyka Kod doskonały. Jak tworzyć oprogramowanie pozbawione błędów Steve McConnell 9.06
inne Co chatka to zagadka Andrzej Setman 9.71
interaktywne, obrazkowe, edukacyjne Mieszkamy w książce! Mo Willems 9.21
językoznawstwo, nauka o literaturze Gwara warszawska dawniej i dziś Bronisław Wieczorkiewicz 8.67
klasyka herodot: dzieje 9.17
komiksy Życie i czasy Sknerusa McKwacza Don Rosa 9.24
kulinaria, przepisy kulinarne Najwyższa jakość NA 9.59
literatura dziecięca We mgle Walt Disney, Kiki Thorpe 9.33
literatura faktu Fotograf z Auschwitz Anna Dobrowolska 9.03
literatura młodzieżowa Elena. Tajemnica stadniny Nele Neuhaus 9.11
literatura obyczajowa i romans Ilium Josephine Angelini 9.06
literatura piękna Siedem grzechów głuchych Kaja Kowalewska 9.60
literatura podróżnicza Amazonia – piekielne piękno. Kiedy przygoda zderza się z życiem 9.25
literatura popularnonaukowa Biologia Neil A. Campbell 9.28
literatura współczesna Play listy, czyli nie wszystkie fobie są o miłości Kaja Kowalewska 9.28
militaria, wojskowość Pamiętnik (1941 -maj 1949) Zdzisław Broński 8.96
motoryzacja Gawędy motocyklowe praca zbiorowa 8.23
muzyka Tysiąc i jedna opera Piotr Kamiński 9.27
nauki przyrodnicze (fizyka, chemia, biologia, itd.) Feynmana wykłady z fizyki t. 1-3 Richard Phillips Feynman 8.94
nauki społeczne (psychologia, socjologia, itd.) Nowa Psychocybernetyka Maxwell Maltz 9.33
opowiadania i powieści American Daydream Justyna Gaworska 8.95
poezja nieskończoność M.YŚLI Magdalena Joanna Wojciechowska 9.70
poradniki Światło jogi B. K. S. Iyengar 9.15
poradniki dla rodziców Mama alergika gotuje tradycyjnie Katarzyna Jankowska 8.25
pozostałe Biblia 8.73
przygodowa Danzig Breslau Danzig Amos Oskar Ajchel 9.20
publicystyka literacka i eseje Listy z Rzymu Zbigniew Kadłubek 9.36
religia Mądrość Ewangelii Francesco Bersini 9.60
rękodzieło Cuda z modeliny. Techniki, materiały, pomysły Sue Heaser 8.24
rozrywka Niesamowicie rozkoszne koty Stuart Macfarlane 8.89
satyra Jarek Patriota: Bóg, honor i włoszczyzna Artur Pruziński 8.46
sport The Book of Basketball Bill Simmons 9.50
sztuka Hiroshige: Sto Słynnych Widoków Edo Bichler Lorenz, Trede Melanie 9.75
teatr Performatyka: wstęp Richard Schechner 9.00
technika Typografia książki. Podręcznik projektanta Michael Mitchell, Susan Wightman 8.67
thriller/sensacja/kryminał Pretty Lost Dolls Ker Dukey 9.44
turystyka, mapy, atlasy Polska egzotyczna. Tom 2 Grzegorz Rąkowski 8.67
utwór dramatyczny (dramat, komedia, tragedia) Tragedie i kroniki William Shakespeare 9.47
wierszyki, piosenki Gupik ma szczęście! Tomek Nowaczyk 8.94
zdrowie, medycyna Zapalenie Tarczycy Hashimoto Izabella Wentz MD, Marta Nowosadzka MD 9.06

To jeszcze sprawdźmy jacy są

najlepsi autorzy (według kategorii)

category author mean_score
albumy Maciej Sadowski 9.42
astronomia, astrofizyka Max Tegmark 8.56
bajki Ruth Brocklehurst 8.80
baśnie, legendy, podania Małgorzata Sobczak 8.58
biografia/autobiografia/pamiętnik Jan Rossman, Anna Zawadzka 9.14
biznes, finanse Bernard Fruga 8.67
biznes, finanse Oskar Jażdżyk 8.67
czasopisma Redakcja pisma Trans/wizje 8.07
encyklopedie i słowniki Marta Kotecka 8.77
ezoteryka, senniki, horoskopy David R. Hawkins 9.40
fantastyka, fantasy, science fiction S.L. Leśna 9.12
film/kino/telewizja Wiesław Weiss 8.43
filozofia i etyka Catalina Rivas 9.44
flora i fauna Lars Svensson 9.32
historia Barbara Engelking, Jacek Leociak 9.30
historie biblijne autor nieznany 8.73
hobby Zifflin, Kerby Rosanes 8.90
horror Michael Sims 8.10
informatyka i matematyka Steve McConnell 9.06
inne Andrzej Setman 9.07
interaktywne, obrazkowe, edukacyjne Mo Willems 9.21
językoznawstwo, nauka o literaturze Bronisław Wieczorkiewicz 8.67
klasyka John Milton 8.71
komiksy Sergio Cariello, Doug Mauss 9.00
komiksy Steve Lieber, Matt Fraction i inni… 9.00
kulinaria, przepisy kulinarne NA 9.59
literatura dziecięca Tony Wolf, Jane Brierley i inni… 9.28
literatura faktu Anna Dobrowolska 9.03
literatura młodzieżowa Nele Neuhaus 8.93
literatura obyczajowa i romans Josephine Angelini 9.06
literatura piękna Kaja Kowalewska 9.60
literatura podróżnicza Rafał Urbanelis 9.00
literatura popularnonaukowa Neil A. Campbell 9.28
literatura współczesna Kaja Kowalewska 9.28
militaria, wojskowość Zdzisław Broński 8.96
motoryzacja Witold Rychter 7.88
muzyka Piotr Kamiński 9.27
nauki przyrodnicze (fizyka, chemia, biologia, itd.) Roger Penrose 8.77
nauki społeczne (psychologia, socjologia, itd.) Maxwell Maltz 9.33
opowiadania i powieści Justyna Gaworska 8.95
poezja Magdalena Joanna Wojciechowska 9.70
poradniki B. K. S. Iyengar 9.15
poradniki dla rodziców Katarzyna Jankowska 8.25
pozostałe Agnieszka Kossowska 8.65
przygodowa Amos Oskar Ajchel 8.79
publicystyka literacka i eseje Zbigniew Kadłubek 9.36
religia Francesco Bersini 9.60
rękodzieło Sue Heaser 8.24
rozrywka Stuart Macfarlane 8.89
satyra Artur Pruziński 8.46
sport Bill Simmons 9.50
sztuka Bichler Lorenz, Trede Melanie 9.75
teatr Richard Schechner 9.00
technika Michael Mitchell, Susan Wightman 8.67
thriller/sensacja/kryminał Ker Dukey 9.44
turystyka, mapy, atlasy Grzegorz Rąkowski 8.62
utwór dramatyczny (dramat, komedia, tragedia) Jarosław Borszewicz 8.64
wierszyki, piosenki Tomek Nowaczyk 8.94
zdrowie, medycyna Izabella Wentz MD, Marta Nowosadzka MD 9.06

Nazwiska powinny się pokrywać z tabelą najlepszych książek. Chociaż nie musi oczywiście tak być.

Przejdźmy do dziedziny czasu.

Książki według daty wydania

Serwis LubimyCzytać.pl istnieje od jakiegoś czasu i zapewne jest tak, że stara się mieć w bazie najnowsze książki (o nowościach dyskutuje się najchętniej) – stąd im bliżej “dzisiaj” tym więcej książek. Brakuje kompletu danych z lat 2015-2017, bo ich najzwyczajniej w świecie nie pobrałem (ileż można czekać…). Widać jednak wyraźną tendencję i sądzę, że w kolejnych latach słupki są po prostu wyższe (no, 2017 może być jeszcze niższy niż 2016 – w końcu rok jeszcze trwa).

Ocena w zależności od daty wydania

Czy data wydana książki ma wpływ na jej ocenę?

W zasadzie nie, chociaż dla najnowszych książek linia zawija się wyraźnie ku górze. Być może znaczenie ma liczba ocen?

Liczba ocen w zależności od daty wydania

Z linii trendu tego nie widać (ot, faluje sobie jakoś), ale kiedy popatrzymy na zagęszczenie punktów to wyraźnie dla nowszych książek jest więcej ocen. To może potwierdzać strategię serwisu (lub po prostu ludzką natruę) – chętniej dyskutujemy czy oceniamy nowości. A ci, którzy czytają dużo na pewno przeczytali klasykę, a teraz czytają na bieżąco to co ukazuje się na rynku. I na bieżąco oceniają nie pamiętając aby uzupełnić oceny książek, które dawno temu przeczytali (to mój problem na Filwebie – mimo pewnie już prawie dwóch tysięcy ocenionych filmów ciągle są takie, które widziałem dawno temu, a ich nie oceniłem).

Oczywiście linia trendu spada po prawej stronie – brakuje nam danych to raz, a dwa – nie wszyscy przeczytali jeszcze te najnowsze książki. W końcu poziom czytelnictwa spada z roku na rok…

A czy grube książki są lepsze?

Liczba stron a ocena

Liczba stron nie ma bardzo dużego znaczenia dla oceny książki, ale jakieś ma. Im grubsza książka tym wyższa ocena. Delikatnie, ale jednak. Troszeczkę. Nie bardzo. W sumie wokół średniej.

Liczba stron a liczba ocen

Czyli odpowiedź na pytanie czy wolimy czytać grube książki?

Dla liczby ocen znaczenie ma już liczba stron. Znowu trend tego nie pokazuje tak mocno jak gęstość punktów. Najwięcej ocen mają książki po 200-300 stron. Czyli te najpopularniejsze.

Co ciekawe – kiedy narysujemy macierz ze współczynnikami korelacji to zależności pomiędzy rokiem (date), liczbą stron (pages), liczbą ocen (score_sum) i średnią oceną (score_mean) nie są zbyt mocne:

Najsilniejsza zależność wiąże liczbę stron i średnią ocenę, co już widzieliśmy na wykresach z liniami trendu.

Najbardziej płodni autorzy

Czyich książek mamy najwięcej?

I tutaj niespodzianka. Walt Disney jako autor książek? Redakcja magazynu National Geographic naprowadza na trop (zerknięcie w kategorie też) – są to książeczki z komiksami dla dzieci, kolorowankami i innymi wydawnictwami tego typu. LubimyCzytać ma po prostu w bazie nie tylko książki (powieści, poezje i albumy) ale też czasopisma i inne periodyki.

Druga sprawa: czy Verne napisał 174 książki? No raczej nie. Ale jego książki są:

  • wydawane przez różne wydawnictwa
  • wydawane w różnych językach
  • wydawane pod delikatnie różniącymi się tytułami (20000 mil – 8 sztuk, 20 000 mil – 7 sztuk, 20.000 mil – trzy sztuki, a to tylko przykład dla fragmentu jednego tytułu!)
  • wydawane w postaci całości lub podzielonej na tomy (Tom 1 albo część 1 albo cz.1 – super, co?)

Tutaj znowu kłania się porządek w danych i porządne słowniki. Czyli ta najbardziej upierdliwa rzecz w analityce, którą tutaj rozmyślnie odpuściłem. Ale to pokazuje też problem LubimyCzytać.pl (tylko czy oni potrzebują mieć to uporządkowane?).

W jakim języku są książki?

Oczywiście w polskim serwisie jest najwięcej książek polskojęzycznych.

Powtarzające się tytuły

Czy są tytuły (całe, a nie fragmenty), które się powtarzają? Zobaczmy 20 najpopularniejszych:

title n
Poezje 178
Opowiadania 129
Poezje wybrane 113
Wiersze 105
Wiersze wybrane 83
Baśnie 81
Wybór poezji 71
Bajki 66
Wspomnienia 61
Pan Tadeusz 56
Pamiętniki 55
Mały Książę 52
Przebudzenie 52
Tajemniczy ogród 51
Ania z Zielonego Wzgórza 50
Dziedzictwo 49
Listy 49
Powrót 49
Kopciuszek 48
Pinokio 46
W pustyni i w puszczy 46

Odpowiedź brzmi: są. I są to mało zaskakujące tytuły. Zaskoczeniem może jedynie jest skala – Pan Tadeusz wydany w 56 wersjach, u-la-la!

Pozostając przy tytułach zobaczmy czy są jakieś słowa, które w ramach danej kategorii są najbardziej popularne (w ramach tutułów)? To jest ciekawe! I jest duużo obrazków!

Najpopularniejsze słowa w tytułach – według kategorii

Zero zaskoczenia, całkowite zero.

Wszystkie kategorie

A jak wyglądają najpopularniejsze słowa, bez względu na kategorię? Wystarczy zagregować to co już mamy podzielone po kategoriach:

Tutaj mam pewne wątpliwości – czy rzeczywiście historia to najbardziej popularne słowo w tytułach wśród 330 tysęcy książek? Według obliczeń występuje ono 4036 razy, a więc w 1.22% książek. Bardzo dużo, ja jestem szczerze zaskoczony.

Ale może być tak, że w (pobranej) bazie serwisu jest jakaś nadreprezentacja danej kategorii. Być może serwis jest delikatnie ukierunkowany w stronę konkretnych odbiorców (piszemy trochę więcej o książkach historycznych, tak jak w jednej telewizji na abonament mówi się więcej o sukcesach rządu, a w takiej na reklamy – o jego wpadkach)? Tak czy inaczej – przydałaby się pełna, oczyszczona baza. Wówczas nasze analizy byłyby kompletne i nieco bardziej wiarygodne.

Sprawdźmy więc czy jest nadreprezentacja którejś kategorii?

No niestety jest… i to właśnie tej odpowiedzialnej za historię. Ale może tak właśnie wygląda rynek wydawniczy?

W dalszych rozważaniach pominiemy tę kwestię, ale można pokusić się o znormalizowanie wartości zgodnie z powyższym wykresem – na przykład najprościej mnożąc liczbę słów przez liczbę, która określa jaką część stanowi kategoria (jeśli kategoria to 10% wszystkich książek – mnożymy prze 10, jeśli 5% – przez dwadzieścia. Krótko mówiąc: mnożymy przez 100/x).

Co jeszcze można zrobić? Można przygotować chmurki najpopularniejszych bigramów (zbitek dwuwyrazowych) albo zrobić z bigramów graf, aby sprawdzić jakie słowa łączą się ze sobą, jak często i czy są kategorie gdzie dane połączenia są bardziej popularne. Wcześniej można oczyścić słowa z przypadków (sprowadzić je do mianowników) – pomocna może być hunspell_stem() z biblioteki hunspell (jest pakiet hunspell w CRAN).

Można pokusić się o sprawdzenie czy popularność określonych słów w tytule zmienia się w zależności od daty wydania książki. To brzmi ciekawie, sprawdźmy więc!

Mamy przygotowane dane, zobaczmy liczbę książek ze słowem historia w tytule – jak zmieniała się w poszczególnych latach?

To są wartości bezwzględne co nie daje nam obrazu czy udział książek z historią w tytule rośnie czy nie. Wykes wygląda zresztą podobnie do tego z liczbą książek w poszczególnych latach. Zderzmy więc obie dane ze sobą i określmy procent książek z danym tytułem zamiast liczby bezwzględnej.

Jak widać proporcjonalnie książek ze słowem historia w tytule nie przybywa (i nie ubywa) jakoś bardzo, a różnice są na poziomie dziesiętnych części punktu procentowego. Tym bardziej jestem zaskoczony popularnością tego słowa (ale widząc nadreprezentację kategorii już mniej).

Na koniec zobaczmy zatem sześć (akurat tyle, bo łatnie wygląda układ wykresów) najpopularniejszych słów w tytułach i ich zmianę w czasie:

Najwyraźniej widać wzrost liczby przewodników. Dobierając odpowiednie słowa można znaleść też inne ciekawostki. Weźmy kilka słów: opowiadania, spider man (jako oddzielne słowa), prawo, ludzie, zarządzanie oraz star wars (też oddzielnie):

Tutaj widać wzrost od początku lat dwutysięcznych wydawnictw związanych z zarządzaniem, spada liczba książek ze zbiorem opowiadań (tak można wnioskować po wystąpieniach tego słowa w tytułach), widać wyraźną zbieżność słów spider i man (w latach 1960-1970 to pewnie komiksy, po roku 1990 to książeczki dla dzieci), podobnie dla Star Wars.

Podobnie można prześledzić popularność poszczególnych autorów lub wydawnictw (ile tytułów zostało wydanych przez dane wydawnictwo w poszczególnych latach). Zestawiając dane o popularności wydawnictw z ich przychodami (o ile są dostępne na rynku, na przykład w raportach okresowych spółek) można próbować dobierać odpowiednie książki, które powinny być wydane aby zapewnić zysk. Oczywiście to bardzo uproszczone rozumowanie – w końcu nie oceniamy książek po okładce tytule.

Może ktoś z Was ma pomysł? Podzielcie się w komentarzach!

3 myśli na temat „Lubimy czytać – coś o książkach

  1. Analiza bardzo dobra, choć wiele z niej nie wynika, ot dowiedzieliśmy się że grubość książki nie ma znaczenia na jej treść.
    Co do stanu bazy danych LubimyCzytać.pl to jak najbardziej się zgadzam: jest tragicznie. Portal jest popularny dlatego że jest popularny, takiemu filmweb’owi do pięt nie dorasta.
    Wspominałeś coś w poście, że skrypt zbierający dane umieściłeś na serwerze. Co to za serwer i jak duże są koszty utrzymania przy masowym poborze danych z internetu?

Dodaj komentarz