Kto napisał tę książkę?

Czy da się rozpoznać kto jest autorem książki na podstawie jej treści? Są tacy badacze, którzy to robią (i na przykład podważają autorstwo niektórych dramatów Szekspira), my zrobimy to samo z kryminałami (bo jest to takie zadanie śledcze).

Na warsztat weźmiemy dwóch poczytnych polskich autorów, tak żebyście mieli szansę sprawdzić czy to co wychodzi jest zgodne z tym co znacie z książek. Oczywiście czytaliście je, prawda?

Mowa o Zygmuncie Miłoszewskim i jego trylogii o Teodorze Szackim oraz Remigiuszu Mrozie i jego trzech książkach o Joannie Chyłce. Do tego dorzucimy dwie książki – “Bezcennego” oraz “Enklawę”. Udamy, że nie wiemy kto je napisał. Żeby było trudniej – “Enklawa” podpisana jest przez Ove Løgmansbø, ale nawet sam Mróz na swojej stronie przyznaje się, że to jego pseudonim, zaś “Bezcenny” nie jest o Szackim.

Żeby było jeszcze zabawniej – ja (jeszcze, czeka właśnie w kolejce) nie czytałem żadnej książki Remigiusza Mroza, więc nie wiem o czym i o kim są (ta Chyłka to wynik tego co poniżej).

Czego potrzebujemy? Oczywiście tekstów książek. Powinny być w plikach tekstowych. Najprościej przenieść je do takiego formatu z plików .mobi przy pomocy oprogramowania Calibre – wczytujemy MOBI i konwertujemy na TXT.

Wszystkie pliki TXT nazwałem odpowiednio i umieściłem w jednym folderze. Kilka operacji i wczytujemy wszystko do jednej dużej tabeli, w której kolumny to: autor książki, jej tytuł i w kolejne wiersze tekstu.

Mamy więc wielką tabelę, zobaczmy co można powiedzieć o książkach.

Najpopularniejsze słowa w książkach

Autora można rozpoznać między innymi po tym jakich słów używa. Pojedynczych słów lub ich zbitek. Można też analizować na przykład długość zdań (liczbę wyrazów w zdaniu). Zajmijmy się częstością użycia słów, a żeby to policzyć potrzebujemy każdy wiersz rozbić na pojedyncze słowa:

Zobaczmy jak to wygląda – jakie słowa w poszczególnych książkach są najpopularniejsze?

Chmurki są fajne, ale nie da się łatwo porównać popularności poszczególnych słów. Zestawmy po 20 najpopularniejszych słów z każdej z książek ze sobą, na jednym wykresie:

Teraz widać już o wiele więcej. Na przykład widać, że:

  • Szacki występuje tylko trzech w książkach (Uwikłanie, Gniew oraz Ziarno prawdy – wiemy, że to książki Miłoszewskiego). Tak samo jest z imieniem Teodor, więc Szacki to może właśnie Teodor?
  • i w dodatku w tych trzech książkach występuje jakiś prokurator – czyżby Teodor Szacki był prokuratorem?
  • Chyłka występuje u trzech książkach (Rewizja, Zaginięcie, Kasacja – książki Mroza), podobnie Joanna (bo może to Joanna Chyłka?), Kordian i Oryński – czyżby to imiona bohaterów (książki jeszcze nie czytałem, przypominam)
  • Olsen występuje w “Enklawie” – pasuje to do autora książki Ove Løgmansbø, podobnie jak Hallbjorn, Ellegaard czy Sigvald. Pewnie znowu bohaterowie
  • obraz jest tylko w “Bezcennym” – czyżby o jakimś obrazie była ta książka? Słowo sztuki też naprowadza na taki trop

Ale są ciekawostki, które naprowadzają na autorstwo:

  • zapytał oraz zapytała są o wiele częściej w książkach Mroza i “Enklawie” niż u Miłoszewskiego
  • podobnie jest z głową
  • pomyślał załapało się tylko u Miłoszewskiego – w Gniewie i w Uwikłaniu

Można tak dalej, słowo po słowie. Zobaczmy to samo nieco inaczej zaprezentowane:

Bez wnikania w szczegóły (poszczególne słowa) widać od razu, że wykresy Nieznany_A oraz Zygmunt Miłoszewski mają zagęszczenie punktów w swojej dolnej części, a w tych samych miejscach Nieznany_B oraz Remigiusz Mróz mają raczej pusto. Analogicznie (ale odwrotnie – Nieznany_A i Miłoszewski mają mniej, Mróz i Nieznany_B mają więcej) jest w środkowej części wykresów.

Weźmy teraz

słowa, które występują we wszystkich książkach

i skupmy się na nich.

Mając tak przygotowane dane może wreszcie odpowiemy na pytanie

Kto napisał tę książkę?

Trochę już co prawda wywnioskowaliśmy (pamiętacie – NieznanyA to pewnie Miłoszewski, zaś NieznanyB to Mróz), ale sprawdźmy to jakimiś twardymi liczbami.

Na początek najprostsza rzecz, czyli

metoda korelacji

Z macierzy korelacji widać, że największe współczynniki mają pary Nieznany_A – Miłoszewski oraz Nieznany_B – Mróz. Dodatkowo są to korelacje bardzo silne.

Książka napisana przez Nieznany_A to Bezcenny zaś Nieznany_B jest autorem Enklawa. Zgada się, prawda?

Teraz spróbujmy inaczej.

Statystyka

Proponuję metodę, gdzie oprzemy się na najmniejszej odległości (różnicy) między częstością słów w tekście (ich procentowym udziałem). A takie odległości potraktujemy statystycznymi miarami – średnią, medianą i odchyleniem standardowym i porównamy te współczynniki. Tak sobie wymyśliłem, nie wiem czy się sprawdzi.

Interesują nas najmniejsze wartości, bo one oznaczają najmniejszą różnicę. Z wykresu widać, że najmniejsze wartości dla każdego z czynników mają pary NA_Miłoszewski oraz NB_Mróz.

Czyli dokładnie tak samo jak wcześniej! Znowu się udało! To już kolejny raz, zagadka chyba rozwiązana?

bi-gramy

Jak już mamy dane to zobaczmy jakie są najpopularniejsze dwuwyrazowe zbitki w poszczególnych książkach:

Widać na przykład, że u Mroza pokiwał głową występuje częściej niż u Miłoszewskiego. W ogóle u Mroza dużo z głową robią (kiwają, kręcą, jedna pani zaś skinęła i to wiele razy).

Tutaj można zrobić dokładnie to samo co z pojedynczymi słowami – zestawić takie same zbitki u obu (właściwie czterech – w końcu co do dwóch Nieznanych nie mamy pewności) autorów i policzyć wzajemne korelacje lub odległości. Mechanika jest dokładnie taka sama jak wyżej. Danych jest jednak mniej i w związku z tym wyniki mogą nie wyjść tak wyraźnie.

Zróbmy to samo dla trójek wyrazów, czyli

tri-gramy

Usuwamy trójki, które występuja najczęściej w każdej z książek (wcześniej obejrzałem te same chmurki bez filtrowania) – żeby obrazki były bardziej czytelne:

Pierwsza trójka usuniętych to książki Mroza (bez Enklawy), ostatnia – to oczywiście Miłoszewski (bez Bezcennego). Rysujemy takie wyczyszczone chmurki:

Widzę, że to co mnie czeka u Remigiusza Mroza to XXI piętro wieżowca Skylight, Hard Rock Cafe i Saska Kępa (ulica Argentyńska konkretnie). Znaczy – w Warszawie się będzie działo. Wśród prawników z kancelarii Żelazny McVay, która mieści się na Saskiej Kępie?

Dowiem się już niedługo.

3 myśli na temat „Kto napisał tę książkę?

  1. Trafiłem przypadkiem na Pana bloga, poprzez dziennikarz.pl (jakiś z komentarzy Pana mnie pokierował tu) – zostanę baardzo długo. Wrócę do domu to zacznę porównywać sobie w podobny sposób prace Sienkiewicza z na przykład Arthurem Conanem Doyle :)

Dodaj komentarz