środa, września 06, 2006

Wierszowy data mining

Dziś w odpowiedzi na maila w którym użyłem kawałka wierszyka dowiedziałem się, że moja "rozmówczyni" zna inną wersję tego wierszyka.

Postanowiłem więc wykorzystać nowoczesne metody do stwierdzenia jak to jest naprawdę ;-)

Istnieją 3 wersje wierszyka o kwietniu.

Mnie uczono takiej (wersja A):
"Kwiecień plecień, poprzeplata - trochę zimy, trochę lata"

Moją rozmówczynię takiej (wersja B):
"Kwiecień plecień, bo przeplata - trochę zimy, trochę lata"

A istnieje również taka (wersja C):
"Kwiecień plecień, wciąż przeplata - trochę zimy, trochę lata"

Data mining z użyciem Google wskazał dla wersji A 119 wystąpień, dla wersji B 607, a dla wersji C 103 wystąpienia.
[Gdy użyje się dosłownych wierszyków to mamy odpowiednio 15, 171 i 36 ;-)]

Czyli wersja najpopularniejsza to taka:
"Kwiecień plecień, bo przeplata - trochę zimy, trochę lata"

Jednak samo słowo "poprzeplata" występuje wg. Google'a 383 razy, zbitka "bo przeplata" 1890, a "wciąż przeplata" 295.


Wersja Wystąpień wierszyka Wystąpień w ogóle %
poprzeplata 119 383 31,07%
bo przeplata 607 1890 32,12%
wciąż przeplata 103 295 34,92%

Jak widać wyżej procent użycia danego zwrotu jest praktycznie identyczny dla każdego z wariantów [procent użycia liczymy tutaj jako stosunek ilości wystąpień wierszyka z danym zwrotem do ogólnej liczby wystąpień danego słowa], co może sugerować, że po prostu nikt z piszących nie był pewien jak jest naprawdę i pisał tak jak mu pasowało.

Wniosek z tego taki: Każda z wersji jest poprawna ;-)


Podobne postybeta
Nexus 4 i przebrzydły czujnik zbliżeniowy ;-)
To były czasy ;-)
CD/DVD to takie wyszukane /dev/null ;-)
Out of książka ;-)
Ile potrwa kryzys? Pierwsze szacunki.