sobota, maja 06, 2006

Działa :-)

Kilka dni temu miałem wizję ;-)

Wizja tyczyła się moich zabaw z "semisubiektywną" analizą tekstów. Napisałem to co zobaczyłem w wizji i działa :-)

Skonstruowałem sobie 3 narzędzia.

Pierwsze to WebCrawler, który chodzi po stronach [na początku wypada mu wrzucić choć 1 adres] wrzuca ich treść do bazy danych, oraz szuka na nich linków, które też wrzuca do bazy. Po przejrzeniu dokumentu bierze kolejny z bazy i tak dalej i tak dalej.

Drugie narzędzie to SideAnalayzer, którego zadaniem jest analizowanie treści stron, wynikiem analizy są zbiory słów i ich częstotliwości występowania na danej stronie. Wyniki te również lądują w bazie danych.

Trzecie narzędzie to z braku lepszej nazwy Search ;-), dostaje ono adres strony, pobiera ją, buduje tabele częstotliwości występowania słów, pyta bazę o adresy stron gdzie występowało dane słowo, a następnie porównuje wszystkie wskazane dokumenty z tym, który dostało na początku.

Wynikiem działania trzeciego narzędzia jest lista wszystkich stron w bazie, które mają jakiekolwiek słowo wspólne z dokumentem źródłowym. Każdy z tych adresów jest wzbogacony również w "odległość" od dokumentu wzorcowego.
Jeżeli teraz taką listę posortujemy od najmniejszej odległości do największej to powinniśmy otrzymać listę dokumentów uszeregowaną według podobieństwa do dokumentu wzorcowego :-)

Sprawdziłem i działa :-)

Test przeprowadziłem jak na razie na bazie w której znajduje się ponad 103 tysiące słów oraz 392 dokumenty.

Wyniki poszukiwań najbardziej podobnego tekstu do tego wpisu w blogu to:
http://przemelek.blogspot.com/2006/05/roman.html
http://przemelek.blogspot.com/2006/04/podrujemy.html
http://przemelek.blogspot.com/2006/04/wdraam-cmm.html
http://przemelek.blogspot.com/2006/04/cvs-zamany.html
http://przemelek.blogspot.com/2006/05/czerwony.html
http://przemelek.blogspot.com/2006/05/nie-mwiem.html
http://przemelek.blogspot.com/2006/04/google-analytics-i-odwiedzacze.html
http://przemelek.blogspot.com/2006/05/biuro-on-line.html
http://przemelek.blogspot.com/2006/05/komputer-dla-mamy.html

Narzędzie nie jest jednak jeszcze doskonałe ;-) Po pierwsze strasznie długo działa ;-)


Podobne postybeta
Eksperyment, czyli z Google+ do Bloggera ;-)
Lepszy test mniejszy i dokładniejszy, niż większy i ogólniejszy ;-)
"Semisubiektywna" klasyfikacja dokumentów ;-)
Kombatanctwo JavaScript'owe ;-)
Żyje :-)