Kilka dni temu miałem wizję ;-)
Wizja tyczyła się moich zabaw z "semisubiektywną" analizą tekstów. Napisałem to co zobaczyłem w wizji i działa :-)
Skonstruowałem sobie 3 narzędzia.
Pierwsze to WebCrawler, który chodzi po stronach [na początku wypada mu wrzucić choć 1 adres] wrzuca ich treść do bazy danych, oraz szuka na nich linków, które też wrzuca do bazy. Po przejrzeniu dokumentu bierze kolejny z bazy i tak dalej i tak dalej.
Drugie narzędzie to SideAnalayzer, którego zadaniem jest analizowanie treści stron, wynikiem analizy są zbiory słów i ich częstotliwości występowania na danej stronie. Wyniki te również lądują w bazie danych.
Trzecie narzędzie to z braku lepszej nazwy Search ;-), dostaje ono adres strony, pobiera ją, buduje tabele częstotliwości występowania słów, pyta bazę o adresy stron gdzie występowało dane słowo, a następnie porównuje wszystkie wskazane dokumenty z tym, który dostało na początku.
Wynikiem działania trzeciego narzędzia jest lista wszystkich stron w bazie, które mają jakiekolwiek słowo wspólne z dokumentem źródłowym. Każdy z tych adresów jest wzbogacony również w "odległość" od dokumentu wzorcowego.
Jeżeli teraz taką listę posortujemy od najmniejszej odległości do największej to powinniśmy otrzymać listę dokumentów uszeregowaną według podobieństwa do dokumentu wzorcowego :-)
Sprawdziłem i działa :-)
Test przeprowadziłem jak na razie na bazie w której znajduje się ponad 103 tysiące słów oraz 392 dokumenty.
Wyniki poszukiwań najbardziej podobnego tekstu do tego wpisu w blogu to:
http://przemelek.blogspot.com/2006/05/roman.html
http://przemelek.blogspot.com/2006/04/podrujemy.html
http://przemelek.blogspot.com/2006/04/wdraam-cmm.html
http://przemelek.blogspot.com/2006/04/cvs-zamany.html
http://przemelek.blogspot.com/2006/05/czerwony.html
http://przemelek.blogspot.com/2006/05/nie-mwiem.html
http://przemelek.blogspot.com/2006/04/google-analytics-i-odwiedzacze.html
http://przemelek.blogspot.com/2006/05/biuro-on-line.html
http://przemelek.blogspot.com/2006/05/komputer-dla-mamy.html
Narzędzie nie jest jednak jeszcze doskonałe ;-) Po pierwsze strasznie długo działa ;-)
Podobne postybeta
Eksperyment, czyli z Google+ do Bloggera ;-)
Lepszy test mniejszy i dokładniejszy, niż większy i ogólniejszy ;-)
Kombatanctwo JavaScript'owe ;-)
"Semisubiektywna" klasyfikacja dokumentów ;-)
Żyje :-)
sobota, maja 06, 2006
Subskrybuj:
Komentarze do posta (Atom)
Brak komentarzy:
Prześlij komentarz