czwartek, marca 30, 2006

Bawimy się w klasyfikacje dokumentów

W celu przetestowania mojej „teorii” semisubiektywnej klasyfikacji dokumentów, zacząłem dziś tworzyć program dokonujący właśnie takiej klasyfikacji.

Pierwszy krok mam już za sobą, mam klasy które potrafią wczytać plik i zliczyć w nim ilość słów ;-)

Pierwszym testem tych klas będzie sprawdzenie jak wygląda klasyfikacja przy pomocy wektorów, w przypadku dokumentów w języku polskim problemem może okazać się odmiana wyrazów, z tego też powodu większość testów chcę przeprowadzić z tekstami angielskimi. Podobny eksperyment przeprowadziłem półtora roku temu, ale rezultaty nie były do końca jasne.

Gdy skończę pisać program będę musiał uściślić warunki eksperymentu. Wstępnie myślę, że spróbuje na opowiadaniach, czy jak kto woli fanfic'ach ze świata Buffy i Angela. Sprawdzę czy „wektoryzacja” ;-) pozwala na rozróżnienie opowiadań w świecie Buffy i tych w świecie Angela.

Drugą częścią eksperymentów będzie próba implementacji wyszukiwania grup wyrazów, a później wzorców co jak sądzę będzie trudniejsze.

Na razie mój wzrok sięga tylko do tego momentu ;-)




Podobne postybeta
Działamy
"Semisubiektywna" klasyfikacja dokumentów ;-)
Gdzie jest Nawiedzony Dom z książek Chmielewski? ;-)
"Cześć"
Byłem u Buffy :-)