niedziela, kwietnia 02, 2006

Droga do celu..

To obok to moja droga do celu [w rzeczywistości to była droga do domu, do celu jeździłem w drugą stronę ;-)].


W ramach testowania możliwości „semisubiektywnej” klasyfikacji dokumentów chcę przetestować badanie podobieństwa dokumentów poprzez badanie gęstości zbitek wyrazowych. Każde słowo ma swoje prawdopodobieństwo wystąpienia, ale takie prawdopodobieństwo ma również zbitka dwóch, trzech i czterech słów.

To co trzeba zrobić to przeanalizować dokument wyszukując wszystkie możliwe 2 wyrazowe zbitki, następnie należy policzyć prawdopodobieństwo każdej zbitki liczone jako prawdopodobieństwo wystąpienia drugiego słowa po pierwszym. Dzięki temu możliwe będzie oszacowanie prawdopodobieństwa wystąpienia dowolnie długiego ciągu [co daje nawet dość ciekawą możliwość zmierzenia prawdopodobieństwa, czy raczej poprawności nawet takich ciągów, które nie występują w tekście źródłowym.... ;-)].

Problemem jaki się przede mną pojawia jest to jak wykorzystać te informacje.

Proste porównanie zestawów zbitek dla dwóch dokumentów nie da żadnej ciekawej informacji.

Czuję jednak, że w tych danych znajduje się to czego potrzebuje... muszę to tylko znaleźć ;-)




Podobne postybeta
Postęp... powolny postęp
"Semisubiektywna" klasyfikacja dokumentów ;-)
Wierszowy data mining
Windows Phone nie dla mnie (i nie dla innych mieszkańców Polski) ;-)
BigInteger i liczby pierwsze ;-)