przemelek: Droga do celu..

niedziela, kwietnia 02, 2006

Droga do celu..

To obok to moja droga do celu [w rzeczywistości to była droga do domu, do celu jeździłem w drugą stronę ;-)].

W ramach testowania możliwości „semisubiektywnej” klasyfikacji dokumentów chcę przetestować badanie podobieństwa dokumentów poprzez badanie gęstości zbitek wyrazowych. Każde słowo ma swoje prawdopodobieństwo wystąpienia, ale takie prawdopodobieństwo ma również zbitka dwóch, trzech i czterech słów.

To co trzeba zrobić to przeanalizować dokument wyszukując wszystkie możliwe 2 wyrazowe zbitki, następnie należy policzyć prawdopodobieństwo każdej zbitki liczone jako prawdopodobieństwo wystąpienia drugiego słowa po pierwszym. Dzięki temu możliwe będzie oszacowanie prawdopodobieństwa wystąpienia dowolnie długiego ciągu [co daje nawet dość ciekawą możliwość zmierzenia prawdopodobieństwa, czy raczej poprawności nawet takich ciągów, które nie występują w tekście źródłowym.... ;-)].

Problemem jaki się przede mną pojawia jest to jak wykorzystać te informacje.

Proste porównanie zestawów zbitek dla dwóch dokumentów nie da żadnej ciekawej informacji.

Czuję jednak, że w tych danych znajduje się to czego potrzebuje... muszę to tylko znaleźć ;-)

Podobne posty^beta
Postęp... powolny postęp
"Semisubiektywna" klasyfikacja dokumentów ;-)
Windows Phone nie dla mnie (i nie dla innych mieszkańców Polski) ;-)
BigInteger i liczby pierwsze ;-)
Wierszowy data mining

przemelek

niedziela, kwietnia 02, 2006

Droga do celu..

Brak komentarzy:

Prześlij komentarz

O mnie

Obserwatorzy

Szukaj na tym blogu

Twitter Updates

Twitter Updates

Linki aka sznurki

Labelki aka tematy

Archiwum