wtorek, kwietnia 04, 2006

Postęp... powolny postęp

Prace nad moim systemem „semisubiektywnej” klasyfikacji dokumentów posuwają się... z tym że posuwają sie wolno ;-)

Ostatnim problemem, z którym się zetknąłem realizując projekt jest to, że jeżeli podzielę obiekt utworzony ze Stringa przy pomocy split(RegEx) to jednakowo „brzmiące” [bardziej - identyczne co do treści] Stringi nie będą identycznymi kluczami w Hashtable'u ;-) W każdym bądź razie wszystko na to wskazuje i wydaje mi się to być zachowaniem logicznym.

Na razie posuwam się linią najmniejszego oporu i zamierzam sprawdzić jak do oceny podobieństwa służyć może ocena prawdopodobieństwa zdania z dokumentu badanego na podstawie zestawu dwu wyrazowych zbitek. W skrócie jeżeli wiem, że w korpusie prawdopodobieństwa zbitek są np. takie:

jak na – 80%

jak to – 20%

na razie – 60%

na to – 30%

na który – 30%

i tak dalej

a badane zdanie zaczyna się od „Jak na razie...” to mogę policzyć, że prawdopodobieństwo wystąpienia takiego ciągu to 0.8*0.6 czyli 0.48, za to „Jak na to” to 0.8*0.3 czyli 0.24 jest więc 2 razy mniejsze. Nie pozwoli mi to prawie na pewno stwierdzić o czym jest tekst, ale powinno pozwolić wyłapać coś co nie jest prawidłowym zdaniem, a to już coś ;-)




Podobne postybeta
Droga do celu..
"Semisubiektywna" klasyfikacja dokumentów ;-)
Nie rozumiem ;-)
Zakład MENu
Ekszperyment :-) czyli Podobne posty :-)