środa, października 12, 2016

Clickbait detector ;-) - czyli próbujemy użyć naiwnego klasyfikatora Bayesowskiego do rozpoznawania clickbaitów ;-)

Pomysł przyszedł mi dziś do głowy gdy skimowałem (czyli szybko skanowałem ;-) artykuł "The Pot-Belly of Ignorance", który polecił mi Pocket.
Artykuł jest o tym, że jesteśmy tym co czytamy, a czytamy dużo śmieci, które są clickbaitami...

To stwierdziłem, że sprawdzę czy uda się może zrobić coś co będzie wykrywać clickbaity ;-)

Szybki skan po sieci zaprowadził mnie do projektu na GitHubie gdzie autor próbował coś takiego zrobić z machine learningiem i Pythone.

To zapędziłem do działania trochę Pythona i zrobiłem to co można znaleźć na moim GitHubie - ClickBaitDetector ;-)

Jest to wtyczka do Chrome, która przy "podejrzanych" artykułach dodaje ikonkę .

Czego efekty widać poniżej (trzeba otworzyć duży obrazek).


Na razie nie powiem by powalała dokładnością ;-) powiedziałbym, że trafiło w 1 przypadku, OK w 3. Z Kim Kardashian, z Chicago Cubs i niestety z Emmą Watson.

Jak na wynik ostatnich ~60 minut nie jest tragicznie, szczególnie, że cała klasyfikacja to sprawdzenie czy słowo częściej występuje wśród "dobrych" czy "złych" i później jeśli prawdopodobieństwo "złego" jest 2 razy większe niż "dobrego" to dodajemy ikonkę.... ale nawet nie ma normalizacji wyników priorów.... jeszcze ;-)

Ot taka ciekawostka ;-)


Podobne postybeta
ClickbaitDetector - to działa :-)
Czy jest dziś sobota? ;-)
Logistic Regression wykrywa clickbaity lepiej od Bayesa ;-)
Naiwny klasyfikator bayesowski nie jest jednak dobry do rozpoznawania clickbaitów ;-)
Smile Challenge ;-) - takie tam MVP