Od dłuższego czasu zamierzam się znów zabrać za Machine Learning, ale brakowało mi jakoś zacięcia.
Wczorajszy post mnie jednak natchnął ;-) i dziś zrobiłem pierwsze kroki.
Po pierwsze zidentyfikowałem coś co będzie celem mojego projektu ;-) zaczęło się od tego, że oglądałem chyba Halo i była mowa o ochronie swoich notatek i znów mnie dopadło, że nie mam swoich notatek i tak de facto najbliższym czymś podobnym do moich notatek jest ten blog ;p
Mam co prawda Notion, Evernote i Obsidiana ale jakoś nigdy mi nie wychodzi notowanie.
Stąd uznałem, że np. post sprzed 2 dni o GC i wcześniejsze o GC i Java'ie mogłyby być fajnym zaczątkiem części notatek, to samo z innymi wpsiami.
Tu padło pytanie (w głowie) "OK, fajnie, ale jak znajdę te odpowiednie notki, sam ich będę szukał?".
Pomyślałem o tagach i o tym, że jednak ostatnie posty (w sensie z ostatnich lat) ich zbytnio nie mają....
I tak narodził się pomysł by sprawdzić czy da się zbudować model do tagowania postów ;-)
Plan jest taki by mieć tak naprawdę 61 modeli ;-) (bo tyle mam tagów na blogu), i by użyć Linear Regression i może Bayesa.
Dziś (czy bardziej wczoraj ;-)) poszła część prostsza, zebranie danych.
Mam więc 2841 postów, z 85147 słowami różnymi, z czego 1176 postów ma tagi, tagów jest 61, a unikalnych słów w tych postach jest 52383 sztuk.
Trochę mnie te liczby przerażają ;-) bo każdy model będzie miał 52384 parametry... może warto będzie odjąć jeszcze popularne słowa?
Boję się tego, że Octave może spędzić parę dni na trenowaniu takiego modelu ;-)
A ja pewnie spędzę parę dni próbując napisać kod do tego, bo szczerze nie mam jeszcze pomysłu czy mogę wszystkie model szkolić od razu, czy będę musiał każdy z 61 oddzielnie... co by było prostsze bo kod już mam i mógłbym go użyć.
Mam już:
- pomysł,
- dane:
- wszystkie posty wraz z tagami
wektorów dla poszczególnych postów (ale to jest pikuś)- skryptów do trenowania 61 modeli
- test
Podobne postybeta
Potok świadomości - Machine Learning może tagować posty ;-), iPhone ssie, fajne książki, spać.....
Tagowanie postów MLem - trzeba to przepisać ;p
Otagowane v0.0.1 ;-)
Blog to jednak nie jest dobre źródło notatek ;-)
Tagowanie MLem... ciąg dalszy ;-) nadal brak sukcesów ;p
Brak komentarzy:
Prześlij komentarz