poniedziałek, marca 13, 2023

Pomysł na projekt MLowy ;-)

Od dłuższego czasu zamierzam się znów zabrać za Machine Learning, ale brakowało mi jakoś zacięcia.

Wczorajszy post mnie jednak natchnął ;-) i dziś zrobiłem pierwsze kroki.

Po pierwsze zidentyfikowałem coś co będzie celem mojego projektu ;-) zaczęło się od tego, że oglądałem chyba Halo i była mowa o ochronie swoich notatek i znów mnie dopadło, że nie mam swoich notatek i tak de facto najbliższym czymś podobnym do moich notatek jest ten blog ;p
Mam co prawda Notion, Evernote i Obsidiana ale jakoś nigdy mi nie wychodzi notowanie.
Stąd uznałem, że np. post sprzed 2 dni o GC i wcześniejsze o GC i Java'ie mogłyby być fajnym zaczątkiem części notatek, to samo z innymi wpsiami.

Tu padło pytanie (w głowie) "OK, fajnie, ale jak znajdę te odpowiednie notki, sam ich będę szukał?".

Pomyślałem o tagach i o tym, że jednak ostatnie posty (w sensie z ostatnich lat) ich zbytnio nie mają....

I tak narodził się pomysł by sprawdzić czy da się zbudować model do tagowania postów ;-)

Plan jest taki by mieć tak naprawdę 61 modeli ;-) (bo tyle mam tagów na blogu), i by użyć Linear Regression i może Bayesa.

Dziś (czy bardziej wczoraj ;-)) poszła część prostsza, zebranie danych.

Mam więc 2841 postów, z 85147 słowami różnymi, z czego 1176 postów ma tagi, tagów jest 61, a unikalnych słów w tych postach jest 52383 sztuk.

Trochę mnie te liczby przerażają ;-) bo każdy model będzie miał 52384 parametry... może warto będzie odjąć jeszcze popularne słowa?
Boję się tego, że Octave może spędzić parę dni na trenowaniu takiego modelu ;-)
A ja pewnie spędzę parę dni próbując napisać kod do tego, bo szczerze nie mam jeszcze pomysłu czy mogę wszystkie model szkolić od razu, czy będę musiał każdy z 61 oddzielnie... co by było prostsze bo kod już mam i mógłbym go użyć. 

Mam już:

  • pomysł,
  • dane:
    • wszystkie posty wraz z tagami
Teraz brakuje:
  • wektorów dla poszczególnych postów (ale to jest pikuś)
  • skryptów do trenowania 61 modeli
  • test
Tak do mnie jeszcze dotarło, że nie wystarczy mieć przykładów postów z tagiem, trzeba by było jeszcze mieć przykłady postów bez taga...




Podobne postybeta
Potok świadomości - Machine Learning może tagować posty ;-), iPhone ssie, fajne książki, spać.....
Tagowanie postów MLem - trzeba to przepisać ;p
Otagowane v0.0.1 ;-)
Blog to jednak nie jest dobre źródło notatek ;-)
Tagowanie MLem... ciąg dalszy ;-) nadal brak sukcesów ;p

Brak komentarzy:

Prześlij komentarz