niedziela, czerwca 30, 2024

Automagiczne tagowanie postów jest jednak większe niż myślałem...

Wychodzi na to, że nie doceniłem wielkości problemu w przypadku trenowania modeli do tagowania postów na blogu.

Tak z 15 miesięcy temu zrobiłem pierwsze podejście i chcąc to zrobić szybko użyłem Octave do policzenia modeli (każdy tag ma swój model), zabrało to z godzinę.
Zawsze myślałem, że to przez to, że Octave jest wolne...

W planach miałem przepisanie trenowania na Java'ę, albo Pythona.

W końcu użyłem ChatGPT (Gemini Ultra też, ale wziąłem to co napisało ChatGPT), które napisało mi kod w Pythonie + NumPy + SciPy,

Uruchomiłem... i 62 modele policzyły się w 35 minut.

Zaskoczyło mnie to, tak jakoś miałem nadzieję, że może z minuta, dwie to zajmie....

Chociaż jak teraz spojrzałem na wielkość danych, to OK, próbuję znaleźć 49k parametry, a moje wejście to 73-74 miliony 0 i 1 dla każdego taga... czyli mam na wejściu ponad 4.5G liczb.... chociaż nie wiem czy np. wyrzucam pojedyncze wystąpienia słowa....

Ale w skrócie nie jest to wcale taki mały problem przy użyciu LR ;-)

Teraz się zastanawiam czy po prostu nie użyć API ChatGPT ;-)


Podobne postybeta
ClickbaitDetector - to działa :-)
Tagowanie postów MLem - trzeba to przepisać ;p
Pomysł na projekt MLowy ;-)
Automagiczne dodawanie tagów do Pocket :-)
Równoległe liczenie modeli przy pomocy Octave

Brak komentarzy:

Prześlij komentarz