Kiedy sztuczna inteligencja rewolucjonizuje świat, coraz więcej graczy chce działać na wielką skalę. Niektórzy badacze są jednak zdania, że w tej dziedzinie czasami mniej znaczy więcej.
Aby tego dowieść, zespół badawczy IBM idzie w drugą stronę i zamiast kolejnego dużego modelu przedstawia nowe narzędzie o nazwie TinyTimeMixer (TTM). Jak sama nazwa wskazuje, tym razem chodzi o coś niezwykle małego.
W wyłącznym wywiadzie dla Techopedii Jayant Kalagnanam, Dyrektor ds Zastosowań Sztucznej Inteligencji w IBM, wyjaśnia, jak działa najnowszy model sztucznej inteligencji. Rewolucyjne narzędzie podobno nie potrzebuje ścigać się z innymi na parametry, by osiągać lepsze wyniki niż duże modele językowe (LLM) w zakresie prognozowania szeregów czasowych.
Najważniejsze punkty
- Opracowane przez IBM narzędzie TinyTimeMixer (TTM) sprawdza się lepiej niż duże modele językowe w zakresie prognozowania szeregów czasowych. Koncentruje się bowiem na właściwościach i algorytmach, a nie na parametrach.
- TTM to lekki, wstępnie przeszkolony model AI, który zapewnia o 40% wyższą dokładność przy zmniejszonych aż 300 razy obliczeniach i opóźnieniu.
- W przeciwieństwie do dużych modeli językowych TTM może działać na tradycyjnych komputerach (nie potrzebuje procesora graficznego), dzięki czemu ma szeroki wachlarz zastosowań.
- IBM wykorzystuje TTM do celów wewnętrznych, a także we współpracy z partnerami do zadań takich jak zarządzanie workloadem, prognozowanie cen akcji czy optymalizacja produkcji.
- TinyTimeMixer dowodzi, że małe, targetowane modele AI mogą osiągać lepsze wyniki w konkretnych dziedzinach.
Od grypy po energię: Czy modele do prognozowania szeregów czasowych ratują świat?
Modele do prognozowania szeregów czasowych przydają się do przewidywania cen akcji, sprawnego zarządzania popytem i podażą, formułowania prognoz pogody czy zużycia energii, a także do optymalizowania łańcuchów dostaw. A to dopiero początek.
Niedawne badanie opublikowane na łamach BMC Public Health wykazało, że sztuczna inteligencja oparta na szeregach czasowych ma spory potencjał na przykład w dziedzinie opieki zdrowotnej. W publikacji opisano, jak nowe technologie w połączeniu z modelami opartymi na szeregach czasowych sprawdzają się do prognozowania występowania chorób grypopodobnych w chińskiej prowincji Hebei.
Informacje wygenerowane przez modele sztucznej inteligencji mogą okazać się kluczowe w projektowaniu lepszych metod prewencji i kontroli zachorowań.
Tiny AI – sztuczna inteligencja w skali mikro?
W zeszłym miesiącu dział badawczy IBM przedstawił oficjalną publikację na temat narzędzia Tiny AI. Wykazano wówczas, że TinyTimeMixer (TTM) — pierwszy na świecie mały wstępnie wytrenowany model AI oparty na szeregach czasowych — osiąga lepsze wyniki niż większe modele.
Kalagnanam z firmy IBM w wywiadzie dla Techopedii powiedział, że prognozowanie na podstawie modelu szeregu czasowego przydaje się również w innych dziedzinach, takich jak energetyka, zrównoważony rozwój, analiza wypadków drogowych i zarządzanie ruchem, a także pogoda czy produkcja.
„Biorąc pod uwagę wszystkie zmiany obserwowane obecnie w branży energetycznej, w tym również zmianę klimatu i rosnącą popularność odnawialnych źródeł energii, potrzebne będą precyzyjne modele do prognozowania, by umożliwić przewidywanie i dokładne planowanie codziennej konsumpcji energii.”
Energetyka – prognozowanie w technologii przyszłości
Do tej pory dostawcy energii przewidywali obciążenie swojej sieci na poziomie transformatorów. Są to przewody wysyłające energię do odbiorców końcowych, takich jak gospodarstwa domowe czy firmy.
Gdy coraz więcej gospodarstw domowych zaczyna wykorzystywać energię solarną czy inne OZE, modele oparte na szeregach czasowych mogą przyczynić się do bardziej precyzyjnego prognozowania zapotrzebowania na energię na poziomie transformatorów w całej sieci.
„Ogólnie mówiąc, niezależnie od zastosowania, wstępnie wytrenowany model ma przewagę, ponieważ zdążył przyswoić wzory czasowe, które da się w miarę szybko dostosować do konkretnej domeny czy dziedziny (często wystarczy raptem 5-15% danych, które byłyby niezbędne w innym modelu).”
Dlaczego prognozowanie oparte na szeregach czasowych nie weszło do powszechnego użytku?
Skoro modele oparte na szeregach czasowych mają taki potencjał automatyzacji całych sektorów i branż, zapytacie zapewne, dlaczego ta technologia nie jest powszechnie dostępna?
Kalagnanam z IBM odpowiada na to pytanie:
„Trudno jest skonstruować model oparty na szeregu czasowym z uwagi na zróżnicowanie i deficyt publicznie dostępnych danych treningowych.
„Współczesne modele oparte na szeregach czasowych są duże i działają bardzo wolno. Bazują na miliardzie parametrów.”
I tu właśnie nowe rozwiązanie IBM może okazać się rewolucyjne. TTM to niezwykle lekki, wstępnie wytrenowany model, który łatwo będzie spersonalizować. Efekty będą widoczne niemalże od ręki. Model można za darmo pobrać, modyfikować i użytkować.
TTM to model dostępny na zasadzie open-source na Hugging Face. Wykazuje o 40% lepszą dokładność, a do tego 300 razy mniejsze opóźnienie i zapotrzebowanie na moc obliczeniową niż większe modele. Ta sztuczna inteligencja jest tak mała, że można ją z powodzeniem uruchomić na tradycyjnym komputerze lub laptopie. Nie wymaga zaawansowanego procesora graficznego.
Widzimy już, że polaryzuje się podejście do modeli takich jak opracowany przez OpenAI ChatGPT 4, który podobno ma 1,75 bilionów parametrów, podczas gdy zapowiadane modele, takie jak LLama 4 firmy Meta, mają mieć jeszcze więcej.
Wstępnie przeszkolony model zero-shot
Opracowane przez IBM narzędzie TTM to model zero-shot. Pod tym względem przypomina większe modele: oznacza to, że jest w stanie wykonywać zadania lub generować pytania na tematy, w których nie został wytrenowany. Mówiąc prościej: wygeneruje odpowiedź, nawet jeśli nie dostanie konkretnych przykładów.
Podejście zero-shot cieszy się sporym zainteresowaniem w społeczności badawczej, szczególnie podczas budowania ogólnych, wstępnie wyszkolonych lub podstawowych modeli prognozowania szeregów czasowych, które mogą z powodzeniem „generować prognozy z niewidocznych zestawów danych”.
Kalagnanam wymienił inne znaczące osiągnięcia, które IBM TTM ma obecnie na swoim koncie.
„Dział IBM Research opracował dwa istotne elementy:
„Nowa architektura (patchTST i patchTSMixer), która znakomicie wypadła w testach porównawczych, pokonując inne modele, a tym samym pokazując znaczenie nowych metod.
„Wstępnie wytrenowane modele dla domen szeregów czasowych są stosunkowo nowe (głównie zjawisko z 2024 r.)”.
Jak małe modele mogą osiągać imponujące rezultaty w domenie prognozowania szeregów czasowych
TTM bardziej przypominają modele machine learning niż LLM, które łączą w sobie cechy kilku modeli. Mała technologia ma o wiele mniej parametrów, ponieważ jej moc, wydajność i precyzja nie zależą od parametrów, ale od właściwości i algorytmów zaprojektowanych z myślą o konkretnych funkcjach.
Dzięki skonkretyzowanemu podejściu TTM jest małe, a zarazem niezwykle skuteczne w rozpoznawaniu wzorów i przewidywaniu wyników.
Redakcja Techopedii zapytała Kalagnanama, czy TTM został już przetestowany. W tym miejscu warto przypomnieć, że nowe narzędzie jest częścią flagowej linii rozwiązań IBM, czyli modeli Granite.
„Tak, IBM wraz z partnerami już korzysta z tego modelu w różnych dziedzinach i dyscyplinach”.
Kalagnanam dodał, że firma korzysta z tego modelu wewnętrznie, do zarządzania workloadem w systemach IBM Storage.
„Model pomaga naszym zespołom precyzyjnie przewidywać workload w ujęciu codziennym, a także lepiej alokować zasoby pamięci masowej”, wyjaśnił” Kalagnanam.
Mała AI dla dużych inwestorów
IBM współpracuje też z partnerami takimi jak QuantumStreetAI w zakresie prognozowania ruchów cenowych akcji w różnych sektorach. To informacje przydatne dla inwestorów.
„Wykorzystując model TinyTimeMixer w połączeniu ze sztuczną inteligencją i platformą IBM do zarządzania danymi o nazwie Watsonx, QuantumStreetAI bazuje na danych ESG (aspektach środowiskowych, społecznych i korporacyjnych) oraz analizie sentymentu z wiadomości, materiałów prasowych i innych źródeł danych, i na tej podstawie formułuje prognozy dotyczące cen akcji”.
Tiny Time Mixer w produkcji
Kolejnym zastosowaniem TTM to technologia digital twin, która służy optymalizacji procesów produkcyjnych. W tym obszarze IBM prowadzi projekty pilotażowe w przemyśle cementowym, stalowym, przetwórstwie żywności i w branżach produkcyjnych.
„Model oparty na TTM jest wbudowany w ramy optymalizacyjne, co pozwala uzyskać rekomendacje do poprawy wydajności i podwyższenia mocy przerobowych”, tłumaczy Kalagnanam.
Nowe narzędzie TinyTimeMixer nie jest przypadkowym wynalazkiem. Firma celowo skonstruowała go od zera w ten przemyślany sposób. W trakcie wywiadu Kalagnanam streścił nam dwa podstawowe pytania, jakie IBM zadał sobie, zanim rozpoczął pracę nad małym rozwiązaniem AI.
„Czy małe wstępnie przeszkolone modele dadzą sobie radę również w dziedzinie szeregów czasowych? A jeśli tak, czy osiągną wyniki lepsze niż duże modele zero/few-shot, które wymagają sporej mocy obliczeniowej i dłuższego czasu na uruchomienie?
Podsumowanie: Podążanie za modą kontra odpowiedzialne korzystanie z AI
Nie wszystkie nowości w świecie ery AI są krzykliwymi zagraniami marketingowymi. Wiadomo jednak, że organizacje i firmy na całym świecie chcą być na bieżąco z najnowszą technologią, czasami tylko po to, by wykorzystać szum związany ze sztuczną inteligencją. Z tego powodu ważne jest, aby nie dać się nabrać na taktyki AI washing.
Mały model, który może osiągać lepsze wyniki niż duże modele, być może nie będzie tak atrakcyjny dla klientów końcowych jak inspirowane przez człowieka duże modele językowe. Wciąż imponuje nam, że znane narzędzia mogą mówić, generować obrazy, a nawet tworzyć niezapomniane filmy.
Tymczasem nowe narzędzia AI sygnalizują powrót do bardziej ukierunkowanego stylu machine learning, który może ustanowić całkiem nowe standardy na przyszłość.
Źródła
- Jay(ant) Kalagnanam – IBM T.J. Watson Research Center | LinkedIn (Linkedin)
- Networking z aplikacją IBM Events (App.tools.ibm)
- Prognozowanie i analiza danych dotyczących zachorowań na grypę w prowincji Hebei (Chiny) przy użyciu hybrydowego modelu a CNN-LSTM | BMC Public Health | Pełny tekst (Bmcpublichealth.biomedcentral)
- Tiny Time Mixers (TTMs): Szybkie, wstępnie wytrenowale modele do lepszego prognozowania Zero/Few-Shot wieloczynnikowych szeregów czasowych (Arxiv)
- TinyTimeMixer (TTM) Karta modelu (Huggingface)
- Granite | IBM (Ibm)
- QuantumstreetAI (Quantumstreetai)
- IBM watsonx — Platforma AI i analiza danych dla biznesu (Ibm)