Bei der KI-Revolution will jeder groß rauskommen. Einige Wissenschaftler sind jedoch der Meinung, dass weniger manchmal mehr sein kann, viel mehr.
Um das zu beweisen, hat das IBM-Forschungsteam mit seiner neuen KI TinyTimeMixer (TTM) nicht kleine, sondern winzige Maßstäbe gesetzt.
Techopedia hat mit Jayant Kalagnanam, Direktor für KI-Anwendungen bei IBM, darüber gesprochen, wie IBMs neuestes Modell der künstlichen Intelligenz nicht mit den Parametern spielen muss, um große Sprachmodelle (LLMs) bei der Zeitreihenprognose zu übertreffen.
Wichtigste Erkenntnisse
- TinyTimeMixer (TTM) von IBM schneidet bei Zeitreihenprognosen besser ab als größere Modelle, da sie sich auf Merkmale und Algorithmen statt auf Parameter konzentriert.
- TTM ist ein leichtgewichtiges, vortrainiertes KI-Modell, das eine um 40 % verbesserte Genauigkeit bei 300-fach geringerer Rechenleistung und Latenz bietet.
- Im Gegensatz zu großen Sprachmodellen kann TTM auf herkömmlichen Computern laufen (und benötigt keine GPUs), was es für verschiedene Anwendungen zugänglich macht.
- Bei IBM wird TTM intern und in Zusammenarbeit mit Partnern für Aufgaben wie Workload-Management, Aktienkursvorhersage und Fertigungsoptimierung eingesetzt.
- TTM demonstriert das Potenzial kleinerer, zielgerichteter KI-Modelle, in bestimmten Bereichen bessere Ergebnisse zu erzielen.
- Alles zeigen
Von Grippe bis Energie: Wie Zeitreihenvorhersagemodelle der Welt helfen
Zeitreihenprognosemodelle können unter anderem zur Vorhersage von Aktienkursen, zur effizienteren Steuerung von Angebot und Nachfrage, für Energie- oder Wettervorhersagen sowie zur Optimierung von Lieferketten eingesetzt werden.
Eine kürzlich in BMC Public Health veröffentlichte Studie zeigt das Potenzial der Zeitreihen-KI für den Gesundheitsbereich.
Darin wird beschrieben, wie neue Technologien in Kombination mit Zeitreihenmodellen zur Prognose des Prozentsatzes der grippeähnlichen Erkrankungen in der chinesischen Provinz Hebei verwendet werden können.
Die von diesen Modellen der künstlichen Intelligenz generierten Informationen können genauere Anhaltspunkte für Maßnahmen zur Grippeprävention und -bekämpfung liefern.
Letzten Monat hat IBM Research eine Forschungsarbeit über seine Tiny AI vorgelegt. Daraus geht hervor, dass TinyTimeMixer (TTM) – das allererste „winzige“ vortrainierte KI-Modell für Zeitreihenprognosen – deutlich größere Modelle übertrumpft.
Kalagnanam von IBM erklärte gegenüber Techopedia, dass andere Bereiche, in denen Zeitreihenprognosen einen massiven positiven Einfluss haben können, Energie, Nachhaltigkeit, Straßenunfälle und Verkehrsmanagement sowie Wetter und Produktion sind.
„Angesichts all der Veränderungen in der Energiebranche, einschließlich des Klimawandels und des Aufschwungs erneuerbarer Energiequellen, benötigen die Versorgungsunternehmen hochpräzise Prognosemodelle zur Voraussage und Planung des täglichen Stromverbrauchs.“
Traditionell prognostizieren die Energieversorgungsunternehmen die Stromlast in ihrem Verteilungsnetz auf Transformatorenebene.
Diese Transformatoren sind die Leitungen, die die Energie zu jedem einzelnen Haus oder Unternehmen übertragen, die den Strom verbrauchen.
Da immer mehr Häuser auf Solarenergie oder andere erneuerbare Quellen umsteigen, könnten Zeitreihenmodelle den Versorgungsunternehmen helfen, den Energiebedarf auf der Ebene der Transformatoren in ihrem Netz genauer vorherzusagen.
„Im Allgemeinen hat ein vortrainiertes Modell für jede Anwendung den Vorteil, dass es über erlernte zeitliche Muster verfügt, die schneller an einen bestimmten Anwendungsbereich angepasst werden können (oft mit nur 5–15 % der Daten, die sonst erforderlich wären).”
Warum Zeitreihenprognosen nicht zum Mainstream gehören
Wenn Zeitreihenprognosemodelle ein solches Potenzial zur Automatisierung und Transformation von Branchen und Sektoren haben, warum ist die Technologie dann nicht weiter verbreitet?
Kalagnanam von IBM hat diese Frage für uns beantwortet.
„Es ist schwierig, ein Zeitreihenmodell zu erstellen, da die Daten sehr vielfältig sind und es kaum öffentlich zugängliche Daten für das Training gibt. Heutige Zeitreihenmodelle sind außerdem sehr langsam und groß, mit etwa einer Milliarde Parametern.“
Hier kann IBMs TTM helfen, denn es ist superleicht, vortrainiert, lässt sich von Unternehmen problemlos feineinstellen und bringt Effizienz direkt aus der Box. Außerdem kann es kostenlos heruntergeladen, verwendet und angepasst werden.
Das TTM-Modell, das derzeit von IBM auf Hugging Face veröffentlicht wird, verspricht eine um 40 % verbesserte Genauigkeit und eine um das 300-fache verringerte Rechenleistung und Latenzzeit im Vergleich zu größeren Modellen.
Die KI ist so klein, dass sie schnelle Schlussfolgerungen auf herkömmlichen Computern oder Laptops ausführen kann, ohne Bedarf an GPUs.
Es ist ein sehr polarer Ansatz zu Modellen wie ChatGPT 4 von OpenAI, das Gerüchten zufolge 1,75 Billionen Parameter hat, während kommende Modelle wie LLama 4 von Meta diese Zahl voraussichtlich noch übertreffen werden.
Zero-Shot und Pre-Trained
Das TTM von IBM ist – wie große Sprachmodelle – „Zero-Shot“. Es kann Aufgaben ausführen oder Fragen zu Themen beantworten, für die es nicht speziell trainiert wurde.
Mit einfachen Worten: Es wird Antworten generieren, auch wenn keine konkreten Beispiele gegeben werden.
Die Zero-Shot-KI hat in der Forschungsgemeinschaft einen Aufschwung des Interesses an der Entwicklung allgemeiner vortrainierter oder grundlegender Modelle für Zeitreihenprognosen erfahren, die erfolgreich „Prognosen aus ungesehenen Datensätzen“ erstellen können.
Kalagnanam zählte weitere bemerkenswerte Errungenschaften auf, die das TTM von IBM inzwischen vorzuweisen hat.
„IBM Research hat zwei grundlegende Fortschritte erzielt: Neue Architekturen (patchTST und patchTSMixer), die sich in Benchmarks gegen andere Modelle durchgesetzt haben und damit die Bedeutung dieser neuen Methodenklassen belegen.
Vortrainierte Modelle für Zeitreihenbereiche sind relativ neu (meist ein Phänomen des Jahres 2024).”
Wie Mini-Modelle überragende Ergebnisse bei Zeitreihenprognosen liefern können
TTMs ähneln eher Modellen des maschinellen Lernens als großen Sprach-KIs, die verschiedene Systeme kombinieren.
Diese kleineren Technologien haben deutlich weniger Parameter, da ihre Stärke, Leistung und Genauigkeit nicht von Parametern abhängen, sondern sich auf Merkmale und Algorithmen konzentriert, die für ganz bestimmte Funktionen entwickelt wurden.
Dank ihrer Besonderheit sind TTMs zwar klein, aber unglaublich effektiv bei der Identifizierung von Mustern und der Vorhersage von Ergebnissen.
Techopedia fragte Kalagnanam, ob sie das TTM – Teil der IBM-Flaggschiff-Familie von Granite-Modellen – getestet hätten.
„Ja, IBM und seine Partner setzen das Modell bereits in verschiedenen Bereichen ein.“
Laut Kalagnanam verwendet das Unternehmen das Modell intern für das Workload-Management auf IBM Storage-Systemen.
„Das Modell hilft den Teams, die tägliche Speicherauslastung genauer vorherzusagen und den Speicher angemessener aufzuteilen“, erklärte Kalagnanam.
IBM hat zudem mit Partnern wie QuantumStreetAI zusammengearbeitet, um für Investoren die Entwicklung von Aktienkursen in verschiedenen Branchen zu prognostizieren.
„Mit Hilfe des Tiny Time Mixer-Modells und der Daten- und KI-Plattform Watsonx von IBM zieht QuantumStreetAI ESG- (Umwelt, Soziales und Unternehmensführung) und Stimmungssignale aus Nachrichten, veröffentlichten Berichten und anderen vielfältigen Datenquellen zur Prognose von Aktienkursbewegungen heran.”
Eine weitere Anwendung für TTMs ist die Technologie des digitalen Zwillings zur Optimierung von Fertigungsprozessen – ein Anwendungsfall, den IBM in der Zement-, Stahl-, Lebensmittel- und Fertigungsindustrie erprobt hat.
„Dieses TTM-basierte Modell ist in ein Optimierungs-Framework eingebettet, um Sollwert-Empfehlungen zur Verbesserung von Durchsatz und Effizienz zu geben“, sagte Kalagnanam.
Das TTM von IBM ist keine zufällige Entdeckung. Das Unternehmen hat von Anfang an bewusst versucht, ein solches Modell zu entwickeln.
Kalagnanam von IBM teilte Techopedia die beiden Fragen mit, die sich die Forscher des Konzerns stellten, bevor sie die Tiny AI schufen.
„Können ‚winzige‘ vortrainierte Modelle auch im Zeitreihenbereich erfolgreich sein? Wenn ja, können sie die Vorhersageergebnisse von ‚großen‘ vortrainierten Zeitreihenmodellen, die erhebliche Rechenressourcen und Laufzeiten erfordern, übertreffen?”
Fazit: vom Hype zum verantwortungsvollen Umgang mit KI
Nicht alle Neuigkeiten in der KI-Ära sind auffällige Marketingmaßnahmen.
Aber angesichts der Tatsache, dass Organisationen und Unternehmen überall auf den KI-Zug aufspringen, oft unnötigerweise und nur, um aus dem KI-Hype Kapital zu schlagen, gilt es, bei all dem AI-Washing auch die eigentliche Musik herauszuhören.
Ein winziges Modell, das große Modelle in bestimmten Anwendungsfällen übertrifft, ist für Endkunden möglicherweise nicht so attraktiv wie von Menschen inspirierte große Sprachmodelle, die sprechen, Bilder erzeugen und sogar atemberaubende Videos generieren können.
Mit diesen neuen KIs kehren wir jedoch zum gezielteren maschinellen Lernen zurück, das eine enorme Wirkung entfalten kann.
Quellenangaben
- Jay(ant) Kalagnanam – IBM T.J. Watson Research Center | LinkedIn
- Attend networking events and meet the right people with the IBM Events event app
- Forecasting and analyzing influenza activity in Hebei Province, China, using a CNN-LSTM hybrid model | BMC Public Health | Full Text
- Tiny Time Mixers (TTMs): Fast Pre-trained Models for Enhanced Zero/Few-Shot Forecasting of Multivariate Time Series
- TinyTimeMixer (TTM) Model Card
- Granite | IBM
- QuantumstreetAI
- IBM watsonx — An AI and data platform built for business