In den letzten zehn Jahren ist die künstliche Intelligenz hauptsächlich durch die Nutzung derselben Ressource gewachsen: öffentliche Webdaten. Texte, Bilder, Dokumente, Foren, Nachrichten, Blogs, Repositories... eine enorme Menge an Material, das Modelle absorbiert haben, um ihre Sprach- und kognitiven Fähigkeiten aufzubauen. Aber diese Phase steht kurz vor dem Ende.
Laut Prognosen von Messari könnte die Gesamtmenge an öffentlichem Text, der für das Modelltraining verfügbar ist – etwa 300 Billionen Token – zwischen 2026 und 2032 vollständig erschöpft sein. Das bedeutet, dass große Modelle "das Internet aufgefressen haben" und jetzt etwas anderes brauchen. Die nächste Grenze für KI wird nicht mehr das Web sein: Es wird die reale Welt sein.
Und hier kommt das Konzept der Frontier-Daten ins Spiel, die Ressource, die die Wettbewerbsfähigkeit zukünftiger Modelle definieren wird. Video-, Audio-, Sensor-, Motor-, Roboter-, Aktionsdaten, Daten aus der Interaktion mit der physischen Welt oder komplexen digitalen Schnittstellen. Daten, die nicht einfach heruntergeladen werden können: Sie müssen gesammelt, koordiniert, verifiziert und vor allem incentiviert werden.
Aus diesem Grund ist die Blockchain kein Detail oder eine marginale Ergänzung: Sie ist die Infrastruktur, die die Orchestrierung dieser neuen Datenwirtschaft ermöglicht.
Die fortschrittlichsten Modelle von 2025 – nicht nur sprachliche, sondern auch multimodale, agentische und auf Argumentation ausgerichtete – verbessern sich nicht mehr durch die bloße Hinzufügung generischer Textdatensätze. Sie benötigen etwas viel Spezifischeres und viel Teureres zu sammeln: Daten, die Aktionen, Absichten, Bewegung, Interaktion, Manipulation, Kontext widerspiegeln.
Dies ist zum Beispiel der Fall bei Computer-Nutzungs-Agenten, KI, die direkt mit dem Computer interagieren kann, wie es ein Mensch tun würde. Um diese Systeme zu trainieren, reichen textliche Beschreibungen nicht aus: Es werden "Trajektorien" benötigt, also tatsächliche Aufzeichnungen von Menschen, die Aufgaben auf dem Bildschirm ausführen.
Ein Protokoll wie Chakra, das im Bericht erwähnt wird, hat eine Erweiterung entwickelt, die es Benutzern ermöglicht, ihren Bildschirm aufzuzeichnen, während sie tägliche Aufgaben ausführen: Navigation durch ein Managementsystem, Vorbereitung eines Excel-Dokuments, Bearbeitung von Bildern, Verwendung professioneller Software. Diese Aufnahmen werden zu unschätzbarem Material für das Training von Modellen wie GLADOS-1, dem ersten Computer-Nutzungsmodell, das fast vollständig auf Crowdsourcing-Daten aufgebaut ist.
Und genau das ist der Punkt: Diese Daten existieren nicht, bis jemand sie produziert. Und sie müssen bezahlt werden. Genau wie für Energie oder Inferenz bezahlt wird.
Ein weiteres auffallendes Beispiel kommt aus der Spielewelt. Eine Plattform wie Shaga, die als dezentrales Cloud-Gaming-Netzwerk entstanden ist, produziert ein äußerst wertvolles Nebenprodukt: die sogenannten Gameplay-Action Pairs (GAP), synchronisierte Paare dessen, was auf dem Bildschirm passiert, und der Befehle, die der Spieler erteilt.
Dies sind Daten, die nicht einfach durch das Ansehen von Videos auf YouTube abgerufen werden können: Sie müssen an der Quelle, auf dem Gerät des Spielers, erfasst werden. Und diese Art von Datensatz kann laut Schätzungen von Messari bis zu 50–100 Dollar pro Stunde Gameplay wert sein.
Um es in einen Kontext zu stellen: Shaga hat bereits über 259.000 Stunden Gameplay angesammelt, mit einem geschätzten Wert von mehr als 26 Millionen Dollar. Und es ist kein Zufall, dass OpenAI ein Jahr zuvor eine halbe Milliarde angeboten hat, um Medal zu erwerben, eine ähnliche Plattform, die sich genau auf die Aufzeichnung von Gameplay spezialisiert hat.
Diese Daten werden verwendet, um Weltmodelle zu trainieren, Modelle, die nicht nur Sprache interpretieren, sondern Physik, Kausalität und Agent-Umgebungs-Interaktion simulieren. Dies sind die Modelle, die intelligentere Roboter, autonome Agenten, fortschrittliche Prognosesysteme und KI ermöglichen werden, die sich in komplexen Umgebungen "bewegen" können.
Und genau hier kommen wir zur zweiten großen Welle von Frontier-Daten: Roboterdaten.
Die KI der Zukunft wird nicht nur in Rechenzentren residieren. Sie wird in Robotern, Drohnen, autonomen Autos, verteilten Sensoren und Smart-Home-Geräten leben. Jeder Roboter wird Daten benötigen, um zu lernen, wie man sich bewegt, Objekte identifiziert, Entscheidungen trifft und Umgebungen manipuliert. Und diese Datensammlung ist unglaublich kostspielig: Sie erfordert physische Hardware, menschliche Bediener für die Teleoperation, kontinuierliche Wartung und Koordination.
Projekte wie PrismaX, BitRobot, GEODNET und NATIX beginnen, incentivierte Mechanismen zu nutzen, die typisch für Web3 sind, um diese Kosten auf ein globales Netzwerk von Mitwirkenden zu verteilen. Anstatt dass ein einzelnes Unternehmen Roboterdaten sammelt, können Tausende von Benutzern dies auf koordinierte Weise tun und direkte Vergütung erhalten.
Es ist die gleiche Logik wie beim Mining: Aber anstelle von Rechenleistung ist hier der Beitrag die realen Daten.
Wenn Roboter und KI-Agenten wirklich beginnen, mit der physischen Welt zu interagieren, ist eine völlig neue Ebene der Koordination erforderlich. Roboter müssen:
Hier kommen Initiativen wie OpenMind und Peaq ins Spiel, die versuchen, eine On-Chain-Infrastruktur aufzubauen, die der Kommunikation und Identität von Robotern gewidmet ist. Ein Äquivalent zu DNS, aber für Maschinen. Ein System, in dem Drohnen, autonome Autos, Roboterarme oder industrielle Systeme ihre Präsenz signalisieren, ihre Aktionen zertifizieren, andere Systeme bezahlen und Dienstleistungen austauschen können.
Es ist der Beginn der Maschinenwirtschaft, einer Wirtschaft, die von nicht-menschlichen Entitäten bevölkert wird, die autonom auf dezentralen Netzwerken interagieren.
Der Bericht legt auch einen bedeutenden Fokus auf IoTeX, ein Protokoll, das in den letzten Jahren seine Infrastruktur in eine umfassende Plattform für die Sammlung, Zertifizierung und Orchestrierung von Daten aus der realen Welt umgewandelt hat.
IoTeX ermöglicht die Verbindung von Sensoren, IoT-Geräten, Heimsystemen und industriellen Geräten und bietet:
Heute koordiniert IoTeX über 16.000 Geräte und Dutzende vertikaler Projekte und bietet KI-Agenten die Möglichkeit, auf verifizierte Daten aus der realen Welt zuzugreifen. Ein signifikanter Unterschied im Vergleich zum einfachen Scraping.
Laut Messari ist die Trajektorie klar: Daten werden in jeder Hinsicht zu einem finanziellen Vermögenswert. So wie man heute in Rechenleistung, GPU und Colocation investieren kann, wird es in Zukunft möglich sein, in "Datenströme" zu investieren, Nutzungsrechte zu erwerben, Netzwerke zu unterstützen, die Frontier-Daten sammeln, und im Gegenzug wirtschaftliche Renditen zu erhalten.
Es ist eine fast unvermeidliche Evolution: Wenn Daten knapp, wertvoll und schwer zu produzieren werden, werden sie einen Markt, einen Preis, Nachfrage und Angebot haben.
Blockchain ist erneut die ideale Schicht für:
KI wird nicht durch immer größere Modelle voranschreiten, sondern durch reichhaltigere Daten, die aus der realen Welt stammen und über globale Netzwerke von Mitwirkenden gesammelt werden. Es ist der größte Goldrausch des nächsten Jahrzehnts: nicht der der Chips, sondern der der Daten.
Web3-Protokolle sind kein bloßes Detail: Sie sind die natürliche Plattform für das Sammeln, Verifizieren, Verteilen und Vergüten derjenigen, die diese Daten bereitstellen. Wenn das Web der Rohstoff der ersten KI-Welle war, wird die reale Welt der Rohstoff der zweiten sein.
Und diesmal, zum ersten Mal, wird die Sammlung nicht von einigen wenigen Giganten kontrolliert, sondern von den Netzwerken.
Offene, incentivierte, dezentrale Netzwerke: die neue Infrastruktur der Frontier-Daten.


