Was ist das „Humanity’s Last Exam“?
Im Januar 2025 wurde ein bisher einzigartiger Benchmark-Test vorgestellt: Humanity’s Last Exam (HLE) – ein 2.500 Fragen umfassender Test, entwickelt von rund 1.000 Expert:innen aus über 100 Fachdisziplinen. Der Anspruch: Eine ganzheitliche Bewertung der intellektuellen Fähigkeiten von KI-Systemen, die über reine Sprachverarbeitung hinausgeht.
HLE kombiniert:
- Fragen aus Geisteswissenschaften, Naturwissenschaften, Mathematik, Technik, Kunst und mehr
- Aufgaben zum logischen Denken, Transferleistung und Abstraktion
- Multimodale Inhalte (Text + Bild), um menschliche Prüfungsrealität nachzubilden
Kurz: Es ist nicht einfach ein Multiple-Choice-Test – es ist ein intellektueller Stresstest für Maschinen.
Wo stehen wir aktuell?
Beim Launch von Grok 4, dem neuen KI-Modell von xAI (Elon Musk), wurde HLE erstmals öffentlich als Benchmark eingesetzt. Die Ergebnisse zeigen eindrucksvoll den Fortschritt – aber auch die Grenzen:
System | Ergebnis ohne Tools | Mit Tools (Web/Coding) |
---|---|---|
Grok 4 | 25,4 % | 38,6 % |
Grok 4 Heavy | – | 44,4 % |
Gemini-Pro (Google) | – | 26,9 % |
OpenAI o3 | – | 24,9 % |
Obwohl Grok 4 Heavy führt, sind wir noch weit vom Bestehen entfernt – zum Vergleich: Bei einer echten Prüfung würden 50 % wohl als Mindestmaß für eine Grundkompetenz gelten.
Noch ist unklar, ob Grok 4s Ergebnisse offiziell im HLE-Leaderboard auftauchen – xAI hat sie bisher nicht veröffentlicht oder sie befinden sich noch in der Prüfung.
Was bedeutet das für den Menschen?

HLE ist nicht nur ein Test für KI – er ist ein Spiegel für den Menschen.
1. Die Messlatte für Intelligenz verschiebt sich
Was bedeutet „Verstehen“, wenn ein Modell wie Grok 4 zwar einzelne Aufgaben löst, aber oft noch am Zusammenhang scheitert? Können Maschinen je wirklich „verstehen“, oder imitieren sie nur?
2. Multimodalität als Schlüssel
Der Mensch verarbeitet Bilder, Sprache, Emotionen und Logik gleichzeitig. KI muss diesen „Datentyp-Mix“ meistern, um wirklich mitzuhalten – HLE prüft genau das.
3. Bildung & Benchmarking
Je mehr wir Maschinen beibringen, desto mehr müssen wir uns fragen:
Was macht den Menschen einzigartig – und wie bleiben wir relevant?
Vielleicht liegt die Antwort nicht in Faktenwissen, sondern in Urteilsfähigkeit, Ethik, Kreativität und Empathie.
Und was kommt danach?
Der Name „Humanity’s Last Exam“ ist bewusst provokant. Vielleicht ist HLE nicht das letzte Examen der Menschheit, sondern unser letzter Vorsprung, bevor KIs uns in klassischen Intelligenzmetriken überholen.
Aber: Die eigentliche Prüfung steht uns bevor.
- Wie gestalten wir eine Welt, in der Maschinen (teilweise) klüger sind als wir?
- Wie nutzen wir diese Systeme als Partner, nicht als Konkurrenz?
- Wie sichern wir menschliche Werte in einer automatisierten Zukunft?
Fazit zum Humanity’s Last Exam
Humanity’s Last Exam ist ein Meilenstein – nicht nur für die KI, sondern für uns alle. Es zeigt uns, was Maschinen (noch nicht) können – und was wir nie verlieren dürfen: unsere Fähigkeit, Verantwortung zu tragen für das, was wir erschaffen.