Hier die Erklärung, die ich erhalten habe:

1. Warum KI bei exakten Zahlen scheitert

Bildgeneratoren (egal ob ChatGPT, Midjourney, Copilot oder Grok) arbeiten nicht wie CAD-Programme, sondern „malen“ aus einer Wahrscheinlichkeitsverteilung heraus, wie etwas typischerweise aussieht.
Wenn man „17 Pakete Butter“ schreibt, versteht die KI das konzeptionell, aber nicht zählend.
Sie generiert ein plausibles Bild mit vielen Butterpaketen, aber hat keine echte „Zählfunktion“.
Wenn man korrigiert („bitte genau 17“), ändert sich das Bild zwar, aber die KI „rät“ wieder – sie zählt nicht visuell nach.

2. Technischer Hintergrund

Das Modell weiß, wie Butter, Pakete und Tische aussehen, aber nicht wie viele davon platziert werden müssen.
Es fehlt eine objektbasierte Kontrolle: Es „denkt“ nicht in Einheiten („Paket 1, Paket 2, ...“), sondern in Pixeln und Formen.
Selbst wenn man es perfekt promptet („17 Pakete, gleichmäßig angeordnet, klar zählbar“), kommt das Ergebnis selten exakt hin.

3. Wo es besser funktioniert

Mit text-zu-3D- oder Vektorgrafiksystemen (z. B. Blender-Add-ons, ControlNet, DALL·E mit Editor) kann man zunehmend exakte Mengen erzeugen. Oder: Man lässt sich das Bild generieren und bearbeitet manuell („entferne/füge Butterpaket hinzu“) – das klappt inzwischen recht gut.

4. Fazit

ChatGPT versteht Kontext und Korrekturwünsche. Aber bei präzisen, zählbaren Objekten versagen alle Modelle noch regelmäßig.
Es liegt nicht am „Fehlen von Intelligenz“, sondern an der Art, wie generative Modelle visuelle Konzepte darstellen – probabilistisch, nicht zählend.
Sie malt aus Gefühl, nicht aus Mathematik. Das ist der Grund, warum du heute oft noch keine exakten Mengen bekommst – aber in den nächsten 1–2 Jahren wird sich das ziemlich sicher ändern.