Die Specs, die du brauchst, stecken im PDF des Lieferanten, nicht in seiner CSV. So liest KI Datenblätter, Labels und Katalogseiten in strukturierte Produktdaten — und wo OCR allein aufhört.
Frag einen Lieferanten nach Produktdaten, und du bekommst oft eine CSV mit Name, Preis und EAN — plus einen Link auf einen PDF-Katalog oder einen Ordner voller Datenblätter für „alles andere“. Material, Maße, Compliance-Infos, technische Specs, Pflegehinweise: alles liegt in Dokumenten, gebaut zum Lesen für einen Menschen, nicht zum Import für ein System. Es in deinen Katalog zu bekommen heißt: jemand liest jedes PDF und tippt die Felder ab. Über eine Range ist das der mit Abstand mühsamste Teil des Lieferanten-Onboardings.
KI verändert die Ökonomie dieses Schritts — aber nur, wenn sie mehr tut als Zeichen zu lesen.
Es lohnt sich, beides zu trennen, weil „OCR“ locker verwendet wird:
Für Produktdaten brauchst du das Zweite. Ein reines OCR-Tool lässt dich mit Text zurück, den du von Hand sortierst; der Gewinn kommt erst, wenn der Output strukturierte, publizierbare Attribute sind.
Für einen Lieferanten mit einer konsistenten Datenblatt-Vorlage ist ein Skript machbar: über die PDFs iterieren, jedes mit festem Extraktions-Prompt an eine bildfähige LLM-API schicken, das JSON in eine Tabelle schreiben. Ein gutes Wochenendprojekt und echt nützlich.
Die Decke kommt mit der Realität: Jedes Lieferanten-Layout ist anders, ein Prompt generalisiert nicht; es gibt kein Mapping der extrahierten Felder auf dein Attributschema; Einheiten und Formate werden nicht normalisiert (kg vs. g, Komma vs. Punkt); und es gibt keinen Review-Schritt, du vertraust dem Output oder prüfst alles nach. Einen Prompt-pro-Lieferant-Zoo zu warten wird zur eigentlichen Arbeit. Die breiteren Abwägungen in KI-Automatisierung für Bulk-Mapping.
In Productbay sind Dokumente nur eine weitere Quelle in denselben Anreicherungs-Flow. Die KI liest hochgeladene PDFs, Datenblätter und Bilder, extrahiert die Felder, mappt sie auf deine Attribute und normalisiert Einheiten — dann leitet sie jeden Wert in die KI-Review-Queue, markiert, sodass du dokument-extrahierte von manuell eingegebenen Daten unterscheidest. Fehlt dem Dokument eine Spec, kann die KI sie auf freigeschalteten Herstellerquellen recherchieren, statt eine Lücke zu lassen. Im Bulk freigeben, und das strukturierte Ergebnis fließt weiter in Anreicherung, Kategorisierung und Kanal-Export — kein separates OCR-Tool, kein Copy-Paste.
| Schritt | Reines OCR-Tool | DIY-LLM-Skript | Productbay |
|---|---|---|---|
| Gescannte PDFs & Bilder lesen | Ja | Ja | Ja |
| In strukturierte Felder interpretieren | Nein | Ja | Ja |
| Auf dein Attributschema mappen | Nein | Nein | Ja |
| Einheiten & Formate normalisieren | Nein | Manuell | Ja |
| Lücken per Web-Recherche füllen | Nein | Nein | Ja |
| Review-Queue & Quellen-Markierung | Nein | Nein | Ja |
Diese Tabelle wurde auf Basis öffentlich zugänglicher Informationen zusammengetragen. Wir haben uns um Transparenz im Markt bemüht — Angaben können sich ändern. Im Zweifel: beide Anbieter selbst anschauen und auf Basis eigener Einschätzung entscheiden.
Extraktion ist die Eingangstür; die ganze Reise in Produktdatenpflege mit KI und wie fehlende Werte gefüllt werden in KI-Web-Recherche für fehlende Produktdaten.
Schick uns ein echtes Lieferanten-Datenblatt oder eine Katalogseite. In einer 30-minütigen Demo extrahieren wir es live in strukturierte, freigabebereite Produktattribute.
Jetzt starten