Produktdaten aus PDFs, Datenblättern & Bildern auslesen (mit KI)

Die Specs, die du brauchst, stecken im PDF des Lieferanten, nicht in seiner CSV. So liest KI Datenblätter, Labels und Katalogseiten in strukturierte Produktdaten — und wo OCR allein aufhört.

Jakob Feinböck, Productbay3. Juli 20269 Min. Lesezeit
☝️Das Wichtigste in Kürze
  • Die Hälfte der Produktdaten eines Lieferanten liegt oft in PDFs, Datenblättern und Verpackungsfotos — nicht in einer sauberen, importierbaren Tabelle.
  • OCR liest die Zeichen; KI interpretiert sie in strukturierte Attribute mit den richtigen Einheiten — du brauchst beides.
  • KI-Extraktion bewältigt Tabellen, mehrspaltige Layouts und gescannte Bilder, an denen einfache Text-Parser scheitern.
  • DIY klappt für ein festes Format; Productbay mappt extrahierte Felder auf dein Schema, normalisiert Einheiten und leitet alles durch eine Review-Queue.

Warum so viele Produktdaten in Dokumenten feststecken

Frag einen Lieferanten nach Produktdaten, und du bekommst oft eine CSV mit Name, Preis und EAN — plus einen Link auf einen PDF-Katalog oder einen Ordner voller Datenblätter für „alles andere“. Material, Maße, Compliance-Infos, technische Specs, Pflegehinweise: alles liegt in Dokumenten, gebaut zum Lesen für einen Menschen, nicht zum Import für ein System. Es in deinen Katalog zu bekommen heißt: jemand liest jedes PDF und tippt die Felder ab. Über eine Range ist das der mit Abstand mühsamste Teil des Lieferanten-Onboardings.

KI verändert die Ökonomie dieses Schritts — aber nur, wenn sie mehr tut als Zeichen zu lesen.

OCR liest; KI versteht

Es lohnt sich, beides zu trennen, weil „OCR“ locker verwendet wird:

  • OCR wandelt eine gescannte Seite oder ein Bild in Rohtext. Nützlich, aber du bekommst einen undifferenzierten Block — sie weiß nicht, dass „1,2 kg“ ein Gewicht ist oder „Art.-Nr. 4711“ deine SKU.
  • KI-Extraktion liest diesen Text (oder das Bild direkt) und interpretiert ihn in strukturierte Felder: Gewicht, Material, Maße, EAN — in der richtigen Einheit und im richtigen Format, auf deine Attribute gemappt.

Für Produktdaten brauchst du das Zweite. Ein reines OCR-Tool lässt dich mit Text zurück, den du von Hand sortierst; der Gewinn kommt erst, wenn der Output strukturierte, publizierbare Attribute sind.

Was KI aus einem Datenblatt oder einer Katalogseite ziehen kann

  • Attribute & Specs: Material, Maße, Gewicht, Kapazität, technische Werte — auch aus Tabellen und mehrspaltigen Layouts.
  • Identifier: EAN/GTIN, Artikelnummern, Modellcodes.
  • Beschreibungstext: Feature-Listen und Pflegehinweise, bereit zur Aufbereitung in Kanal-Texte.
  • Aus Bildern, nicht nur Text: Verpackungsfotos und Labels, wo die Daten auf dem Produkt selbst gedruckt sind.

Selbst bauen — und die Decke, an die du stößt

Für einen Lieferanten mit einer konsistenten Datenblatt-Vorlage ist ein Skript machbar: über die PDFs iterieren, jedes mit festem Extraktions-Prompt an eine bildfähige LLM-API schicken, das JSON in eine Tabelle schreiben. Ein gutes Wochenendprojekt und echt nützlich.

Die Decke kommt mit der Realität: Jedes Lieferanten-Layout ist anders, ein Prompt generalisiert nicht; es gibt kein Mapping der extrahierten Felder auf dein Attributschema; Einheiten und Formate werden nicht normalisiert (kg vs. g, Komma vs. Punkt); und es gibt keinen Review-Schritt, du vertraust dem Output oder prüfst alles nach. Einen Prompt-pro-Lieferant-Zoo zu warten wird zur eigentlichen Arbeit. Die breiteren Abwägungen in KI-Automatisierung für Bulk-Mapping.

Wie macht es Productbay?

In Productbay sind Dokumente nur eine weitere Quelle in denselben Anreicherungs-Flow. Die KI liest hochgeladene PDFs, Datenblätter und Bilder, extrahiert die Felder, mappt sie auf deine Attribute und normalisiert Einheiten — dann leitet sie jeden Wert in die KI-Review-Queue, markiert, sodass du dokument-extrahierte von manuell eingegebenen Daten unterscheidest. Fehlt dem Dokument eine Spec, kann die KI sie auf freigeschalteten Herstellerquellen recherchieren, statt eine Lücke zu lassen. Im Bulk freigeben, und das strukturierte Ergebnis fließt weiter in Anreicherung, Kategorisierung und Kanal-Export — kein separates OCR-Tool, kein Copy-Paste.

SchrittReines OCR-ToolDIY-LLM-SkriptProductbay
Gescannte PDFs & Bilder lesenJaJaJa
In strukturierte Felder interpretierenNeinJaJa
Auf dein Attributschema mappenNeinNeinJa
Einheiten & Formate normalisierenNeinManuellJa
Lücken per Web-Recherche füllenNeinNeinJa
Review-Queue & Quellen-MarkierungNeinNeinJa

Diese Tabelle wurde auf Basis öffentlich zugänglicher Informationen zusammengetragen. Wir haben uns um Transparenz im Markt bemüht — Angaben können sich ändern. Im Zweifel: beide Anbieter selbst anschauen und auf Basis eigener Einschätzung entscheiden.

Extraktion ist die Eingangstür; die ganze Reise in Produktdatenpflege mit KI und wie fehlende Werte gefüllt werden in KI-Web-Recherche für fehlende Produktdaten.

Häufig gestellte Fragen

Ein Lieferanten-PDF in Produktdaten verwandeln

Schick uns ein echtes Lieferanten-Datenblatt oder eine Katalogseite. In einer 30-minütigen Demo extrahieren wir es live in strukturierte, freigabebereite Produktattribute.

Jetzt starten