Zu Produktinformationen springen
1 von 1

Mein Shop

PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)

PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)

Normaler Preis €500,00 EUR
Normaler Preis Verkaufspreis €500,00 EUR
Sale Ausverkauft
Inkl. Steuern.
Anzahl

Von PDF zu sauberer Tabelle in Minuten: Extrahiert Tabellen aus PDFs, räumt Spalten auf und exportiert als CSV/XLSX/JSON – reproduzierbar, offline, mit GUI & CLI.

Highlights

  • Präzise Tabellenerkennung: Erkennung von Gittern/Trennlinien & whitespace-basierten Tabellen, Mehrspalten-Seiten, mehrere Tabellen pro Seite.

  • Seitenübergreifend: Tabellen automatisch „zusammennähen“ (z. B. bei Seitenumbrüchen), Kopf-/Fußzeilen entfernen.

  • Normalisierung: Einheitliche Spaltenreihenfolge & -namen, Datentypen (Datum, Zahl, Prozent), Währungs-/Dezimal-Konvertierung (,/.).

  • Mapping-Regeln (YAML): Wiederverwendbare Vorlagen pro PDF-Typ (z. B. Produktlisten, Teilnehmerlisten, Bestellungen).

  • Qualitätscheck: Vor/Nach-Vorschau, Spaltenerkennung mit Confidence-Score, Duplikatprüfung, Fehlerrücklauf.

  • OCR-Option: Für gescannte PDFs mit Tesseract (mehrsprachig); automatische Schräglagenkorrektur & Rauschfilter.

  • Batch-Modus: Ganze Ordner verarbeiten; deterministische Dateinamen & Protokolle.

  • Berichte: HTML-Report je Lauf (Trefferquote, erkannte Tabellen, Fehlerstellen, Exportpfade).

  • GUI & CLI: Intuitive Qt-Oberfläche und skriptbare Kommandozeile für CI/CD.

Für wen?

Buchhaltungsvorbereitung, Ops/Backoffice, E-Commerce, Forschung/Studien, Event- & Teilnehmermanagement – überall, wo wiederkehrende PDF-Tabellen in strukturierte Daten überführt werden.

So funktioniert’s

  1. PDF(s) wählen oder Ordner ziehen.

  2. Profil laden (YAML) oder Assistent starten (Auto-Erkennung + Vorschau).

  3. Felder mappen & Regeln feintunen (Header-Zeile, Spaltentypen, Währung, Datumsformat).

  4. Export als CSV/XLSX/JSON und HTML-Report speichern.

Lieferumfang (Download, ZIP)

  • Voller Quellcode: Python (pdfplumber, camelot/ghostscript-Fallback, pandas, openpyxl), GUI mit PySide6/Qt

  • CLI-Tool pdf2table mit Konfig-Flags

  • YAML-Profile & Beispiele: Produktliste, Bestellübersicht, Teilnehmerliste

  • Beispiel-PDFs (nativ & gescannt), Tests (Kernfunktionen)

  • Dockerfile (reproduzierbare Umgebung)

  • README (Quickstart <10 Min) + Profil-/Mapping-Doku

Technische Daten

  • Eingabe: PDF (nativ & gescannt*), optional Bild-PDF via OCR

  • Ausgabe: CSV, XLSX, JSON; UTF-8, konfigurierbare Trennzeichen

  • Plattform: Windows, macOS, Linux

  • Voraussetzungen: Python ≥ 3.10; optional Tesseract für OCR

  • Leistung: Seitenparallelisierung, Caching für Fonts/Layouts, große Dateien via Streaming
    * Erfolgsquote bei gescannten PDFs abhängig von Scanqualität/Typografie.

Recht & Nutzung

  • Einmalzahlung, kompletter Quellcode, 6 Monate Nutzungslizenz. Eigene Nutzung & Anpassung für private/geschäftliche Projekte. Kein DRM.

FAQ

Erkennt das Tool jede Tabelle?
Bei nativen PDFs sehr hohe Trefferquote. Bei gescannten Dateien hilft OCR – Qualität des Scans ist entscheidend.

Kann ich wiederkehrende Layouts „anlernen“?
Ja, über YAML-Profile (Header, Spalten, Typen, Filter). Einmal definieren, beliebig wiederverwenden.

Wie gehe ich mit Seitenumbrüchen um?
Die Engine erkennt fortlaufende Tabellen und führt sie zusammen; Schwellenwerte sind konfigurierbar.

Unterstützt ihr verschiedene Dezimaltrennzeichen/Währungen?
Ja. Regeln für ,/. sowie Währungsnormalisierung (z. B. 1.234,56 €1234.56) sind enthalten.

Läuft das offline?
Ja. Nur die OCR (optional) benötigt die lokal installierte Tesseract-Engine.

Wie kommt die Datei zu mir?
Per E-Mail erhältst du direkt den Download-Link (ZIP).

Vollständige Details anzeigen