Mein Shop
PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)
PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)
Verfügbarkeit für Abholungen konnte nicht geladen werden
Von PDF zu sauberer Tabelle in Minuten: Extrahiert Tabellen aus PDFs, räumt Spalten auf und exportiert als CSV/XLSX/JSON – reproduzierbar, offline, mit GUI & CLI.
Highlights
-
Präzise Tabellenerkennung: Erkennung von Gittern/Trennlinien & whitespace-basierten Tabellen, Mehrspalten-Seiten, mehrere Tabellen pro Seite.
-
Seitenübergreifend: Tabellen automatisch „zusammennähen“ (z. B. bei Seitenumbrüchen), Kopf-/Fußzeilen entfernen.
-
Normalisierung: Einheitliche Spaltenreihenfolge & -namen, Datentypen (Datum, Zahl, Prozent), Währungs-/Dezimal-Konvertierung (
,/.). -
Mapping-Regeln (YAML): Wiederverwendbare Vorlagen pro PDF-Typ (z. B. Produktlisten, Teilnehmerlisten, Bestellungen).
-
Qualitätscheck: Vor/Nach-Vorschau, Spaltenerkennung mit Confidence-Score, Duplikatprüfung, Fehlerrücklauf.
-
OCR-Option: Für gescannte PDFs mit Tesseract (mehrsprachig); automatische Schräglagenkorrektur & Rauschfilter.
-
Batch-Modus: Ganze Ordner verarbeiten; deterministische Dateinamen & Protokolle.
-
Berichte: HTML-Report je Lauf (Trefferquote, erkannte Tabellen, Fehlerstellen, Exportpfade).
-
GUI & CLI: Intuitive Qt-Oberfläche und skriptbare Kommandozeile für CI/CD.
Für wen?
Buchhaltungsvorbereitung, Ops/Backoffice, E-Commerce, Forschung/Studien, Event- & Teilnehmermanagement – überall, wo wiederkehrende PDF-Tabellen in strukturierte Daten überführt werden.
So funktioniert’s
-
PDF(s) wählen oder Ordner ziehen.
-
Profil laden (YAML) oder Assistent starten (Auto-Erkennung + Vorschau).
-
Felder mappen & Regeln feintunen (Header-Zeile, Spaltentypen, Währung, Datumsformat).
-
Export als CSV/XLSX/JSON und HTML-Report speichern.
Lieferumfang (Download, ZIP)
-
Voller Quellcode: Python (pdfplumber, camelot/ghostscript-Fallback, pandas, openpyxl), GUI mit PySide6/Qt
-
CLI-Tool
pdf2tablemit Konfig-Flags -
YAML-Profile & Beispiele: Produktliste, Bestellübersicht, Teilnehmerliste
-
Beispiel-PDFs (nativ & gescannt), Tests (Kernfunktionen)
-
Dockerfile (reproduzierbare Umgebung)
-
README (Quickstart <10 Min) + Profil-/Mapping-Doku
Technische Daten
-
Eingabe: PDF (nativ & gescannt*), optional Bild-PDF via OCR
-
Ausgabe: CSV, XLSX, JSON; UTF-8, konfigurierbare Trennzeichen
-
Plattform: Windows, macOS, Linux
-
Voraussetzungen: Python ≥ 3.10; optional Tesseract für OCR
-
Leistung: Seitenparallelisierung, Caching für Fonts/Layouts, große Dateien via Streaming
* Erfolgsquote bei gescannten PDFs abhängig von Scanqualität/Typografie.
Recht & Nutzung
-
Einmalzahlung, kompletter Quellcode, 6 Monate Nutzungslizenz. Eigene Nutzung & Anpassung für private/geschäftliche Projekte. Kein DRM.
FAQ
Erkennt das Tool jede Tabelle?
Bei nativen PDFs sehr hohe Trefferquote. Bei gescannten Dateien hilft OCR – Qualität des Scans ist entscheidend.
Kann ich wiederkehrende Layouts „anlernen“?
Ja, über YAML-Profile (Header, Spalten, Typen, Filter). Einmal definieren, beliebig wiederverwenden.
Wie gehe ich mit Seitenumbrüchen um?
Die Engine erkennt fortlaufende Tabellen und führt sie zusammen; Schwellenwerte sind konfigurierbar.
Unterstützt ihr verschiedene Dezimaltrennzeichen/Währungen?
Ja. Regeln für ,/. sowie Währungsnormalisierung (z. B. 1.234,56 € → 1234.56) sind enthalten.
Läuft das offline?
Ja. Nur die OCR (optional) benötigt die lokal installierte Tesseract-Engine.
Wie kommt die Datei zu mir?
Per E-Mail erhältst du direkt den Download-Link (ZIP).
Share
