Mein Shop

PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)

Name: PDF-Tabellen-Extractor & Normalizer — Tabellen aus PDFs in saubere Daten (Quellcode)
Brand: Mein Shop
Price: 500.00 EUR
Availability: InStock

€500,00 EUR

Sale Ausverkauft

Inkl. Steuern.

Von PDF zu sauberer Tabelle in Minuten: Extrahiert Tabellen aus PDFs, räumt Spalten auf und exportiert als CSV/XLSX/JSON – reproduzierbar, offline, mit GUI & CLI.

Highlights

Präzise Tabellenerkennung: Erkennung von Gittern/Trennlinien & whitespace-basierten Tabellen, Mehrspalten-Seiten, mehrere Tabellen pro Seite.
Seitenübergreifend: Tabellen automatisch „zusammennähen“ (z. B. bei Seitenumbrüchen), Kopf-/Fußzeilen entfernen.
Normalisierung: Einheitliche Spaltenreihenfolge & -namen, Datentypen (Datum, Zahl, Prozent), Währungs-/Dezimal-Konvertierung (,/.).
Mapping-Regeln (YAML): Wiederverwendbare Vorlagen pro PDF-Typ (z. B. Produktlisten, Teilnehmerlisten, Bestellungen).
Qualitätscheck: Vor/Nach-Vorschau, Spaltenerkennung mit Confidence-Score, Duplikatprüfung, Fehlerrücklauf.
OCR-Option: Für gescannte PDFs mit Tesseract (mehrsprachig); automatische Schräglagenkorrektur & Rauschfilter.
Batch-Modus: Ganze Ordner verarbeiten; deterministische Dateinamen & Protokolle.
Berichte: HTML-Report je Lauf (Trefferquote, erkannte Tabellen, Fehlerstellen, Exportpfade).
GUI & CLI: Intuitive Qt-Oberfläche und skriptbare Kommandozeile für CI/CD.

Für wen?

Buchhaltungsvorbereitung, Ops/Backoffice, E-Commerce, Forschung/Studien, Event- & Teilnehmermanagement – überall, wo wiederkehrende PDF-Tabellen in strukturierte Daten überführt werden.

So funktioniert’s

PDF(s) wählen oder Ordner ziehen.
Profil laden (YAML) oder Assistent starten (Auto-Erkennung + Vorschau).
Felder mappen & Regeln feintunen (Header-Zeile, Spaltentypen, Währung, Datumsformat).
Export als CSV/XLSX/JSON und HTML-Report speichern.

Lieferumfang (Download, ZIP)

Voller Quellcode: Python (pdfplumber, camelot/ghostscript-Fallback, pandas, openpyxl), GUI mit PySide6/Qt
CLI-Tool pdf2table mit Konfig-Flags
YAML-Profile & Beispiele: Produktliste, Bestellübersicht, Teilnehmerliste
Beispiel-PDFs (nativ & gescannt), Tests (Kernfunktionen)
Dockerfile (reproduzierbare Umgebung)
README (Quickstart <10 Min) + Profil-/Mapping-Doku

Technische Daten

Eingabe: PDF (nativ & gescannt*), optional Bild-PDF via OCR
Ausgabe: CSV, XLSX, JSON; UTF-8, konfigurierbare Trennzeichen
Plattform: Windows, macOS, Linux
Voraussetzungen: Python ≥ 3.10; optional Tesseract für OCR
Leistung: Seitenparallelisierung, Caching für Fonts/Layouts, große Dateien via Streaming
* Erfolgsquote bei gescannten PDFs abhängig von Scanqualität/Typografie.

Recht & Nutzung

Einmalzahlung, kompletter Quellcode, 6 Monate Nutzungslizenz. Eigene Nutzung & Anpassung für private/geschäftliche Projekte. Kein DRM.

FAQ

Erkennt das Tool jede Tabelle?
Bei nativen PDFs sehr hohe Trefferquote. Bei gescannten Dateien hilft OCR – Qualität des Scans ist entscheidend.

Kann ich wiederkehrende Layouts „anlernen“?
Ja, über YAML-Profile (Header, Spalten, Typen, Filter). Einmal definieren, beliebig wiederverwenden.

Wie gehe ich mit Seitenumbrüchen um?
Die Engine erkennt fortlaufende Tabellen und führt sie zusammen; Schwellenwerte sind konfigurierbar.

Unterstützt ihr verschiedene Dezimaltrennzeichen/Währungen?
Ja. Regeln für ,/. sowie Währungsnormalisierung (z. B. 1.234,56 € → 1234.56) sind enthalten.

Läuft das offline?
Ja. Nur die OCR (optional) benötigt die lokal installierte Tesseract-Engine.

Wie kommt die Datei zu mir?
Per E-Mail erhältst du direkt den Download-Link (ZIP).

Vollständige Details anzeigen