Belege scannen & OCR
RechnungsFee kann eingescannte Rechnungen, Kassenbons und Handy-Fotos automatisch auslesen – dafür wird Tesseract OCR verwendet.
Die Qualität der Texterkennung hängt direkt von der Qualität des Scans oder Fotos ab.
Diese Seite erklärt, mit welchen Einstellungen du die besten Ergebnisse bekommst.
Kurzübersicht: optimale Scanner-Einstellungen
| Einstellung | Empfehlung |
|---|---|
| Auflösung (DPI) | 300 DPI für Rechnungen auf A4 · 600 DPI für Kassenbons & Thermopapier |
| Farbmodus | S/W für frische Kassenbons (Hintergrund wird weggeschnitten) · Graustufen für verblasste Belege und Handy-Fotos · Farbe bringt nichts |
| Dateiformat | PDF (bevorzugt) · PNG · JPEG nur mit hoher Qualität (≥ 80 %) |
| Ausrichtung | Gerade, kein Schräglauf |
| Kontrast | Automatisch oder leicht erhöht – kein Überstrahlen |
Auflösung (DPI)
OCR braucht ausreichend Pixel pro Buchstaben. Zu wenige → die Zeichen werden verwechselt oder fehlen ganz.
| Dokument | Mindest-DPI | Optimal |
|---|---|---|
| A4-Rechnung, sauberer Druck | 200 | 300 |
| A4-Rechnung, kleiner Schriftgrad (< 9 pt) | 300 | 400 |
| Kassenbon, Thermopapier | 300 | 600 |
| Verblasster / älterer Beleg | 400 | 600 |
| Handy-Foto | – | so nah wie möglich, scharf |
Mehr als 600 DPI lohnt sich kaum. Die Datei wird sehr groß, die Erkennungsqualität steigt aber kaum noch – Tesseract skaliert intern auf 300 DPI herunter.
Farbmodus
Farbe bringt bei Texterkennung nichts – der OCR-Algorithmus arbeitet mit Helligkeitswerten, nicht mit Farbe. Die entscheidende Frage ist S/W vs. Graustufen.
Schwarz/Weiß (1 Bit) – oft die beste Wahl für Kassenbons
Beim S/W-Scan legt der Scanner einen Schwellenwert an: alles über dem Schwellenwert wird weiß, alles darunter schwarz. Das hat einen entscheidenden Vorteil:
- Farbiger oder grauer Hintergrund wird weggeschnitten – typisch bei Thermopapier-Kassenbons (blaugrauer Untergrund): nach dem S/W-Scan weißer Hintergrund, schwarzer Text → maximaler Kontrast für OCR
- Tesseract bekommt bereits binäre Eingabe und muss nicht selbst nachbinarisieren
- Sehr kleine Dateien, schnell
Risiko: Ist der Druck verblasst (Text nur noch hellgrau), kann der Schwellenwert Text und Hintergrund gemeinsam zu „weiß“ machen → Zeichen verschwinden. Dieses Risiko gilt besonders für alte Kassenbons.
Graustufen – besser bei verblasstem Druck und ungleichmäßiger Beleuchtung
- Erhält feine Helligkeitsabstufungen
- Tesseract wendet intern adaptives Thresholding (Otsu-Methode) an – ermittelt den optimalen Schwellenwert lokal, nicht global
- Besser wenn der Kontrast zwischen Text und Hintergrund gering ist (verblasstes Thermopapier, Handy-Foto mit Schatten)
- Datei kleiner als Farbe, aber größer als S/W
Nachteil: Ein farbiger oder grauer Untergrund bleibt als Graufläche erhalten – Tesseract muss diesen selbst herausrechnen.
Farbe (RGB/CMYK)
- Datei 3× bis 6× größer als Graustufen
- Kein OCR-Vorteil – Tesseract rechnet intern auf Graustufen um
- Sinnvoll nur wenn der Scan auch visuell als Farbdokument archiviert werden soll (z. B. Briefköpfe mit Logo)
Empfehlung nach Dokument
| Dokument | Empfehlung |
|---|---|
| Frischer Kassenbon, Thermopapier (ggf. farbiger Hintergrund) | S/W – Hintergrund wird weggeschnitten, maximaler Kontrast |
| Verblasster Kassenbon, alter Beleg | Graustufen – Text bleibt als Graufläche erhalten, Tesseract erkennt ihn noch |
| A4-Rechnung, weißes Papier, klarer Druck | S/W oder Graustufen – gleichwertig |
| Handy-Foto, ungleichmäßige Beleuchtung | Graustufen – adaptives Threshold von Tesseract kompensiert Schatten |
Kassenbons und Thermopapier
Thermopapier-Kassenbons sind besonders anfällig:
- Verblassen schon nach wenigen Monaten, schneller durch Licht und Wärme
- Scan so früh wie möglich – im Zweifel noch am Kauftag
- Frischer Bon: S/W scannen – der farbige/graue Thermopapier-Hintergrund wird zu reinem Weiß, Text zu reinem Schwarz → maximaler Kontrast
- Alter, verblasster Bon: Graustufen – der schwach erkennbare Text bleibt als Graufläche erhalten statt zusammen mit dem Hintergrund wegzufallen
- 600 DPI – die Schrift auf Kassenbons ist oft kleiner als 8 pt
- Bon vor dem Scan glatt legen – Knicke werfen Schatten auf den Text
- Keine direkte Sonneneinstrahlung vor dem Scan (beschleunigt das Verblassen)
💡 Tipp: Wer viele Kassenbons hat – z. B. beim Wocheneinkauf – kann einen einfachen Stapelscanner (Einzugscanner) verwenden: Bon einlegen, fertig.
Handy-Foto statt Scanner
Ein Smartphone-Foto funktioniert – mit ein paar Regeln:
- Gleichmäßige, diffuse Beleuchtung – keine direkten Schatten auf dem Beleg
- Von oben fotografieren, nicht schräg – Verzerrung macht OCR schwieriger
- Scharf fokussieren – notfalls Nahfokus / Makro-Modus einschalten
- Beleg flach auf dunklem Untergrund legen – weißes Papier auf weißem Tisch ist schwer zu erkennen
- Kein Blitz direkt auf weißes Papier – überstrahlt den Text, macht Bereiche unleserlich
- Indirektes Licht (Fenster von der Seite, Deckenlampe) ist besser als Blitz
Scanner-Apps wie Microsoft Lens, Adobe Scan oder SwiftScan können Verzerrungen automatisch korrigieren und als PDF speichern – das verbessert die Erkennung deutlich.
Dateiformat
| Format | Geeignet | Hinweis |
|---|---|---|
| ✅ Optimal | Mehrere Seiten, keine Qualitätsverluste, direkt importierbar | |
| PNG | ✅ Gut | Verlustfrei, gut für Einzelseiten |
| JPEG (Qualität ≥ 80 %) | ✅ Akzeptabel | Komprimierung kann Kanten aufweichen |
| JPEG (Qualität < 80 %) | ⚠️ Problematisch | Komprimierungs-Artefakte stören die Texterkennung |
| TIFF | ✅ Gut | Wird unterstützt, aber meist größer als nötig |
| HEIC / HEIF | ⚠️ Eingeschränkt | Nicht auf allen Systemen lesbar – besser als JPEG/PNG exportieren |
| WebP | ❌ | Nicht unterstützt |
JPEG mit hoher Qualität speichern: Wenn dein Scanner JPEG verwendet, stelle die Qualität auf mindestens 80 %, besser 90 %. Niedrige JPEG-Qualität erzeugt verschwommene Kanten an Buchstaben – OCR liest dann “8” statt “B” oder fehlt ganz.
Häufige Fehlerquellen und Abhilfe
| Problem | Ursache | Lösung |
|---|---|---|
| Beträge werden falsch erkannt (z. B. „1.99“ statt „1,99“) | JPEG-Artefakte um Komma | Höhere Qualität / PNG verwenden |
| Buchstaben fehlen oder sind falsch | Zu niedrige DPI | Auf 300–600 DPI erhöhen |
| Ganze Zeilen fehlen | Schräglauf, Schatten am Rand | Gerade einlegen, Scanner-Abdeckung schließen |
| Thermopapier: viele Lücken | Verblasst, zu niedriger Kontrast | Graustufen + 600 DPI; Kontrast leicht erhöhen |
| Handy-Foto: Text am Rand unscharf | Perspektive, Krümmung | Von oben + flach legen; Scanner-App nutzen |
| Schrift wird korrekt gelesen, aber Zahlen vertauscht | Schriftqualität des Druckers | Nichts zu tun – manuell prüfen |
Was RechnungsFee nach dem Scan macht
RechnungsFee erkennt automatisch:
- Belegtyp: Kassenbon, Tankquittung oder Rechnung – anhand der Dokumentstruktur (nicht anhand des Markennamens)
- Steuer-Codes: A/B-Steuerkürzel werden dem deutschen Standard zugeordnet (A = 19 %, B = 7 %)
- Brutto/Netto-Modus: Kassenbon- und Tankquittungspreise sind immer Brutto – wird automatisch erkannt
- Lieferant: Abgleich mit deinem Lieferantenstamm (Name, USt-ID)
Felder die nicht sicher erkannt wurden, werden amber markiert – diese bitte immer prüfen, bevor du auf „Rechnung erstellen“ klickst.
Die Texterkennung ist eine Hilfsfunktion – keine 100 %ige Garantie. Insbesondere handgeschriebene Belege, stark geknicktes Papier und verblasstes Thermopapier können zu Fehlern führen.
Tesseract installieren
OCR funktioniert nur wenn Tesseract auf dem System installiert ist:
| Betriebssystem | Installation |
|---|---|
| 🪟 Windows | Automatisch durch den RechnungsFee-Installer |
| 🐧 Linux | sudo apt install tesseract-ocr tesseract-ocr-deu |
| 🍎 macOS | brew install tesseract tesseract-lang |
Fehlt Tesseract, erscheint beim Import-Versuch ein Hinweis mit dem passenden Installationsbefehl.
Maschinenlesbare PDFs, ZUGFeRD und XRechnung funktionieren ohne Tesseract.