Anleitungen - ORC mit Onmipage

 

 

OmniPage Pro öffnet mit:

 

Den ersten Schalter "1-2-3" ("Automatische Verarbeitung beginnen/beenden") zu benutzen, gelingt offensichtlich nur bestens in das Programm eingeweihten Personen. Näheres bei der Beschreibung des übernächsten Bildes.

 

Also, auf "Schalter 1" mit dem Scanner-Symbol tippen, nachdem auf Graustufen gestellt worden ist. Den zu erkennenden Text umranden. Jedes Textfeld wird mit dem Symbol gekennzeichnet. Jede Spalte und kleinen Textblöcke umranden, da Sie nur rechteckig umranden können; dann "Schalter 2" mit der Brille (zur Texterkennung = OCR) betätigen. Vorher auf "Einspaltig, keine Tabelle" einstellen.

 

Nun muß man wissen: OmniPage arbeitet grundsätzlich von oben nach unten und - bedauerlicher Weise nicht in der Reihenfolge, in der Sie Texte markiert haben. Das wird am übernächsten Bild erklärt.

 

Die OCR-Durchführung ist ganz ausgezeichnet. Nur sollten Sie sich zu keinen Korrekturvorschlägen überreden lassen; sonst werden Sie nie fertig. Es wird daher empfohlen,  das sich öffnende Menü ("drop-down" heißt das heute) mit den Korrekturvorschlägen zu schließen. Die wenigen Fehler, die noch vorhanden sind, können Sie leicht von hand korrigieren. Ansonsten werden nämlich sämtliche Eigennamen und Fremdworte beanstandet. Die Korrektur dafür zu unterbinden, dauert länger. Der links im Bild zu erkennende (nicht ohne weiteres lesbare) Text wurde nach Schließen der Korrektur völlig einwandfrei umgesetzt!!

 

>Hier< sehen Sie den Text.

 

Wenn Sie nun auf "Schalter 3" tippen, um den Text in die Zwischenablage zu kopieren, dann ist es empfehlenswert, das "Ohne Formatierung" zu tun; denn in der Regel wollen Sie für die Textverarbeitung doch wahrscheinlich sowieso Ihre eigene Formatierung und Anordnung machen.

 

OmnisPage will alles können (kann auch vieles), und wehe, wenn irgend etwas von OmniPage nur automatisch gemacht wurde, dann ist ein manuelles Eingreifen kaum noch möglich. Soll beispielsweise die "Formatierung beibehalten" werden (unter "Schalter 3"), kann diese nur mit großen Schwierigkeiten geändert werden. Die ursprüngliche Formatierung - insbesondere in MS-Word - wird immer wieder durchgetrotzt.

 

Das Programm muß in der Reihenfolge der "Schalter" 1, 2 und 3 abgearbeitet werden (1-2-3, den ersten Knopf unberücksichtigt lassen!).

 

Achten Sie bei "1" darauf, daß die Vorlage - entweder eingescannt oder als Bild - im Textbereich keine starken Flecken hat. Das verwirrt das Programm vollkommen. Daher besser auf "Graustufen" stellen, wobei man selten Probleme bekommt.

 

Wenn Sie auf "2" klicken (OCR durchführen), können Sie die zu erkennenden Textbereiche am besten manuell - wie bereits erwähnt - auswählen. Aber manchmal wird die von Ihnen ausgewählte Reihenfolge nicht eingehalten. Die Reihenfolge spielt völlig verrückt, wenn Flecken auf der Vorlage sind. Dagegen werden Linien nach den bisherigen Erfahrungen völlig unberücksichtigt gelassen.


 Hier ist zur Demonstration ein Zeitungsausschnitt eingescannt worden unter Benutzung des Automatikschalters "1-2-3". Sie sehen, es werden sogar Bilder markiert mit dem Symbol . Die Texte haben das Kennzeichen .

 

Die Erkennung für Ihr Weiterverarbeitungsprogramm erfolgt in der Reihenfolge der vom Autor rot eingetragenen Zahlen. Leider wurden 1 und 2 vertauscht, da der Zeitungstitel nicht erkannt worden ist.

 

Das Ergebnis in MS-Word sieht dann so aus, wie das nächste Bild zeigt. Dort erscheint also 2, 1, links 3, darunter in der Mitte 4, darunter 5.

 

7 kommt nicht als nächstes - wie erwartet. Zwischen 7 und 12 ist ein Trennungsstrich, der das wohl verhindert hat. Ein solcher Strich wird aber nicht immer beachtet.

 

Jedenfalls sind 8, 9, 10, 11, und 12 als Fließtext übertragen worden, was für eine Weiterverarbeitung in der Regel günstig ist. (Man möchte ja nicht eine Fotokopie erstellen und alles so haben, wie in der Vorlage angegeben.)

 

Wenn Sie jedoch bei dieser automatischen Text- und Bilderkennung in die Weiterverarbeitung gehen, dann gibt's Arbeit.

 

Doch zuerst ein Ausschnitt des Bildes:

 

Da gibt es übliche und ganz verrückte Schriftfonds:

"KÖLNISCHE ZEITUNG" ist in "Times new Roman",

"Wo die Liebe hinfällt" in "Haettenschweiler",

"Neue Kommödie" in "Garamond".

 

Dieser Fond "Garamond" wechselt nach "Die Schulwahl..." mit "Times new Roman" ab.

 

Die Schriftgrößen sind auch in stetem Wechselspiel .

 

Das Original wechselt zwischen den Schriftfonds "Arial" und "Timers new Roman".

 

Immerhin hat OmniPage erkannt, wann eine Spalte mit einer nächsten als Fließtext verbunden werden soll. (Klappt nicht immer - ist aber auch sehr, sehr schwierig.)

 

In jedem Fall ist zu beachten, daß am Ende einer jeden Spalte vom OmniPage-Programmierer immer ein Zeilenumbruch (eine neue Zeile) gesetzt wird. Solche Dinge sind dann manuell zu suchen und zu korrigieren.

 

Es wird also im Fließtext auf einmal aus "Die enorme Unterstützung habe ihn darin bestärkt, die Geschäfte weiterzuführen..."

"Die enorme Unterstützung habe ihn darin bestärkt, die Ge

schäfte weiterzuführen..."

Das ist ein Bild. Die Verzweigung "www.ksta.de" kann also nicht funktionieren.

Den Trennungsstrich haben die Programmierer von ScanSoft (OmniPage) unberücksichtigt gelassen. Das kann man nur als schlampige Arbeit bezeichnen. Das ist deshalb ärgerlich, weil ansonsten die Texterkennung ganz hervorragend ist. Aber durch diese Schlampereien - es gibt mehrere, die hier nicht alle aufgezählt werden können - wird der Benutzer zum Aufpassen gezwungen. Und ein guter und schneller Textabschreiber kann damit fast auf ein solches Texterkennungprogramm verzichten.

 

Hier sei noch der anschließende Interpretationsteil aus der automatischen OmniPage-OCR gezeigt:


 

Wenn Sie sich das Original oben (rechts) anschauen und es mit dem Resultat in den beiden Teilbildern links vergleichen, dann sieht es ziemlich verwirrend aus.

 

Daher die Empfehlung, manuell - ohne Formatierung zu arbeiten.

 

Übrigens die Scannerbilder sind brauchbar. Man kann also durchaus Bilder mit einscannen, wenn diese keine größere Verbesserung durch beispielsweise PhotoShop erfahren müssen.

 

Vielleicht wird an dieser Seite noch gearbeitet...