Inhaltsverzeichnis
Inhaltsverzeichnis
1. Grundlagen der Bildverarbeitung 2
1.1. Additive Farbmischung 2
1.2. Subtraktive Farbmischung 2
1.
3. Kalibrierung 3
1.4. DPI 3
1.5. Interpolation 3
2.
Scannertypen 3
2.1. Einzugscanner 3
2.2. Flachbettscanner 4
2.3.
Handscanner 4
2.3. Diascanner 5
2.4. Trommelscanner 5
2.5.
3D-Scanner 6
2.6. Formel für optimales Scannen 6
3. Scantechnicken 7
3.1. Filter 7
3.
2. Fluoreszenzlampen 7
3.3. Prismen 7
3.4. CCD 8
4.
Scannermodi 8
4.1. Bilevel-Modus 8
4.2. Graustufenmodus 8
4.3.
Echtgraustufen-Modus 9
4.4. Dithering 9
4.5. Moiré 9
5. OCR 10
5.
1. Vorgehensweise 10
5.2. Erkennungsverfahren 10
5.2.1.
Mustererkennung (Pattern Matching) 11
5.2.2. Umrißerkennung (Feature Recognition) 11
5.2.3.
Feature Extraction 11
5.2.4. Topologische Analys 12
1. Grundlagen der Bildverarbeitung
Die Basis für das Farbempfinden ist das Auge, das auf kurze Wellenbereiche elektromagnetischer Strahlung reagiert. Das Gehirn bewertet dann diese Strahlung mit roten, grünen und blauen Sinneseindrücken.
Diese Farbeindrücke sind jedoch subjektiv und besitzen keine festgelegten Definitionsmöglichkeiten. Um nun diese Farben dennoch beschreiben und festlegen zu können, hat man zwei Farbmodelle entwickelt.
1.1. Additive Farbmischung:
heißt das 100% aller Grundfarben (Rot, Grün und Blau) weißes Licht ergibt.
1.
2. Subtraktive Farbmischung:
Bei diesem Modell werden über Filter einzelne Spektralbereiche von auftreffendem weißen Licht abgezogen. Solche Filter können sein: Filterlampen, Oberflächen von nicht selbstleuchtender Körper (z.B. Folien) oder beim Druckprozeß die Druckfarben. Werden alle Filter übereinandergelegt, fallen alle Spektralbereiche weg und kein Licht erreicht den letzten Filter.
Das Ergebnis ist also die Farbe Schwarz. Direkt komplementär zum RGB-Modell wäre die Farbmischung mit Cyan, Magenta und Gelb. Es könnten Farben also problemlos hergestellt werden. Cyan und Magenta müßte Blau vom Papier reflektieren. Cyan und Gelb -> Grün, Magenta und Gelb -> Rot. Der Zusammendruck aller drei Farben müßte reines Schwarz ergeben.
In der Realität reflektieren diese Farben aber auch Anteile in anderen Spektralgebieten, sodaß ein Zusammendruck kein Schwarz, sondern einen schmutzigen Blauton ergibt. Deshalb benötigt man einen vierten Farbauszug, nämlich Schwarz. Die Farbmischungen aus Cyan, Magenta, Gelb und Schwarz nennt man Separations- oder Prozeßfarben.
Die Basis für den heutigen Offsetdruck ist also der Vierfarbdruck. Die RGB-Daten des Scanners müssen in die für den Druck gebräuchlichen Farben umgewandelt werden. Eine Internationale Kommission CIE (Commission Internationale de l´ Eclairage) entwickelte in den 30er Jahren einen Farbraum, der noch heute als Grundlage der Farbbildreproduktion gilt.
In diesem Raum können jedem Farbton Koordinaten zugeordnet werden, die sich meßtechnisch erfassen lassen. Es wurden auch Normen geschaffen, die genau definieren, wie eine Druckfarbe auszusehen hat. Die Vierfarbseparation ist also nicht nur eine reine Invertierung von Rot, Grün und Blau in die Komplementärfarben Cyan, Magenta und Gelb, sondern auch einen komplizierte Umrechnung.
Ein anderes Problem ist auch noch, daß es keine einheitliche Kalibrierung der einzelnen Geräte gibt.
1.3.
Kalibrierung:
Um sicherzustellen, daß Farben zwischen Scannvorgang und Bildausgabe korrekt wiedergegeben werden, müssen die benutzten Geräte kalibriert werden. Die Farbdarstellung am Bildschirm ist so einzustellen, daß sie mit den Originalfarben übereinstimmt. Das ist jedoch einfacher gesagt als getan. Teure Hardware wie kalibrierbare Monitore oder Densiometer sind für diesen Vorgang nötig. Im professionellen Bereich ist das weniger problematisch als im Heimbereich, wo in der Regel die Farbtafel genutzt werden muß.
Jeder Hersteller von Monitoren, Druckern, aber auch Softwareprogrammen arbeitete bisher nach seinen eigenen Bewertungskriterien.
Die Industrie hat zwar eigene Programme zur Kalibrierung von Grafikkarten und Monitoren geschaffen, es kann aber trotzdem kein einheitlicher Abgleich bis hin zum Ausgabegerät geschaffen werden. Zum perfekten Farbabgleich aller verwendeten Bildbearbeitungskomponeten gehört die "Gradationskurvenkorrektur" . Aber auch diese Art der Kalibrierung ist leider nur rein subjektiv, oder erfordert die geeigneten Zusatzgeräte.
1.4. DPI:
Steht für Dots Per Inch also Bildpunkte pro Zoll.
Der Dpi-Wert ist der Maßstab für
die Qualität des Scanners, je höher desto besser. Unterscheiden muß man
doch zwischen der tatsächlichen physikalischen Auflösung in dpi und der
durch mathematische Tricks künstlich gesteigerter Auflösung.
1.5. Interpolation:
Beizeichnung für ein mathematisches Verfahren, um den Dpi-Wert künstlich zu verbessern. Dabei wird ein zusätzlicher Punkt zwischen zwei tatsächlich gescannten Bildpunkten errechnet.
Dadurch läßt sich die Auflösung eines Bildes scheinbar verdoppeln. Das Aussehen hängt dabei von den umliegenden Bildpunkten ab. Die Punktdichte wird größer, mehr Details der Vorlage kommen allerdings nicht zum Vorschein. Ein eventueller Nachteil ist, daß das Ergebnis nicht unbedingt besser sein muß. Sehr feine Strukturen auf dem Original können zum Beispiel zusammenfließen oder klobig wirken.
2.
Scannertypen
2.1. Einzugscanner:
Technisch gesehen besteht diese Gruppe aus einer Leiste von CCD-Sensoren (Charged Coupled Device), die allerdings nicht beweglich, sondern feststehend ist. Die Vorlage wird nicht von der Leseeinheit abgetastet, sondern durch einen Motoreinzug an den CCD-Sensoren vorbeigeführt. Das heißt die Vorlage wird wie in einem Faxgerät eingezogen und über die Scannertrommel, die in starrer Position bleibt, geführt. Mit den Einzugsscannern lassen sich bis zu A4 große Vorlagen in einem Abtastvorgang einlesen.
Der offensichtliche Nachteil der Einzugsscanner bleibt allerdings die ausschließliche Verarbeitung von Einzeldokumenten, denn Bücher und Kataloge lassen sich nicht verarbeiten. Außerdem kann es bei einigen Modellen beim Einzug glatter Vorlagen, wie Fotos zu unangenehmen Randverzerrungen kommen. Wie bei einem Faxgerät, können die elektronisch erfaßten Daten auch über die Telefonleitung übertragen werden.
2.2. Flachbettscanner:
Sind Tischgeräte, die im Aussehen einem Fotokopierer ähneln.
Unter einer lichtundurchlässigen Klappe platziert man die zu scannende Vorlage auf einer Glasplatte, genau wie beim Kopierer. Die Scannvorrichtung wird während des Abtastvorgangs unter der Glasscheibe entlanggeführt. Der Vorteil dieses Scanners ist sein exaktes, automatisches Scannverfahren. Je nach gewünschter Qualität sorgt das Gerät selber dafür, daß die Scannvorrichtung mit der notwendigen Geschwindigkeit über die Vorlage fährt. Der exakte Führungsmechanismus ist auch deshalb nötig um beim Farbscannen die Grundfarben separat in einzelnen Gängen einlesen zu können und dann genau übereinander legen zu können. Das Einlesen Aus Bücher stellt auch kein Problem dar, weil die Abdeckhaube nicht unbedingt geschlossen bleiben muß.
Durch diese aufwendige Mechanik sind diese Scannertypen teurer als Einzugscanner.
2.3. Handscanner:
Im privaten Bereich hat sich der Handscanner gut bewährt. Auf der Unterseite befinden sich Führungsrollen und eine gut 100 mm breite Scannöffnung. Den Scanner zieht man per Hand über die Vorlage.
Handscanner leisten Auflösungen bis zu 400 dpi, durch mathematische Tricks können diese auf theoretisch 800 dpi gesteigert werden. Der Vorteil der Handscanner liegt vor allem in den günstigen Anschaffungskosten und in der Qualität der Scannergebnisse kann sich ein Handscanner durchaus mit einem teureren Tischgerät messen. Der Nachteil ist nur dabei, daß der Weg dorthin nicht immer leicht ist, denn der relativ schmale Scannbereich läßt nicht zu, eine A4-Vorlage in einem Durchgang einzulesen. Die Software muß folglich das Ergebnis aus verschiedenen Teilen zusammensetzten, was zeitaufwendig und nicht immer zur vollsten Zufriedenheit funktioniert. Vorlagen mit hohen Dpi-Wert, darf man nur sehr langsam mit dem Handscanner abtasten, da es sonst zu "Sehfehlern" kommen kann. Außerdem ist auf ein genaues und gleichmäßiges Führen des Handscanners zu achten, vor allem wenn man Texte einscannen will, die über eine OCR-Software in Textverarbeitungsprogrammen weiterverarbeitet werden sollen.
Hier kann man sich aber mit einem Lineal leicht helfen.
Von der Firma Sicos wurde ein Scanner entwickelt, der durch ein System von zwei separat laufenden Mauskugeln erkennen kann, an welcher Position der Vorlager er sich befindet. Auf diese Weise sind Vorlagen bis zur A3-Größe in einem Zug einscannbar. Außerdem hat Sicos einen Scanner entwickelt, der selbständig von einem Motor angetrieben über die Vorlage fährt. Dadurch läßt sich ein gleichmäßiges Abtasten ohne ruckartige Bewegungen erreichen.
2.
4. Diascanner:
Dieser Scannertyp ist im professionellen Bereich einzuordnen, dessen Einsatzgebiet auf das Einsehen von Diapositiven und -negativen beschränkt ist. Er besitzt spezielle Vorrichtungen zum Einschub der Dias. Die Qualitätsforderungen an Diascanner sind sehr hoch angesetzt. Die auf Dias transportierten Bilder werden fast ausschließlich in Vergrößerungen weiterverarbeitet und müssen besonders exakt und mit hoher Detailtiefe erfaßt werden. Im Vergleich zu den "Diaaufsätzen" bei Flachbettscannern lassen sich mit einem speziellen Diascanner Auflösungen bis zu einigen tausend dpi als Punkte pro Zoll erreichen.
Außerdem arbeiten die Geräte mit einem speziellen Ausleuchtungsverfahren, um die sonst üblichen Streu- und Nebeneffekte beim Einscannen der stark reflektierenden Vorlage zu eliminieren. Die Anschaffung für private Zwecke lohnt sich nicht da auch Flachbettscanner das Einlesen von Dias in geringerer Qualität erledigen. Preiswerte Geräte zur Verarbeitung von Kleinbildformaten bis zu 35 Millimeter sind bereits für 14 bis 21 000 Schilling zu bekommen. Sie verfügen meist über eine Abtasttiefe von 8 Bit pro Farbe, also insgesamt 16,8 Millionen Farben. Die professionellen Geräte hingegen, sind auch für die Bearbeitung von Großformaten bis zu 6 x 9 Zentimeter ausgelegt und verfügen über eine Abtasttiefe von 30 oder sogar 36 Bit.
2.
5. Trommelscanner:
Ist der älteste Scannertyp und liefert die exaktesten Ergebnisse. Auflösung, Tempo, und Qualität sind bis heute unerreicht. Beim Trommelscanner wird die Vorlage um eine Trommel herumgewickelt und bewegt sich schraubenförmig unter dem Beleuchtungs- und Abtastsystem. Da Lichtquelle und Detektor immer in der gleichen Lage zum abtastenden Bildpunkt sind, kann so mit einfachen Mitteln hervorragende Qualität erreicht werden. Als lichtempfindliches Element arbeitet im Inneren des Trommelscanners ein "Multiplier", an dem die Vorlage während des Scanvorgangs sowohl horizontal als auch vertikal vorbeiwandert.
Fotozellen fangen die Reflexionen auf und verarbeiten sie zu computerverträglichen Daten. Trommelscanner erfassen Vorlagen sehr schnell und in höchster Qualität. Ihr Einsatzgebiet liegt ausschließlich im Bereich der professionellen Druckwerkherstellung. Nachteile sind neben der aufwendigen mechanischen Verarbeitung noch der hohe Preis. (100 000 Mark)
2.6.
3D-Scanner:
Auch dreidimensionale Vorlagen lassen sich mit dem 3D-Scanner einlesen. Diese Geräte verwendet man meist zum Katalogisieren oder Archivieren von Objekten, wie zum Beispiel in der Autozubehör-Branche. Einige Modelle dieser Scanner haben eine Besonderheit, die sie auszeichnen. Denn einige kommen ohne eigener Lichtquelle aus, da sie das normale Tageslicht bzw. die Zimmerbeleuchtung ausnutzen. Der Nachteil ist, daß die Abtasteinrichtung fest installiert ist und so der Scannerkopf einen Schatten auf die Vorlage werfen kann, wenn keine optimale Beleuchtung vorhanden ist.
2.7. Formel für optimales Scannen
Um gescannte Bilder hinsichtlich der Genauigkeit und der Dateigröße zu optimieren, sollten vor dem Scannen Überlegungen zum Verwendungszweck angestellt werden. Ausschlaggebend für optimales Scannen ist für den Ausdruck und die Betrachtung am Monitor die Größe des zu erwartenden Bildes und natürlich die Qualität des Druckers oder Monitors. Ein Drucker besitzt zum Beispiel eine maximale Auflösung von 300 dpi. Ziel ist es, eine A4-Vorlage auf die Druckgröße von ebenfalls A4 zu bringen.
Bei zwei Farben (Schwarz und Weiß) ist das kein Problem, die Vorlage wird mit 300 dpi eingescannt und 1:1 übertragen. Sollen allerdings drei Graustufen gedruckt werden, so müßten pro gescannten Bildpunkt vier Druckpunkte gesetzt werden; das Zielbild würde in diesem Fall in der Länge und Breite verdoppelt. Das eingescannte Bild muß vor dem Druck also in Länge und Breite um den Faktor 2 gestaucht werden, damit es auf das Papier paßt. Für das Bild heißt das eine Qualitätseinbuße im Dpi-Wert um den Faktor 2. Diese überflüssigen Bildbearbeitungen lassen sich einsparen, wenn das Original gleich beim Scannen mit 150 dpi abgetastet wird. Die Qualität bleibt die gleiche.
Noch einsichtiger wäre es, wenn es um ein Zielbild mit 255 Graustufen ginge. Bei einem 300 dpi Scan müßte das Bild anschließend um den Faktor 16 verkleinert werden. Das entspricht einem Dpi-Wert von 18,75. Wird das Bild gleich mit 18,75 dpi eingescannt, sinkt nicht nur die Bearbeitungszeit, sondern auch die Größe der Bilddatei. Nämlich statt 8,7 MByte nur 545 KByte. Hier läßt sich für das optimale Scannen eine Formel ableiten, die immer dann gilt, wenn Original und Ausdruck die gleichen Seitenverhältnisse besitzen:
Länge * Breite (Ausdruck) * Dpi-Wert (Drucker)
Dpi-Wert (Scanner) = ----------------------------------------------------------
--------------------------
Länge * Breite (Vorlage) * / Anzahl Graustufen +1
/
3.
Scantechnicken
Trotz der vielen Arten von Scannern arbeiten fast all nach dem selben Prinzip.
Zuerst wird die Bildvorlage beleuchtet. Das einfallende Licht wird von der Vorlage
mehr oder weniger stark reflektiert. Dunkle Stellen "saugen" den Lichtstrahl auf, helle Stellen werfen ihn zurück. Die Reflexion wird dann an lichtempfindliche, elektronische Bauteile geleitet. Dazu werden Stablinsen benutzt, damit einfallendes Streulicht das Ergebnis nicht verfälscht.
Die elektronischen Bauteile, CCD´s (Charge Coupled Devices), geben in Abhängigkeit von der Intensität des Lichteinfalls einen Wert an den Rechner weiter, der daraus die Helligkeit des Bildpunktes bestimmt.
Die meisten Farbscanner basieren im Prinzip auf der Weiterentwicklung des Graustufenscanners. Derzeit werden drei Technologien bei der Digitalisierung angewandt.
Das scannen mit
- Filter
- Fluoreszenzlampen
- Prismen
3.1. Filter:
Beim Farbfilterverfahren wird die Vorlage in drei Scandurchgängen mit weißem Licht beleuchtet, und in jedem Durchgang wird den CCDs ein anderer Farbfilter vorgesetzt (Rot, Grün und Blau).
So erhält man die Farbanteile jede einzelnen Punktes für Rot, Grün und Blau. Dieses additive Farbmodell entspricht der Darstellungsweise der Bildpunkte auf dem Monitor. Additiv bedeutet, daß 100 Prozent jeder Grundfarbe Weiß ergibt. Es gibt nur wenige Scanner, die mit diesem Verfahren arbeiten, daß auch sehr langsam ist. Vor der CCD-Zeile ist eine aufwendige Mechanik positioniert.
3.
2. Fluoreszenzlampen:
Beim zweiten Verfahren werden anstatt der Filter drei farbige Fluoreszenz-Lampen eingesetzt, die den entsprechenden Farbanteil der Vorlage reflektieren. Wegen der zeilenweise Abtastung ist nur ein Scandurchgang notwendig. Mit der Farbtrennung durch RGB-Lichtquellen wird neben der Verringerung des Farbversatzes auch eine optimierte Scangeschwindigkeit erreicht.
3.3.
Prismen:
Im dritten Verfahren arbeitet der Scanner mit einer weißen Lampe, deren Licht von der Vorlage reflektiert durch ein Prisma führt und in seine Rot-, Grün- und Blau-Anteile zerlegt wird. Drei verschiedene Reihen mit CCDs fangen gleichzeitig die drei Farbanteile auf. Diese Technologie liefert gute Ergebnisse, da keine Verluste Farbverfälschungen der Lampen oder Filter auftreten können. Dieses Verfahren ist zwar technisch aufwendiger dafür ist nur ein Scandurchgang erforderlich und somit zeitsparender.
3.4.
CCDs (Charge Coupled Devices) und Dpi-Wert
CCD-Sensoren sind elektooptische Bauteile, die den ankommenden Lichtstrom in Form einer Ladung in einem Kondesator festhalten. Diese wird durch eine Treiberschaltung von Element zu Element bis zu Auslesestation am Ende der Zeile übertragen. CCDs sind auf einem Baustein herstellbar. Mit der Verbesserung dieser Technik wurde eine immer größere Anzahl von Elementen je Zeile möglich, so daß man heute die Breite einer A4-Seite mit einer Zeile abgetastet. Der mechanische Aufbau eines Scanners wird dadurch stark vereinfacht. Im Vergleich zum Trommelscanner ergeben sich jedoch auch einen Reihe von Nachteilen.
Vor allem durch die Abtastung einer großen Anzahl von Einzelsensoren, die unterschiedliche Empfindlichkeiten und Kennlinien haben.
Die Dichte der CCDs bestimmt den maximalen Dpi-Wert, mit dem der Scanner die Vorlagen lesen kann. Sind auf einer Länge von einem Zoll 300 solcher Sensoren angeordnet, so erreicht dar Scanner eine maximale Auflösung von 300 dpi. Eine Vorlage wird demnach Punkt für Punkt erkannt, jeder Punkt wird digitalisiert und auf dem Monitor dargestellt. Durch alle möglichen Tricks versucht man, immer höhere Dpi-Werte zu erreichen.
4.
Scannermodi
Es wird prinzipiell zwischen drei Scannermodi unterschieden.
4.1. Bilevel-Modus:
Bei diesem Modus erkennt der Scanner nur zwei Farben, Schwarz und Weiß. Er eignet sich somit primär nur für Linienzeichnungsvorlagen oder für Bilder, bei denen keine verschiedenen Graustufen vorliegen. Um feine Linienzeichnungen einzulesen ist einen Auflösung von 400 dpi einzustellen um damit gute Ergebnisse zu bekommen.
4.2. Graustufenmodus:
Zwischen dem Begriff "Schwarzweiß-Scanner" und "Graustufen-Scanner" herrscht oft Ungewissheit. Denn auch ein Bilevel-Scanner kann Bilder mit verschiedenen Graustufen liefern. Dabei kommt das Dithering-Verfahren zum Einsatz. Bei fast allen Bilevel-Scanner kann zwischen zwei bis vier Dither-Muster ausgewählt werden.
Welches Muster man dann auswählt hängt von der Vorlage ab. Es gibt auch Bilevel-Scanner mit einer entsprechenden Software, wo die Umwandlung der Rasterbilder in echte Graustufen am Bildschirm bereits während des Einscannens erfolgt. Meistens werden die gerasterten Bilder jedoch erst nachher umgerechnet. Die Dauer hängt natürlich vom eingesetzten PC ab.
4.3.
Echtgraustufen-Modus:
Bei dieser Methode kann bereits die Scannerhardware beim Einscannen zwischen 23, 64 oder 256 Graustufen, je nach Modell, unterscheiden. Im Gegensatz zu Bilevel-Modellen ist hier also keine Umrechnung erforderlich. Die Bilder liegen sofort als echte Graustufenbilder vor. Eine Graustufenzahl von 256 ist in der Praxis nicht mehr sinnvoll und von 64 Stufen kaum zu unterscheiden, weil das menschliche Auge ohnehin nicht mehr als 64 Graustufen unterscheiden kann. Beim Farbscannen arbeitet der Scanner ähnlich wie bei der Echtgraustufen-Erkennung. Er unterscheidet beim Einscannen allerdings zusätzlich verschiederne Farbtöne.
Auch Farbscanner verfügen oft über eine Dither-Scannoption, die sich auszahlt, wenn Bilder auf Farbdrucker ausgegeben werden sollen. Denn beim Ausdruck müssen Echtfarben- oder Echtgraustufen-Bilder wieder softwaremäßig gerastert werden. Verfügt ein Scanner über Truecolor-Qualität (d.h. 24 Bit Farbtiefe = 16,8 Mio Farben) ist das Diertern überflüssig. Für normale Bildverarbeitung reichen allerdings 256 oder 4096 Farben voll aus.
4.4. Dithering
Ein Laserdrucker mit einer Ausgabequalität von 300 dpi ist in der Lage auf einem Zoll 300 Schwarze Punkte zu setzten oder weiße Punkte freizulassen. Diese Auflösung erreicht man, wenn man ein völlig schwarzes Bild druckt. Wenn es darum geht Graustufen auf das Papier zu bringen, sinkt der Dpi-Wert des Druckers um ein Vielfaches. Drucker können keine Graustufen drucken, deshalb müssen sie simuliert werden.
Dieses Verfahren nennt man Dithering. Dabei wird jeder Bildpunkt durch ein Raster dargestellt, in dem je nach Größe unterschiedlich viele druckbare Punkte Platz finden. So lassen sich in einem 2 x 2 Raster kein, ein, zwei, drei oder vier Punkte drucken. Je mehr Punkte gesetzt werden, desto dunkler erscheint die Stelle auf dem Ausdruck. Graustufen werden also dem Auge nur vorgetäuscht. Ein 2 x 2 Raster kann drei Graustufen, Schwarz und Weiß darstellen.
Bei einem 16 x 16 Raster können schon 255 Graustufen, Schwarz und Weiß abgebildet werden. Je höher der Dpi-Wert, desto größer werden auch die Datein. Eine mit 300 dpi eingescannte A4-Seite wird in gut 8,7 Millionen Bildpunkte zerlegt. Bei einem reinem Schwarzweißscan können acht Punkte in einem Byte gespeichert werden, dennoch würde die Datei größer als 1 MByte sein. Sollen gar 255 Graustufen erkannt werden, benötigt jeder Bildpunkt ein Byte, somit würde die Datei 8,7 MByte groß sein.
4.
5. Moiré:
Ist die Bezeichnung für ein wellenförmiges, das Bild störendes Muster, das entsteht, wenn überlagernde Raster nicht exakt aufeinanderliegen.
5. OCR-Software OCR steht für Optical Character Recognition. Solche Programme analysieren gescannte Texte und erkennen die Buchstaben durch Vergleich mit gespeicherten Mustern oder anhand charakteristischer Zeichenmerkmale. OCR-Software wandelt die Buchstabenbilder in Daten um, die von Textprogrammen erkannt und bearbeitet werden können.
5.1. Vorgehensweise Bevor editierbare Zeichen entstehen, muß das Programm die Vorlage in Absätze, Zeilen und Einzelzeichen aufteilen. Wenn wir ein Druckbild als sauber anerkennen so ist es für ein Zeichenerkennungsprogramm noch lange nicht frei von Fallen und Schwierigkeiten. Das beginnt bei der Zeilentrennung, wenn der Abstand der Textzeile sehr gering ist und sich die Unterlänge mit der Oberlänge des Zeichen der nächsten Zeile überschneiden. Eine Zeilenschräglage von ein bis zwei Grad liegt meistens innerhalb der Toleranzgrenze.
Stärkere Winkel führen jedoch zu argen Differenzierungsproblemen, weil die Schräglage durch Drehen der Bitmapvorlagen zu beseitigen ist. Nach der Aufgliederung in Absätze und Zeilen erfolgt die Separation in einzelne Zeichen. Ein anderes Problem ergibt sich bei engstehenden Schriften. Dabei kann ein rn oder ri schnell zum m werden. Hier wird daher die Fuzzy Logic eingesetzt.
Wenn herkömmliche Algorithmen nicht ausreichen setzt man diese Logik ein.
Sie erfaßt nämlich auch Mehrdeutigkeiten. Das heißt es werden für ein problematisches Zeichen mehrere Muster bereit gestellt. Es wird nicht mehr streng nach der Kategorie eines Zeichens geordnet, sondern es werden die absoluten Wahrheitswerte (True, False) durch eine "linguistische Variable ersetzt. Diese Variable kann jetzt dehnbare Beschreibungsgrößen annehmen, wie:
"eher geradelinig", "eher gebogen", stark verschlungen", "eher breit" oder "Strichbeginn oder Strichende". Eine leichte Abweichung in der erkannten Merkmalsmenge führt bei der herkömmlichen Logik zu einem völligen Versagen beim Erkennen. Bei der Fuzzy-Technologie wird zum Beispiel bei einem leicht gebogenes, etwas breiteres Zeichen ohne Anfang und Ende auf eine Null oder O entschieden.
5.2. Erkennungsverfahren Die klassische Bearbeitung der grafischen Pixelmuster bzw. Umrisse unterscheidet zwei grundlegende Methoden: - die Mustererkennung (Pattern Matching) und
- die Umrißerkennung (Feature Recognition).
Alle Verfahren stoßen aber an ihre Grenzen, sobald sich die einzelnen Zeichen einer Schrift nicht mehr von einander separieren lassen. Mit der Hand geschriebene Schriften können daher im Normalfall nicht mit einem herkömmlichen Texterkennungsprogramm erfaßt werden.
5.2.1. Mustererkennung Bei dieser Methode wird das eingelesene Zeichen mit den in einer Tabelle gespeicherten Bitmustern verglichen. Diese Tabelle entspricht dem Font. Dieses Verfahren eignet sich vor allem bei Vorlagen mit hoher Druckqualität, die nur wenige Variationen in der Schriftgestaltung aufweisen, wie zum Beispiel bei Bücher.
Jedes gelesene Zeichen wird solange mit den in Frage kommenden Schablonen verglichen, bis die höchstmögliche Übereinstimmung erreicht ist. Um alle gängigen drucktechnischen Ausprägungen eines Zeichens zu berücksichtigen, müßten eigentlich für jeden Buchstaben, jede Ziffer und jedes Sonderzeichen Hunderte von Mustern bereitgehalten werden. Eine solche große und rechenintensive Musterbildbank ist jedoch nicht nötig, da spezielle Normierungsverfahren die Gestalt der Zeichen glätten. Dazu werden Schwellwerte definiert, die unwichtige Punkteansammlungen einfach unterdrücken. Der Grad der geforderten Übereinstimmung hängt daher von programminternen Toleranzschwellen ab. Als Faustregel gilt: Je höher die Toleranzgrenzen, desto niedriger die Erkennungsquote.
Die Mustererkennung arbeitet nur solange zufriedenstellend, wie sich passende Muster für einen erfolgreichen Vergleich finden lassen. Mustererkennungsmodule sind daher meistens erweiterbar, sodaß man Schablonenbibliotheken mit ausgefallenen Schriften und Sonderzeichen anlegen kann.
5.2.2. Umrißerkennung
Dieses Verfahren analysiert die geometrischen Eigenschaften der Zeichen, indem es die Umrißlinien auf einfache geometrische Figuren reduziert.
Bei der Umrißerkennung keine Pixelschablonen zum Vergleich herangezogen, sondern verschiedene mathematische Algorithmen, die den jeweils typischen Verlauf der Umrißlinien beschreiben. So läßt sich ein geschlossener Kreis als O interpretieren und zwei miteinander verbundene Bögen, also oval lassen auf eine NULL schließen. Es kommt also darauf an, ob eine Umrißlinie geschlossen ist und in welcher Form und Richtung sie gekrümmt ist. Beim C zum Beispiel verläuft die Krümmung konvex und nach links. Unterschiedliche Zeichengrößen bereiten bei dieser Erkennungsmethode natürlich keine Schwierigkeiten, weil sie ihren grundsätzlichen Verlauf beibehalten. Fettgedruckte Zeichen werden in ein Pixel breite Linien umgewandelt und so ebenfalls auf die Umrißgestalt reduziert.
Fehlinterpretationen sind jedoch auch hier nicht auszuschließen, denn ein C kann schnell durch Verschmutzung zu einem O werden. Die Lesegenauigkeit hängt zwar auch bei der Umrißerkennung von der Druckqualität, den Zeilen- und Zeichenabständen ab, doch ist dieses Verfahren wesentlich universeller einsetzbar, wenn auch schwieriger zu programmieren.
5.2.3. Feature Extraction
Diese Texterkennungsmethode ist noch relativ jung.
Die Pixelstruktur eines Zeichens wird hier nicht mit einem Muster verglichen, sondern mit Hilfe typischer Zerlegungsmerkmale einer bestimmten Merkmalsgruppe zugeordnet. Die Einstufung eines Zeichens geht zunächst von der Anzahl seiner Bestandteile aus. So gehört ein O genauso wie ein L und ein U in die einteiligen Zeichen . I und Ü sind zweiteilig, und ein A zählt wegen seiner drei strichförmigen Bestandteile zu den dreiteiligen Zeichen. Die Mehrheit der einteiligen Zeichen wird weiter unterteilt in solche, die über mindestens eine Rundung verfügen und solche die dieses Merkmal nicht aufweisen. Ein P und ein Q gehören zur Untergruppe mit einem Zyklus, ein 7 hat keinen und ein 8 hat zwei Zyklen.
Weiter Untergruppen ergeben sich aus der Zählung der Öffnungen. Auch die Richtung, in die diese Öffnungen weisen dienen als Klassifikationsmerkmal. Zum Beispiel haben V und K eine Öffnung nach oben. Alle Klassen müssen so strukturiert sein, daß sich jedes Zeichen zweifelsfrei zuordnen läßt.
Die Winkelschnittanalyse legt Raster aus parallelen Streifenscharen über ein Zeichen und leitet daraus mathematische Funktionen ab, die dann zur eindeutigen Bestimmung des aktuellen Zeichens herangezogen werden.
5.
2.4. Topologische Analyse
Auch dieses Analyseverfahren zerlegt das betreffende Zeichen, und zwar in Kreise und Linien, deren typische Anordnung mit gespeicherten Beschreibungen verglichen wird. Wie alle anderen Verfahren bewältigt sie unterschiedliche Ausprägungen eines Zeichens und gleicht zumindest geringfügige Verschmutzungen aus.
Anmerkungen: |
| impressum | datenschutz
© Copyright Artikelpedia.com