Table of Contents

Machine Learning Pipeline

Bsp. Texterkennung (OCR) in Bildern.

Image → Text Detection → Character Segmentiation → Character recognition

Aufteilbar in Teams

Text Detection

Ratio der Rechtecke

Bildgröße festlegen und großes Datenset an positiven und negativen Beispielen anlegen.

Sliding windows detection

Bspw. links oben anfangen und Classifier befragen. Dann Rechteck nach rechts schieben. Step-Size ist Länge der Verschiebung.

Größerer Bildausschnitt nehmen und herunterskalieren, sliding windows durchführen.

Im nächsten Schritt einen expansion Operator anwenden. Mathematisch: Ist Pixel in Umgebung eines anderen weißen Pixels? Dann auch weiß färben.

Weiterhin Bildverhältnis beachten und andere herausfiltern.

Character Segmentation

1D Sliding window Entscheiden, ob Split zwischen Buchstaben (wieder positive/negative Beispiele).

Artificial Data Synthesis

Bei Bildern z.B. Verzerrungen einbauen. Bei Audio z.B. Hintergrundgeräusche.

Low Bias Classifier (Learning curves), bevor künstliche Daten erzeugen.