Machine Learning Pipeline

Bsp. Texterkennung (OCR) in Bildern.

Image → Text Detection → Character Segmentiation → Character recognition

Aufteilbar in Teams

Text Detection

Ratio der Rechtecke

Bildgröße festlegen und großes Datenset an positiven und negativen Beispielen anlegen.

Sliding windows detection

Bspw. links oben anfangen und Classifier befragen. Dann Rechteck nach rechts schieben. Step-Size ist Länge der Verschiebung.

Größerer Bildausschnitt nehmen und herunterskalieren, sliding windows durchführen.

Im nächsten Schritt einen expansion Operator anwenden. Mathematisch: Ist Pixel in Umgebung eines anderen weißen Pixels? Dann auch weiß färben.

Weiterhin Bildverhältnis beachten und andere herausfiltern.

1D Sliding window Entscheiden, ob Split zwischen Buchstaben (wieder positive/negative Beispiele).

Bei Bildern z.B. Verzerrungen einbauen. Bei Audio z.B. Hintergrundgeräusche.

Low Bias Classifier (Learning curves), bevor künstliche Daten erzeugen.