Machine Learning Pipeline
Bsp. Texterkennung (OCR) in Bildern.
Image → Text Detection → Character Segmentiation → Character recognition
Aufteilbar in Teams
Text Detection
Ratio der Rechtecke
Bildgröße festlegen und großes Datenset an positiven und negativen Beispielen anlegen.
Sliding windows detection
Bspw. links oben anfangen und Classifier befragen. Dann Rechteck nach rechts schieben. Step-Size ist Länge der Verschiebung.
Größerer Bildausschnitt nehmen und herunterskalieren, sliding windows durchführen.
Im nächsten Schritt einen expansion Operator anwenden. Mathematisch: Ist Pixel in Umgebung eines anderen weißen Pixels? Dann auch weiß färben.
Weiterhin Bildverhältnis beachten und andere herausfiltern.
Character Segmentation
1D Sliding window Entscheiden, ob Split zwischen Buchstaben (wieder positive/negative Beispiele).
Artificial Data Synthesis
Bei Bildern z.B. Verzerrungen einbauen. Bei Audio z.B. Hintergrundgeräusche.
Low Bias Classifier (Learning curves), bevor künstliche Daten erzeugen.