====== Machine Learning Pipeline ====== Bsp. Texterkennung (OCR) in Bildern. Image -> Text Detection -> Character Segmentiation -> Character recognition Aufteilbar in Teams ===== Text Detection ===== Ratio der Rechtecke Bildgröße festlegen und großes Datenset an positiven und negativen Beispielen anlegen. Sliding windows detection Bspw. links oben anfangen und Classifier befragen. Dann Rechteck nach rechts schieben. Step-Size ist Länge der Verschiebung. Größerer Bildausschnitt nehmen und herunterskalieren, sliding windows durchführen. Im nächsten Schritt einen expansion Operator anwenden. Mathematisch: Ist Pixel in Umgebung eines anderen weißen Pixels? Dann auch weiß färben. Weiterhin Bildverhältnis beachten und andere herausfiltern. ===== Character Segmentation ===== 1D Sliding window Entscheiden, ob Split zwischen Buchstaben (wieder positive/negative Beispiele). ===== Artificial Data Synthesis ===== Bei Bildern z.B. Verzerrungen einbauen. Bei Audio z.B. Hintergrundgeräusche. Low Bias Classifier (Learning curves), bevor künstliche Daten erzeugen.