Viele Bereiche der Maschinellen Sprachverarbeitung (MSV) haben in den letzten Jahren stagniert wegen des großen Aufwands, der für die Annotation von Trainingsmengen erforderlich ist. Wir verfolgen zwei Lösungen: effizienter Erwerb neuer Information und bessere Ausnutzung existierender Information. Wir konzentrieren uns auf Koreferenzresolution, obwohl die zu entwickelnden Methoden auf viele andere MSV-Aufgaben (z.B. das Parsing) anwendbar sind. Basierend auf unseren erfolgreichen Arbeiten im Gebiet der Computer Vision werden wir einen interaktiven Visualisierungsansatz für die halbüberwachte Annotation von großen Datenmengen entwickeln. Mit diesen sehr viel größeren annotierten Datenmengen wird es möglich sein, Vokabular-Merkmale und insbesondere semantische Merkmale zuverlässig zu schätzen. Parallel dazu werden wir neue Methoden entwickeln, die auf globalen Merkmalen basieren und die Trainingsdaten besser ausnutzen können als gegenwärtig möglich. Globale Merkmale können die Leistungsfähigkeit der Koreferenzresolution entscheidend verbessern, weil sie den Lernmethoden Abhängigkeiten zwischen verschiedenen Teilen von Koreferenzstrukturen zugänglich machen. Diese Abhängigkeiten werden zur Zeit noch nicht nutzbringend bei der Koreferenzresolution eingesetzt.