Auf der aktuell in Singapur stattfindenden AAAI 2026, einer Top-Konferenz im Bereich der Künstlichen Intelligenz, wurde eine erfreuliche Nachricht verkündet: Die Forschungsergebnisse, die von Professor Hu Liang vom College of Computer Science and Technology der Tongji-Universität, seinem Doktoranden Huang Weiquan, seinem Masterstudenten Wu Aoqi sowie in Zusammenarbeit mit Wissenschaftlern von Microsoft und der Macquarie University (Australien) erzielt wurden, sind mit dem AAAI „Outstanding Paper Award“ ausgezeichnet worden (weltweit wurden in diesem Jahr lediglich fünf Arbeiten prämiert).

Die preisgekrönte Arbeit trägt den Titel „LLM2CLIP: Powerful Language Model Unlocks Richer Cross-Modality Representation“. CLIP ist ein einflussreiches multimodales Grundmodell im aktuellen KI-Bereich. Sein Kernkonzept besteht im gemeinsamen Training mit umfangreichen Bild- und Textdaten, um Computern zu ermöglichen, Bilder und Sprache im selben semantischen Raum zu verstehen und so Aufgaben wie Bilderkennung und -retrieval zu unterstützen. Mit der rasanten Entwicklung großer Sprachmodelle (Large Language Models, LLM) zeigen diese deutliche Stärken im Sprachverständnis und in der Modellierung von Weltwissen. Vor diesem Hintergrund untersuchte das Forschungsteam eingehend, wie die leistungsstarken Sprachverständnisfähigkeiten von LLM in das CLIP-Framework integriert werden können, um dessen Fähigkeit zum Verständnis komplexer, langwieriger Textbeschreibungen und dessen visuelle Wahrnehmungsfähigkeit zu verbessern. Dafür schlugen die Forscher eine effiziente Methode zum Feinabstimmen des Modells vor, die die ursprüngliche CLIP-Architektur beibehält, LLM jedoch organisch darin einbettet, um die multimodale Repräsentationsfähigkeit zu verstärken.

Die jährlich stattfindende AAAI-Konferenz (Association for the Advancement of Artificial Intelligence) wird von der gleichnamigen internationalen Gesellschaft zur Förderung der Künstlichen Intelligenz veranstaltet. Sie ist eine der ältesten und inhaltlich umfassendsten internationalen Top-Konferenzen im KI-Bereich und zählt zu den von der China Computer Federation (CCF) empfohlenen Kategorie-A unter den internationalen akademischen Konferenzen.