Leistungsstarkes multimodales Modell Qwen3-VL von Alibaba
15:53, 15.10.2025
Das neue Modell Qwen3-VL wurde kürzlich von Alibaba auf den Markt gebracht. Es ist in zwei Versionen erhältlich, verarbeitet Bilder und Text und unterstützt Inhalte mit 256.000 Tokens, wobei die Länge auf 1 Million erweitert werden kann.
Hauptmerkmale von Qwen3-VL
Die Unterstützung offener Lexik ist eines der Hauptmerkmale des neuen Modells. Qwen3-VL erkennt viele Details wie architektonische Objekte, Logos, Haushaltswaren und vieles mehr. Daher ist es möglich, den Kontext nicht nur zu analysieren, sondern auch zu interpretieren.
Das Projekt bietet zwei Hauptfunktionsmodi: Thinking und Instruct. Thinking wird für komplexere Rechenaufgaben verwendet, bei denen schrittweises Denken erforderlich ist. Instruct wird für die Generierung interaktiver Prozesse wie Code, Text oder einfache Datenanalyse benötigt.
Das OCR-System wurde mit Informationen von schlechter Scanqualität trainiert. Das Modell kann Daten aus schrägen oder leicht unscharfen Scans leicht erkennen und unterstützt 32 Sprachen.
Qwen3-VL ist unter der Apache 2.0-Lizenz verfügbar, wodurch dieses Modell das zugänglichste und leistungsstärkste unter den Open-Source-Optionen ist. Der Code ist bereits auf Hugging Face verfügbar, und in Kürze wird die Integration des Modells in die Dienste ModelScope und AI Workspace vorbereitet.