VLM (Vision Language Model)
Aus devops.straight8.de
Im KI-Kontext steht VLM für Vision Language Model (auf Deutsch: Vision-Sprachmodell). [1, 2]
Es handelt sich dabei um eine Klasse von multimodalen KI-Modellen, die in der Lage sind, sowohl visuelle Informationen (Bilder oder Videos) als auch Textinformationen gleichzeitig zu verarbeiten, zu interpretieren und miteinander zu verknüpfen. [1, 2]
Hier sind die wichtigsten Punkte:
- Funktionsweise: VLMs kombinieren die Fähigkeiten von Computer Vision (Bildverstehen) und Large Language Models (LLMs, Sprachverstehen). Sie lernen durch das Training mit riesigen Datensätzen, die Bild-Text-Paare enthalten, visuelle Merkmale mit sprachlichen Konzepten in Beziehung zu setzen. [1, 2, 3]
- Fähigkeiten:
- Bildbeschreibung (Image Captioning): Automatische Erstellung von Bildunterschriften.
- Visuelle Fragebeantwortung (Visual Question Answering - VQA): Fragen zu Inhalten in einem Bild beantworten (z. B. „Was ist auf diesem Foto zu sehen?“).
- Dokumentenanalyse: Erkennung von Text, Tabellen und Layouts in Dokumenten.
- Objekterkennung & -segmentierung: Erkennen und präzises Markieren von Objekten in Bildern. [1, 2, 3, 4, 5]
- Unterschied zu LLMs: Während LLMs (wie ChatGPT) nur Text verstehen und generieren, können VLMs "sehen" und diese visuelle Wahrnehmung in Text übersetzen. [1, 2, 3, 4]
- Beispiele & Nutzen: VLMs werden in der Bildersuche, der Robotik (für visuelle Navigation), der medizinischen Bildanalyse und der automatisierten Qualitätskontrolle in der Industrie eingesetzt. Bekannte Ansätze sind z.B. CLIP von OpenAI. [1, 2, 3, 4, 5]
Zusammenfassend ist ein VLM eine KI, die Text und Bild in einem gemeinsamen Kontext versteht. [1]