TERMIN VEREINBAREN KONTAKT

Multimodale RAG-Architektur

Unternehmens-KI auf einem neuen Level: Wir bieten eine einzigartige und effiziente RAG Architektur, die eine parallele Verarbeitung von unterschiedlichen Dateitypen im RAG erlaubt. So können bspw. Embeddings für Audiodateien, Bilddateien und Textdateien erstellt und gemeinsam verarbeitet werden.

Diese Architektur erlaubt eine flexible, kontextbezogene Nutzung Ihrer unternehmensbezogenen Daten, unabhängig vom Dateityp.

Minimierung von Komplexität: Multimodale RAG-Anwendungen erfordern in der Regel ein komplexes Setup aus einem KI-Modell für Texte, einem KI-Modell für Bilder, einem KI-Modell für Sprachdateien, einem Embedding Modell und einer Vektorendatenbank.

Mit unserer Architektur reduzieren wir die Anzahl an notwendigen Modellen auf 1. Das reduziert die Systemkomplexität sowie Kosten, und steigert zu gleich die Effizienz und Produktivität im Prozess.

Weniger Halluzinationen und höhere Präzision: Normale RAG Anwendungen leiden oft unter zu vielen Halluzinationen und unpräzisen Antworten, die aus den Kontexten herausgezogen werden. Durch den Einsatz von gewichteter Cross Attention auf Basis der Entropie reduzieren wir Halluzinationen deutlich und steigern gleichzeitig die Präzision der generierten Antworten.

Anwendungsbeispiel im Gesundheitsbereich:

  • Ein Arzt im Krankenhaus diktiert den Befund für ein Röntgenbild eines Patienten über ein Aufnahmegerät und notiert schriftlich notwendige Maßnahmen die eingeleitet werden müssen.
  • Am nächsten Tag besucht der Patient seinen Hausarzt.
  • Der Hausarzt ruft die Daten aus dem Krankenhaus ab und kann bspw. eine Zusammenfassung des bisherigen Befunds mit Bezug zum Röntgenbild, der Audioaufzeichnung und den schriftlich erfassten Maßnahmen anfordern.
ZURÜCK