Künstliche Intelligenz

Wie sichert man die bestmöglichen generativen KI-Daten für sein Projekt?

Heim

>

Blog

>

Künstliche Intelligenz

>

Wie sichert man die bestmöglichen generativen KI-Daten für sein Projekt?

Veröffentlicht: 2024/08/28

5 min lesen

Laut einer Umfrage von Gartner gehen 62 % der CFOs und 58 % der CEOs davon aus, dass Künstliche Intelligenz (KI) in den kommenden drei Jahren erhebliche Auswirkungen auf ihre entsprechenden Branchen haben wird.

KI ist und bleibt also in aller Munde, dennoch besteht eine Kluft zwischen Anspruch und Wirklichkeit. 80 % der Entscheidungsträger in KI-basierten Unternehmen erkennen eine große Kluft zwischen KI-Wunschdenken und ihren Bedenken beim Thema Datenschutz und Datensicherheit. Trotz dieser offen diskutierten Erkenntnisse nutzen nur zehn Prozent der Firmen zuverlässige Systeme zur Bewertung von Bias- und Datenschutzrisiken in LLM (Sprachmodelle wie ChatGPT). Um Datenschutz- und Compliance-Anforderungen präventiv zu erfüllen, verwenden Unternehmen schon heute die Technik für ein sicheres Morgen: richtig implementierte Frameworks. Zudem fokussieren sie sich auf KI-Lösungen auf Basis der Datensicherheit. Mehr dazu im Folgenden.

LM-Sicherheitsanforderungen: Tipps zum Umgang

Hochwertige KI-Sprachmodelle sind ausgezeichnet gesichert. Daraus folgt, Nutzer wie Sie werden in der Regel ebenfalls mit den Sicherheitsanforderungen konfrontiert. Wie können Sie damit umgehen?

Filterung von Content für LLM

Eine der wichtigsten Sicherheits- und damit Qualitätsanforderungen an ein LLM sind die Contentfilter. Diese gelten für die Eingabe (Prompt) und für Ausgabe von Inhalten. Anwendungen wie Azure sind in der Lage, Hassreden, sexuelle Inhalte, selbstverletzendes Verhalten und Gewalt herauszufiltern.

Diese Tools filtern Inhalte:

  • Azure AI Content Safety
  • AWS Content Moderation
  • GCP Natural Language

Verarbeitung sensibler Daten in KI-Modellen

Daten sind wertvoll und vielfach sensibel. Jeder, der KI-Lösungen trainiert oder einsetzt, muss sich über die Verarbeitung sensibler Daten grundlegend Gedanken machen. Dazu ein Beispiel: RAG bedeutet Retrieval Augmented Generation und ist eine leistungsstarke Technik, welche KI-Modelle durch erweiterte Prompts neues Wissen zur Verfügung stellt. Bei einer typischen RAG-Lösung ist der Kontext ein wichtiger Faktor. Geben Sie einen Prompt ein, erhalten Sie eine Antwort, basierend auf den gespeicherten Informationen der Datenbank. Basieren diese Daten nicht auf einer gesicherten Grundlage, kann das Ergebnis unbefriedigend ausfallen. Weiß das LLM keine Antwort, kann es vorkommen, dass eine falsche gegeben wird. RAG-Lösungen erweitern die Datenbasis der LLM und erhöhen damit die Richtigkeit der Antworten.

RAG solution

Diese Tools verarbeiten sensible Daten:

  • Azure PII-Detection
  • Amazon Comprehend
  • GCP Sensitive Data Protection
  • Scrubadub – ein Open-Source-Tool zur Datenersetzung

Wie verhindert man Prompt-Injections bei generativer KI?

Missbrauch von LLM ist eine stete Gefahr. Das Ziel einer Prompt-Injection ist es, falsche bzw. unabsichtliche Reaktionen dieser Tools zu provozieren. Ältere LLM waren dafür anfälliger. Moderne Modelle haben sich dagegen zu komplexeren Einheiten weiterentwickelt. Trotz guter Abwehrmechanismen bleibt die Prompt-Injection eine Herausforderung. Die erste und beste Verteidigung gegen eine Prompt-Injection ist maßgeschneidertes Prompt-Engineering.

Würden Sie gerne selbst erleben, wie Sie einen KI-Chatbot hacken. Dieses Spiel zeigt Ihnen, wie das geht.

Nützliche Tools, um Prompt-Incetions zu verhindern

Prompt Shields: Das Tool war lange auch als Jailbreak Risk Detection bekannt. Es ist eine einheitliche API, die selbst LLM-Eingaben analysiert, Prompt-Attacken erkennt und die Angriffe bestens dokumentiert. Ein besonderes Markenzeichen ist, dass Angriff erkannt werden, die versuchen Kontrolle über LLM-Sitzungen zu erlangen, indem sie huckepack auf einem Prompt „einreiten“.

Rebuff: Das Open-Source-Tool filtert gefährliche Prompts heraus und speichert diese, um sie später analysieren zu können. Dadurch lernt die Anwendung kontinuierlich und verbessert die Prompt-Injection-Prävention.

Bestimmte Modelle spezialisieren sich auf die Erkennung von Prompt-Injections. Ein Beispiel ist deberta-v3-base-prompt-injection-v2.

Richtige Methoden zur LLM-Evaluierung

Was kann ein LLM leisten? Diese Einschätzung bzw. Bewertung ist für viele Anwender dann entscheidend, wenn sie zwischen verschiedenen Modellen wechseln. Unterschiedliche Werkzeuge ermöglichen es, die LLM so zu analysieren, damit Sie klare Daten über die positiven und negativen Auswirkungen bei einem Modellwechsel kennenlernen. Folgende Tools helfen Ihnen bei der Bewertung.

Mit diesen Werkzeugen bewerten Sie den Nutzen eines LLM:

  • Azure AI Studio evaluation
  • Amazon Bedrock evaluation
  • LangSmith evaluation

Wie verhindert man Halluzinationen bei KI-Chatbots?

Halluzinationen? Sie denken an eine Fata Morgana. Allerdings handelt es sich bei einer Halluzination eines KI-Chatbots nicht um Luftspiegelungen, sondern um falsche oder irreführende Ergebnisse, die die KI selbst generiert hat. Diese stellen ein großes Problem dar. Hersteller und Anwender sind sich einig: oberste Priorität hat es, diese Halluzinationen tunlichst zu vermeiden. Nur so kann man das Beste aus einem LLM herausholen. Wir geben Ihnen Tipps an die Hand, wie Sie KI-Halluzinationen vermeiden können:

  • ChatGPT nicht verwenden: ChatGPT ist leistungsstark. Dennoch gibt die Anwendung immer wieder dem Drang nach, eine Frage trotz fehlender Datengrundlage zu beantworten.
  • Richtige Temperatur einstellen: Temperatur meint in diesem Fall den Grad an Faktentreue. LLM haben hier in der Regel eine Skala von 0 bis 1 oder bis 2. Je höher Sie hier die Einstellung wählen, desto kreativer, also potentiell falscher werden die Antworten.
  • Achtung: RAG prüft Zusammenhänge: RAG versucht immer, die Relevanz zweier Quellen zu vergleichen. Je mehr thematische Relevanz beide haben, desto besser. Sind die Quellen allerdings unzusammenhängend, versucht das System dennoch kreativ einen Zusammenhang herzustellen.
  • Chain-of-Verification-Technik anwenden: Die Kette der Verifikation bedeutet, dass Sie nach der ersten LLM-Antwort Verifikationsfragen stellen. So prüfen Sie die Antwort. Ein Tipp: LLM bevorzugen eng gefasst Anfragen. Je thematisch breiter eine Aufgabe ist, desto wahrscheinlicher wird die Antwort eine KI-Halluzination sein.

DPSy

So sichern Sie Ihre generativen KI-Daten

Eine McKinsey-Umfrage enthüllt: 65 % der Befragten gaben an, dass ihre Unternehmen regelmäßig KI einsetzen. Damit hat sich die Zahl seit der letzten Umfrage wenige Monate zuvor fast verdoppelt. Drei Viertel der Befragten prognostizieren, dass KI in den kommenden Jahren ihre jeweiligen Branchen signifikant oder sogar disruptiv verändern werden.

KI stellt aber keine magische Lösung dar, bei der man mit einem Prompt a la „Solve quaestionem“ wie mit einem Zauberspruch alles Problematische aus dem Weg räumen kann. Der Treibstoff von KI-Lösungen sind hochwertige Daten. Ohne diese ist jede KI vollkommen nutzlos. „The Generative AI Security Guide – How to Protect Your Data” kann Ihrem Unternehmen dabei helfen, die Datensicherheit in KI-gestützten Produkten zu gewährleisten.

Im Guide finden Sie Best Practices für die Entwicklung sicherer generativer KI-Anwendungen. Die Autoren gehen auch auf den Aspekt des Datenschutzes bei Gen-KI ein. Laden Sie sich den Leitfaden kostenlos herunter. So erfahren Sie, wie Sie potenzielle Sicherheitsrisiken bei der Verwendung von LMM mindern können.

Über den AutorPiotr Kalinowski

Leiter der Daten & KI

Als Cloud-Dateningenieur gelten die Gebiete Software-Entwicklung, -Architektur und der Aufbau fortschrittlicher Datenverarbeitungssystem als großen Stärken von Piotr. Diese Fähigkeiten konnte er bereits bei Banken und anderen Organisationen im Finanzsektor unter Beweis stellen. Der leidenschaftliche Cloud-Blogger entwickelt KI/ML-Lösungen im AWS, Microsoft Azure, Oracle und Alibaba Cloud. Ihr Auftrag erreicht ihn auch dann, wenn Sie nach einer Konzeption und Implementierung skalierbarer Cloud-Infrastrukturen suchen. Wünschen Sie eine Optimierung von Big-Data-Pipelines oder eine Integration von Machine-Learning-Modellen in eine Produktionsumgebung, ist Piotr Ihr Mann. Seine Fähigkeiten, komplexe technische Herausforderungen innovativ zu meistern, sind bei Software Mind legendär.

Abonnieren Sie unseren Newsletter

Melden Sie sich für unseren Newsletter an

Die beliebtesten Beiträge