Einer der wichtigsten Parameter für die Qualität der Antworten bei generativer KI ist der zugrundeliegende Zeitraum der Daten, mit denen das KI-Tool trainiert wurde. Bei ChatGPT, dem bekanntesten LLM, sind beispielsweise in der kostenlosen Version nur Daten bis zum Jahr 2021 berücksichtigt. Alle Texte zu Entwicklungen, Entdeckungen und Forschungsergebnissen, die später publiziert wurden, kennt das LLM also in dieser Version bislang nicht und kann sie nicht in generierte Antworten einbeziehen. Generell hängt die Qualität der KI und ihrer Ergebnisse nicht nur vom Umfang, sondern auch von der Qualität der Daten ab, mit denen sie trainiert wurde, problematisch sind deshalb veraltete oder falsche Wissensstände.

Bei der Nutzung generativer KI lohnt es sich, sich vorab zu informieren, welchen Stand die Trainingsdaten haben, auf die das Tool aufsetzt.

Wie groß der Mehrwert von Datenqualität generell ist, lässt sich daran ablesen, dass Datenexperten immer noch 80 % ihrer Zeit auf die Suche und Verwaltung von Daten verwenden. Nur ein Fünftel ihrer Zeit entfällt also auf Analysen, die am Ende den Mehrwert generieren.

Grundsätzlich gilt: Je mehr Daten beim Training eines LLM verwendet werden (können), desto umfangreicher und besser ist das Wissen der KI. Die nahezu bedingungslose Freigabe der KI für das gesamte Internet ist jedoch diskussionswürdig, da hierbei ungeprüft alle Informationsquellen durchsucht werden. Neben seriösen Nachrichtenquellen, können dann auch Fake News als Grundlage für die Generierung von Inhalten dienen.

Das ist nur ein Ausschnitt aus dem Produkt Arbeitsschutz Office Professional. Sie wollen mehr?

Anmelden und Beitrag in meinem Produkt lesen


Meistgelesene beiträge