AI & M 4.0: (Collective Intelligence)**2 – Collective Mind Agent Based Model mit GPT-4/chatGPTplus erstellt!

In diesem Blog-Beitrag beschreibe ich meine weiteren Erfahrungen zur Modellierung und Programmierung eines Collective Mind Agent Based Models (CM ABM). 

Anders als beim Blog-Beitrag vom Februar 2023 benutze ich als ‚Erweiterung‘ meiner kognitiven Fähigkeiten chatGPTplus, also die Bezahlversion von chatGPT auf der Basis von GPT-4. Außerdem soll dieses Mal ein dynamisches ABM entwickelt werden, das auf MESA Python beruht und die zeitliche Entwicklung eines Team Collective Mind‘s modelliert.

Der Titel (Collective Intelligence)**2, also Collective Intelligence zum Quadrat, weist  daraufhin, dass es in diesem Beitrag in mehrfacher Hinsicht um Collective Intelligence geht: Ich benutze zum einen unserer aller Collective Intelligence, die in GPT-4 trainiert vorliegt und zum anderen die hybride Collective Intelligence von GPT-4 und mir. Außerdem ist ein CM ABM ein Team Collective Intelligence Modell.

Vor zwei Wochen habe ich mit der Entwicklung des CM ABM begonnen, indem ich chatGPTplus eine Aufgabenstellung als Prompt eingab. Diese anspruchsvolle Aufgabenstellung ist weiter unten im Anhang dieses Beitrages zu finden. Meine Erwartung war nicht, dass chatGPTplus diese Aufgabenstellung sofort ohne Kommunikation mit mir umsetzen kann. Jedoch ist meine Erfahrung zur ‚Erweiterung‘ meiner kognitiven Fähigkeiten durch chatGPTplus derart positiv, dass diese Collective Intelligence Erfahrung, bestehend aus AI und Mensch, mehr als nur einmal bei mir Gänsehaut erzeugte. – Der Zuwachs an Geschwindigkeit sowie wissenschaftlicher Kreativität und Python Kompetenz liegt deutlich näher am Faktor 100 als am Faktor 2!

Ich fasse meine Collective Intelligence Erfahrungen mit chatGPTplus zusammen:

  • ChatGPTplus hat die unten stehende Aufgabenstellung mit ersten Ideen zur Ziel-Hierarchie und deren Ähnlichkeitsvermessung umgesetzt. Es fehlten lediglich vollständig die Projekttypisierung und die Stakeholder. – Eine Einbettung von chatGPTplus in die Agentenlogik habe ich nachträglich gestrichen, da dies zu kompliziert für mich wurde.
  • Zur Verfeinerung und Verbesserung der Aufgabenstellung war es notwendig, im Dialog mit chatGPTplus das Python-Programm weiter zu entwickeln. Die Kommunikation mit chatGPTplus entspricht hierbei der Kommunikation mit einem hochintelligenten Experten: Die chatGPTplus Expertise in den Bereichen Python, Mathematik und spezifischer Modellierungskompetenz übersteigt meine bei weitem. Hierbei habe ich die Erfahrung gemacht, dass die Verwendung von Ratgebern à la ‚Wie gestalte ich die chatGPT Prompteingabe optimal?‘ für mich keinen Sinn macht. – Meines Erachtens genügt es, die Prompts so zu erstellen, dass ein menschlicher Experte:inn sie nachvollziehen kann. – Dies genügt, um eine gelungene Kommunikation mit super Ergebnissen zu erhalten!
  • Auf der Basis der Kommunikation habe ich von chatGPTplus Pythoncode erstellen lassen. Dieser Code wurde in einer Colab-Umgebung laufen gelassen. Manchmal enthielt dieser Code einen Fehler, manchmal habe ich einen Fehler eingebaut, da ich noch Veränderungen am Code vorgenommen habe. Die Rückmeldung des vollständigen Fehlers als Prompt hat immer zum direkten Auffinden des Fehlers durch chatGPTplus geführt.
  • Die Analyse der Ergebnis-Daten zeigte den ein oder anderen Mangel in der Modellierungslogik auf. Eine textuelle Beschreibung der Ergebnis-Daten als Prompt führte immer innerhalb weniger Schritte zur Behebung dieses Mangels.
  • Es gibt eine Unzulänglichkeit in der Zusammenarbeit mit chatGPTPlus, die ich nicht beheben konnte und durch einen Workaround umgehen musste: In den ersten Tagen der Bearbeitung der Aufgabenstellung stellte ich mit fortschreitender Zeit immer häufiger fest, dass chatGPTplus vorherige gute Ergebnisse vergessen hatte. Dies führte dazu, dass an Stellen, die ich als abgeschlossen und korrekt betrachtet habe, plötzlich anderer Code und nicht selten zur Aufgabenstellung nicht passender Code auftauchte. So geschah es zum Beispiel, dass die Ziel-Hierarchie Berechnung verändert wurde oder dass das 7-köpfige Team wie Stakeholder behandelt wurde, also die MBTI Typ-Zuordnung zufällig erfolgte und nicht nach dem gewünschten Schema der Aufgabenstellung. Dieses ‚Fehlverhalten‘ tauchte umso häufiger auf, je länger die Modellierung der Aufgabenstellung dauerte. Das ‚Fehlverhalten‘ wurde noch verstärkt, wenn ich chatGPTPlus darauf hinwies, dass der Code an einer bestimmten Stelle falsch ist. Dann versuchte das System ein völlig anderes Modellverhalten zu erstellen. Am vierten Tag nach insgesamt ca. 4-5 Std. chatGPTplus Interaktion, habe ich mich zu folgendem Workaround entschlossen: Ich habe das gesamte Programm selbst immer wieder integriert und alle Änderungen selbst in das gesamte Programm eingegeben. Um erwünschte neue Modellierungs-Änderungen zu erhalten, habe ich chatGPTplus lediglich eine konkrete überschaubare aber durchaus schwierige Teilaufgabe gegeben. Wenn Änderungen größere Auswirkungen im Code hatten oder mehr als ca. 1 Std. Interaktion verstrichen war, habe ich den gesamten Code wieder als Prompt eingegeben. chatGPTplus hat sich hierfür meistens bedankt 😉: Es sei hilfreich, den gesamten Code zur Verfügung zu haben. Zusammenfassend interpretiere ich dieses Verhalten von chatGPTplus dahingehend, dass chatGPTplus über kein Kurzzeitgedächtnis verfügt.

Und nun zu den Ergebnissen. – Auf Nachfrage stelle ich gerne den CM ABM Code als Colab-Jupyter Notebook zur Verfügung. Ich beschreibe hier das Modell und diskutiere einige Ergebnisse:

Das Modell basiert auf der ABM Bibliothek MESA-Python [1]. Die Teammitglieder eines Teams und die Stakeholder werden als Agenten unterschiedlichen Typs behandelt. Die Agenten werden über eine MBTI Typologie mit Persönlichkeits-Polwahrscheinlichkeit charakterisiert (siehe Anhang). Alternativ könnte auch das Standardmodell der Psychologie, das Big Five Persönlichkeitsmodell (NEO-PI-R), verwendet werden. Das Persönlichkeitsmodell lässt sich auch um Werte/Motive oder Glaubenssätze erweitern.

Entsprechend der Aufgabenstellung haben die Teammitglieder fest vorgegebene Persönlichkeiten. Die Stakeholder erhalten ihre Persönlichkeit gemäß der globalen statistischen Verteilung der MBTI Persönlichkeiten.

Jeder Agent verfügt über eine eigene dreiteilige Ziel-Hierarchie. Die dreiteilige Ziel-Hierarchie entspricht dem einfachsten Collective Mind Schema, das wahlweise als Teil eine Dilts Pyramide angesehen werden kann oder als persönliche Story Map oder als OKR [2, 3]. Die Agenten verändern ihre Ziel-Hierarchie in Abhängigkeit ihrer individuellen MBTI Präferenzen, also der individuellen Persönlichkeits-Polwahrscheinlichkeiten. Zum Beispiel ändert ein extrovertierter NT-Typ durch Kommunikation vornehmlich die oberste Ebene der Ziel-Hierarchie – ein introvertierter NT-Typ tut dies auch, jedoch nicht so oft.

Die dreiteilige Ziel-Hierarchie besteht aus alphanumerischen Zeichenketten einer bestimmten Länge. Diese Zeichenketten werden am Anfang, wenn die Simulation beginnt, per Zufall ermittelt. Der Inhalt der Ziel-Hierarchie sollte keine entscheidende Rolle für das Auftauchen prinzipiell emergenter Systemeigenschaften haben. Dies trägt der langjährigen Erfahrung aus anderen ABM Modellen und deren Systemeigenschaften Rechnung [4]. – Die Mathematik ist vielleicht doch viel entscheidender als der Inhalt!

Die Änderung der Ziel-Hierarchien erfolgt zufällig und paarweise zwischen zufällig ausgewählten Agenten. Das Ändern der Ziel-Hierarchien durch Kommunikation ist eine Form von Lernen und wird über einen Lernparameter alphaT für Teammitglieder und alphaS für Stakeholder eingestellt. Typischerweise ist alphaS kleiner gleich alphaT, da die Interaktion im Team zu einem besseren Lernen führt.

Zusätzlich erhalten die Stakeholder weniger Möglichkeiten ihre Ziel-Hierarchie zu ändern. Dies erfolgt über eine gesondert einzustellende Zeit-Steprate: Die Stakeholder erhalten zum Beispiel eine um den Faktor 200 reduziert Möglichkeit ihre Ziel-Hierarchie zu ändern. Dies trägt der Annahme Rechnung, dass die Stakeholder untereinander weniger oft kommunizieren und auch weniger oft mit den Teammitgliedern.

In der Sprache der Theorie der Selbstorganisation ergeben sich damit folgende Parameter:

Rahmenparameter: Anzahl und Persönlichkeit der Teammitglieder, Anzahl und Persönlichkeit der Stakeholder, reduzierte Steprate für die Stakeholder

Kontrollparameter: alphaT, alphaS

Ordnungsparameter: dreiteilige Ziel-Hierarchie, am Anfang gefüllt mit zufällig ermittelten Zeichenfolgen der Länge k. Die Ziel-Hierarchien werden gemäß MBTI-Profil geändert. Die Ähnlichkeiten der Ziel-Hierarchien wird über die Ratcliff-Obershelp Funktion bestimmt [5].

Die nachfolgenden Abbildungen zeigen jeweils links das resultierende emergente Systemverhalten, gemessen über die mittlere Ähnlichkeit aller Ziel-Hierarchien getrennt nach den Teammitgliedern und den Stakeholdern.

Jeweils rechts ist die Performance des Teams bzw. der Stakeholder zu sehen. Die Performance ist keine emergente Eigenschaft sondern wird über folgende Formel aus der Ähnlichkeit ermittelt: Performance=(Anzahl der Agenten eines Typs* mittlere Ähnlichkeit der Ziel-Hierarchien des Agententyps)**2. Diese Formel basiert auf folgender Betrachtung: Es werden alle bilateralen Verbindungen innerhalb einer Gruppe (Teammitglieder, Stakeholder) aufsummiert – gewichtet mit der mittleren Ähnlichkeit der Ziel-Hierarchien innerhalb der Gruppe. Wie man weiter untern sehen kann, folgt die Performance der Ähnlichkeit, natürlich erhöht um einen Faktor, der die Anzahl der Gruppenmitglieder berücksichtigt. 

Abbildung 1:
Rahmenparameter: 7 Teammitglieder mit definierter MBTI-Persönlichkeit, keine Stakeholder
Kontrollparameter: Lernparameter Teammitglieder alphaT = 0.1
Ordnungsparameter: Ziel-Hierarchie-Ähnlichkeit mit der Ratcliff-Obershelp Funktion berechnet, ermittelt aus den dreiteiligen Ziel-Hierarchien mit jeweils am Anfang zufällig generierter Zeichenfolge von k = 100 Zeichen pro Ebene

Wie man aus Abbildung 1 sehen kann, steigt die Ähnlichkeit recht schnell auf Werte von über 0,7 und die Teamperformance damit auf Werte von 21 und mehr, bei 7 Teammitgliedern. – Der Synergieeffekt beträgt also 3 und mehr!

Selbstverständlich genügt diese Aussage, wie auch die nachfolgend abgeleiteten Aussagen, keinen wissenschaftlichen Ansprüchen. Um wissenschaftlichen Ansprüchen zu genügen, müsste ich u.a. ggf. 10.000 und mehr Durchläufe errechnen lassen, um dann auf dieser Basis eine statistische Auswertung aller errechneten Werte zu erhalten. Hierauf verzichte ich, da dies meine (derzeitigen) Möglichkeiten übersteigt. Abbildung 2 zeigt den Einfluss der Stakeholder auf das Team. Die Anzahl der Stakeholder entspricht der Anzahl der Teammitglieder, ist also 7. Die Fähigkeit der Stakeholder ein Collective Mind auszubilden, bestimmt auch die Fähigkeit des Teams ein Collective Mind auszubilden: Die Stakeholder ziehen die Leistungsfähigkeit des Teams runter, obwohl die Lernrate der Stakeholder genau so groß ist wie diejenige der Teammitglieder. – Die Interaktionsrate der Stakeholder ist jedoch um den Faktor 200 geringer als die Interaktionsrate der Teammitglieder. 

Abbildung 2:
Rahmenparameter: 7 Teammitglieder mit definierter MBTI-Persönlichkeit, 7 Stakeholder mit zufälliger MBTI-Persönlichkeit, Abschottung des Teams und zwischen den Stakeholdern durch 200-fach geringere Steprate als im Team selbst.
Kontrollparameter: Lernparameter Teammitglieder alphaT= 0.1, Lernparameter Stakeholder alphaS= 0.1
Ordnungsparameter: Ziel-Hierarchie-Ähnlichkeit mit der Ratcliff-Obershelp Funktion berechnet, ermittelt aus den dreiteiligen Ziel-Hierarchien mit jeweils am Anfang zufällig generierter Zeichenfolge von k = 100 Zeichen pro Ebene

Abbildung 3 zeigt eine Simulation mit 21 Stakeholdern und einer zehnmal geringeren Lernrate der Stakeholder (diese Simulation benötigt in der Colab Umgebung ohne spezielle Hardware ca. 3-4 Stunden elapsed time). Die Ziel-Hierarchie-Ähnlichkeit der Stakeholder sinkt weiter ab und zieht das Collective Mind des Teams mit sich weiter runter. Die Stakeholder wie das Team zeigen jetzt eine Performance die weiter unterhalb der Anzahl der Teammitglieder bzw. der Stakeholder liegt.

Abbildung 3:
Rahmenparameter: 7 Teammitglieder mit definierter MBTI-Persönlichkeit, 21 Stakeholder mit zufälliger MBTI-Persönlichkeit, Abschottung des Teams und zwischen den Stakeholdern durch 200-fach geringere Steprate als im Team selbst.
Kontrollparameter: Lernparameter Teammitglieder alphaT= 0.1, Lernparameter Stakeholder alphaS = 0.01
Ordnungsparameter: Ziel-Hierarchie-Ähnlichkeit mit der Ratcliff-Obershelp Funktion berechnet, ermittelt aus den dreiteiligen Ziel-Hierarchien mit jeweils am Anfang zufällig generierter Zeichenfolge von k = 100 Zeichen pro Ebene

Was sagt uns dies?

Es sieht so aus, als wenn die hybride Collective Intelligence von chatGPTplus und mir, ein Modell gefunden hätte, das emergentes Collective Mind Verhalten eines Teams in Interaktion mit Stakeholdern recht gut abbildet. – Dies ist ein weiterer Schritt in Richtung von Management 5.0, der Synergie von AI und Management 4.0.

Anhang: Erst-Aufgabenstellung für GPT4/ChatGPTplus

Die Aufgabenstellung zur Digitalen Transformation des Unternehmens KüchenManufaktur verwende ich in meinen Management 4.0 Trainings, um eine Scrum Simulation durchzuführen und eine Ziel-Hierarchie zu erstellen. Die zugrundeliegende Theorie hierzu ist in [2], [3] zu finden.

Erzeuge ein Agent Based Model (ABM) in der Programmiersprache Python, z. B. mittels MESA Python, für ein Team von 7 Teammitgliedern und 100 Stakeholdern. Die 7 Teammitglieder und die 100 Stakeholder sind Agenten im ABM. Die Teammitglieder und die 100 Stakeholder gehören zu dem Unternehmen KüchenManufaktur, das sogenannte Weiße Ware, also u.a. Herde, Kühlschränke und Gefrierschränke herstellt. Bisher hat das Unternehmen KüchenManufaktur diese Weiße Ware ohne große Digitalisierungsfunktionen hergestellt. Jetzt soll die Weiße Ware smart werden und als Life Style Produkt positioniert werden. Der Einsatz von smarter Technologie kann auch den Einsatz von AI oder ML beinhalten. Zum Beispiel könnte eine zukünftige Anforderung für einen Kühlschrank beinhalten, dass ‚er sich von alleine füllt‘. ‚Von alleine füllen‘ bedeutet, dass er über ein intelligentes Füllmanagement verfügt, das u.a. Zugriff auf Lebensmittellieferanten hat.

Es geht also um die Digitale Transformation des Unternehmens KüchenManufaktur. Die Digitale Transformation soll mittels eine Projektes durchgeführt werden. In einem ersten Schritt ist ein Konzept für die Digitale Transformation zu erstellen. Für diesen ersten Schritt ist das ABM mittels Python zu erstellen.

Die Aufgabe der Konzepterstellung typisieren wir als Projekt mittels des Diamantmodells: Das Projekt ist für KüchenManufaktur ein Projekt mit hohem Innovationsgrad. Nicht alle Stakeholder sind vom Sinn der Digitalen Transformation überzeugt und deshalb zeigen auch recht viele Stakeholder innere Widerstände gegen das Projekt. Deshalb sprechen wir von einem hohen Missionsgrad.- Das Team hat also viel Überzeugungsarbeit zu leisten. Der Kompliziertheitsgrad der neuen smarten Weißen Ware ist eher gering bis mittelgroß. Der Managementgrad ist mittel, da KüchenManufaktur innerhalb eines Jahres mit ersten smarten Produkten auf den Markt kommen möchte.

Die Persönlichkeiten der 7 Teammitglieder beschreiben wir mittels des MBTI, wobei die dominante Persönlichkeitsdimension des jeweiligen Teammitgliedes als Wahrscheinlichkeit angegeben wird. Wir nennen vereinfacht die jeweiligen Teammitglieder entsprechend ihrer MBTI Typologie und einer MBTI-Polwahrscheinlichkeit, also:

Teammitglied 1: ENTJ heißt: Extraversion = E = 0.8, Intuition = N = 0.8, Thinking = T = 0.6, Judging = J = 0.6

Teammitglied 2: INTJ heißt: Introversion = I = 0.8, Intuition = N = 0.7, Thinking = T = 0.7, Judging = J = 0.6

Teammitglied 3: ISFP heißt: Introversion = I = 0.6, Sensing = S = 0.7, Feeling = F = 0.7, Perceiving = P = 0.6

Teammitglied 4: ISTJ heißt: Introversion = I = 0.8, Sensing = S = 0.7, Thinking = T = 0.7, Judging = J = 0.9

Teammitglied 5: ESTJ heißt: Extraversion = E = 0.8, Sensing = S = 0.9, Thinking = T = 0.7, Judging = J = 0.6

Teammitglied 6: ISTP heißt: Introversion = I = 0.9, Sensing = S = 0.9, Thinking = T = 0.6, Perceiving = P = 0.6

Teammitglied 7: ISTJ heißt: Introversion = I = 0.7, Sensing = S = 0.6, Thinking = T = 0.6, Judging = J = 0.6

Die Stakeholder erhalten per Zufall eine Persönlichkeit gemäß MBTI.

Die Aufgabe der Konzepterstellung ist erledigt, wenn die 7 Teammitglieder, die das Konzept erstellen, eine gemeinsame Ziel-Hierarchie erstellt haben. Eine Ziel-Hierarchie besteht aus Informationseinheiten, die abstrakt oder detailliert sind. Eine Vision oder ein übergeordnetes Ziel bilden die oberste Ebene, es folgen darunter größere Informationseinheiten, die in weitere Informationseinheiten runtergebrochen werden. Im Agilen Management beginnt die Ziel-Hierarchie zum Beispiel mit einer Vision, gefolgt von Epics, die in Features zerlegt werden, die Features werden in User Stories zerlegt und diese wieder in Tasks und Tasks in Subtasks usw.

Für die Generierung der Informationseinheiten kann pro Teammitglied auf chatGPT zurückgegriffen werden

Um die Ziel-Hierarchie zu erstellen, tauschen die 7 Teammitglieder gemäß ihrer Persönlichkeitspräferenzen Informationseinheiten aus. Diese Informationseinheiten werden gemäß ihrer Präferenzen und der damit verbundenen Wahrscheinlichkeiten in die persönliche Ziel-Hierarchie aufgenommen.

Im ABM Model wird der Informationsaustausch in Zeitschritten durchgeführt. Wir definieren die Performance des Teams über die Ähnlichkeit der persönlichen Ziel-Hierarchien. Wenn alle persönlichen Ziel-Hierarchien identisch sind, sprechen wir von einem Collective Mind. Der Collective Mind kann durch die Kommunikation mit den Stakeholdern stabilisiert oder destabilisiert werden. Die Ähnlichkeit der Ziel-Hierarchien aller Stakeholder und der 7 Teammitglieder ist ein Maß für den Collective Mind im Team bzw. im Stakeholderkreis bzgl. der Digitalen Transformation.

Zeichne den Verlauf des Colletive Mind im Team und den Verlauf des Collective Mind für den Stakeholderkreis über die Zeit.

[1] Complexity Explorer (2023) MESA-Python Lecture, https://www.complexityexplorer.org/courses/172-agent-based-models-with-python-an-introduction-to-mesa/segments/17326, Santa Fe Institute, zugegriffen am 30.04.2023

[2] Oswald A, Köhler J, Schmitt R (2017) Projektmanagement am Rande des Chaos. 2. Auflage, Springer, Heidelberg, auch in englischer Sprache unter ‚Project Management at the Edge of Chaos‘ verfügbar.

[3] Köhler J, Oswald A. (2009) Die Collective Mind Methode, Projekterfolg durch Soft Skills, Springer Verlag

[4] Epstein J M, Axtell R (1996) Growing Artificial Societies – Social Science from the Bottom Up, The Brookings Institution, Washington D.C.

[5] Wikipedia (2023) Ratcliff-Obershelp Funktion, https://de.wikipedia.org/wiki/Gestalt_Pattern_Matching#:~:text=Gestalt%20Pattern%20Matching%2C%20auch%20Ratcliff,im%20Juli%201988%20im%20Dr.

AI & AM 4.0: Agent Based Modeling – Emergenz – Wunder geschehen!

Kürzlich erschien ein offener Brief zum Thema ‚Pausieren von gigantischen AI-Experimenten‘ à la GPT-3 oder GPT-4 [1].

Der Brief wurde inzwischen von mehr als 30.000 Personen unterschrieben. Er begründet sein Anliegen eines halbjährigen Aussetzens von AI-Groß-Entwicklungstätigkeiten mit folgendem Satz:

“This does not mean a pause on AI development in general, merely a stepping back from the dangerous race to ever-larger unpredictable black-box models with emergent capabilities.”

Es geht die Angst vor ‚emergenten Fähigkeiten‘ um. – An anderer Stelle wird von einer ‚Gottgleichen‘ KI gewarnt, die die Menschheit zerstören könnte [2].

Diese Sorgen mögen berechtigt sein, umso mehr, als man beobachten kann, wie lange sich die EU schon bemüht, den längst fälligen EU AI ACT als EU-Gesetz zu verabschieden [3].

In diesem Blog geht es jedoch nicht um diese Sorge oder Angst, sondern um das Thema Emergenz, das offensichtlich solche ‚Wunder‘ wie das der „Sparks of Artificial General Intelligence: Early experiments with GPT-4” [4] möglich macht. Die Intelligenz-Fähigkeiten von GPT-4, auch im Vergleich zu chatGPT/GPT-3.x, sind sensationell, gleichgültig, ob es um Mathematik, Musik, Bilderzeugung, Sprache und Logik und vielem mehr geht. – In nicht wenigen Fällen zeigt GPT-4 Intelligenz-Fähigkeiten, die überhaupt nicht trainiert worden sind. – Also klare Zeichen von emergenten Eigenschaften.

In Wikipedia wird Emergenz wie folgt definiert: „Emergenz (lateinisch emergere „Auftauchen“, „Herauskommen“, „Emporsteigen“) bezeichnet die Möglichkeit der Herausbildung von neuen Eigenschaften (Systemeigenschaften) oder Strukturen eines Systems infolge des Zusammenspiels seiner Elemente.“ [5]. Emergenz ist auch direkt mit dem Begriff der Selbstorganisation verbunden. Selbstorganisierte Systeme zeigen Emergenz bzw. emergente Eigenschaften. Auf der Basis dieser Definition wimmelt es in der Natur und damit in der Mathematik, den Naturwissenschaften/ Psychologie und den Sozialwissenschaften nur so von emergenten Eigenschaften, Strukturen oder Systemen.

In [6] wird auch deshalb zwischen schwacher und starker Emergenz unterschieden. Starke Emergenz liegt im Falle des Lebens vor, das aus Atomen oder Molekülen emergiert. – Oder, im Falle unseres Bewusstseins, das aus der materiellen Struktur unseres Gehirns emergiert. Die meisten anderen überraschenden Eigenschaften von Viel-Agenten Systemen wie zum Beispiel die Supraleitung, die Farbe von Gold, der Collective Mind eines Teams oder die Kultur einer Organisation werden eher der schwachen als der starken Emergenz zugeordnet. Ich halte die Unterscheidung für wenig sinnvoll.- Entscheidend für die Emergenz ist vielmehr, dass das durch die Wechselwirkung von Agenten entstehende Systeme Eigenschaften zeigt, die sich nicht aus den Eigenschaften der Agenten ableiten lassen.  In [7] wird deshalb für die Beschreibung von Large Language Model’s bezüglich Emergenz eine Definition verwendet, die die obige Definition aus [5] weiterführt:

„Emergence is when quantitative changes in a system result in qualitative changes in behavior.”

Abbildung 1: Bilder erzeugt durch die KI DALL-E [8] mit den Prompts: Create a painting in the style of Matisse: (Create a painting in the style of Gauguin:) Collective Mind as an example of social emergence which demonstrates synergies in a team

Im Falle von Large Language Models (LLM) gibt es mehrere quantitative Änderungen, die qualitative Veränderung hervorrufen: u.a. Anzahl der Parameter (Neuronen), Menge der Daten und die Trainingszeit. Aber auch die Architektur der LLM’s spielt eine entscheidende Rolle: u.a. das Transformer/Decoder Design, der Attention Mechanismus, usw.. So zeigt GPT-3 bei etwa 10 hoch 22 (10 Trilliarden) Floating Point Operations (FLOPs) als Maß für die Trainingszeit und 13 Milliarden Parametern einen sprunghaften Anstieg der sogenannten few-shoot prompting Genauigkeit.- Also nach einigen wenigen Lerndaten meistert das AI-System ähnliche Aufgabenstellungen. – Dieser Übergang entspricht einem Phasenübergang. – Ganz ähnlich zu der gesellschaftliche Resonanz für AI-System, die mit dem Erscheinen des einfach zu bedienenden chatGPT sprunghaft emergierte. 

Für die Beschreibung emergenten Systemverhaltens wurde in der Wissenschaftsgeschichte sehr oft der Nobelpreis vergeben: Es geht darum, diejenigen quantitativen Parameter ausfindig zu machen, die einen qualitativen Unterschied machen. Und dies ist meistens sehr schwierig, da man den Parametern nicht ansieht, ob sie in ihrer Zusammenstellung einen Unterschied machen. – Der qualitative Unterschied lässt sich also nicht auf die quantitativen Unterschiede in den Parametern reduzieren.

Jedoch wurde auch in der Geschichte der Wissenschaft aus dem Unverständnis der Emergenz eine unsinnige Spaltung in reduktionistische Wissenschaften und nicht-reduktionistische (holistische) Wissenschaften [9] vorgenommen. Hiernach wurde zum Beispiel die Physik als reduktionistische Wissenschaft angesehen, da angeblich alle System-Eigenschaften in der Physik auf die Eigenschaften der Agenten (z.B. Elementarteilchen, Atome) zurückgeführt werden, also reduziert werden.  Die Sozialwissenschaft mit der Soziologie à la Luhmann wurde zum Beispiel als holistische Wissenschaft wahrgenommen, da Luhmann, die Eigenschaften des sozialen Systems nicht auf die Menschen zurückführte, sondern dem System eine Eigenständigkeit zuerkannte.

Diese teilweise immer noch vorhandene naive Sicht des Gegensatzpaares Reduktionismus-Holismus wird durch das Auftauchen von GPT-4, aber auch schon durch die Erfahrungen mit chatGPT, kräftigst widerlegt: Die technischen Systeme chatGPT/GPT-3.x und chatGPTplus/GPT-4 zeigen mit ihrer Intelligenz eine für alle erfahrbare Emergenz. Diese AI-Systeme wurden auf der Basis bestimmter Daten-Parameter (u.a. Anzahl der Neuronen, Zeit des Trainings, Menge der Trainingsdaten) sowie bestimmten Architektur-Parameter (u.a. Transformer/Decoder und Attention-Mechanismus) mehr oder weniger gezielt kombiniert und es entstanden bei einer bestimmten Kombination dieser Parameter „wie durch ein Wunder“ emergente Intelligenz-Eigenschaften. – Es ist zu vermuten, dass bei Wegnahme z.B. der Attention-Eigenschaft, die emergente Eigenschaft der Intelligenz verschwindet, auch wenn die gigantische Skalierung bleibt.

Deswegen sind die emergenten AI-Eigenschaft jedoch nicht weniger wunderbar.

Dieses Beispiel belegt äußerst eindrucksvoll, dass die Natur, auch wenn sie in Form einer Technologie daherkommt, alle Ingredienzien für starke Emergenz enthält. – Wir ‚finden‘ diese Ingredienzien ‚lediglich‘.

Agent Based Modeling (ABM) spielt beim Auffinden dieser Eigenschaften eine prominente Rolle, auch wenn diese Rolle selbst in der Wissenschaft im Verhältnis zur Bedeutung nur wenigen bekannt sein dürfte. Unlängst hat das Santa Fe Institute neben Netlogo das ABM-Python-Framework MESA als Lecture aufgenommen [10]. Diese Lecture bildet mit moderner Technik das ABM des 25 Jahre alten Buches über ‚Growing Artificial Societies‘ von Epstein und Axtell nach [11]. Epstein und Axtell zeigen, wie man mit einfachen lokalen Agenten-Parametern die emergenten System-Eigenschaften von Gesellschaften erzeugen kann. – Der Überraschungseffekt ist nicht selten groß: So beeinflusst zum Beispiel die Fähigkeit des Sterbens oder der Reproduktion von Agenten ganz erheblich die emergenten Eigenschaften der ABM Ökonomie: Diese Modell-Eigenschaften sind nämlich notwendig, damit sich überhaupt sogenannte Nicht-Gleichgewichts-Handelsmärkte ausbilden können, die mit realen Märkten sehr gut übereinstimmen. – Das immer noch in der Gesellschaft vorherrschende neoklassische Verständnis der Gleichgewichts-Ökonomie kennt solche Zusammenhänge nicht.

In den folgenden Blogbeiträgen beschäftige ich mich mit der Suche nach den Parametern, die das emergente Teamverhalten Collective Mind hervorrufen. Im Management 4.0 gehen wir davon aus, dass die Parameter der Theorie der Selbstorganisation (Rahmen-Parameter, Kontroll-Parameter und Ordnungs-Parameter) die entscheidenden Parameter sind, die emergentes Teamverhalten hervorbringen. Wir kennen diese Parameter (vermutlich) auch schon, jedoch nicht in hinreichend formalisierter ABM Sprache. Die in vorhergehenden Blog-Beiträgen unter Verwendung von Natural Language Processing abgeleitete Similarity-Matrix des Collective Mind (Collective Mind Operator) ist lediglich ein phänomenologisches Modell (siehe Blog-Beitrag vom April und Juni 2022). – Der Collective Mind Operator kann in der Teampraxis sehr gut den Collective Mind messen, er sagt jedoch leider nichts darüber aus, wie der Collective Mind emergiert. Hierzu benötigen wir die formalisierten ABM-Parameter, die die Collective Mind Emergenz hervorbringen. – Die Suche nach diesen formalisierten Parametern ist kein Selbstzweck, denn die Wissenschaftsgeschichte hat gezeigt, dass die Kenntnis der formalisierten Parameter recht oft mit großen Erkenntnisgewinnen verbunden ist. – Die GPT-Geschichte ist der sichtbarste Beweis hierfür.

Der Übergang zur Python-Technologie mit MESA-Python eröffnet auch recht einfach die Möglichkeit intelligente Agenten auf der Basis von chatGPT anzubinden. Das werde ich nicht tun, jedoch hat die Entwicklung hierzu, wie in einem meiner letzten Blogs prognostiziert, schon begonnen. Die Stanford University hat zusammen mit Google eine auf dem Computerspiel ‚The Sims‘ basierendes ABM erstellt, in dem 25 Agenten ihre Intelligenz von chatGPT erhalten [12]. Die Agenten haben eine ‚Gehirn-Architektur‘ aus Langzeit- und Kurz-Zeitgedächnis, dessen kognitive Intelligenz von chatGPT kommt. Die Agenten verfügen zusätzlich über einen sogenannten ‚reflection tree‘, der der Ziel-Hierarchie bzw. der Dilts Pyramide von Management 4.0 sehr nahe kommt [13].- Die Ebenen Identität, Fähigkeiten und Verhalten sowie Kontext (Beobachtung) sind schon vorhanden. – Diese und weitere Ebenen können sicherlich noch ausgebaut werden.

Damit sind die Agenten in der Lage einen individuellen kognitiven PDCA-Zyklus durchzuführen, der ‚reflektiertes‘ Handeln erlaubt.

Es besteht auch die Möglichkeit, dass sich Menschen aktiv in dieses Handeln künstlicher Agenten einbringen können. Damit ist es zum Beispiel möglich hybride Universen aus AI und Menschen zu bilden.

Man stelle sich ein Anwendungsbeispiel von vielen vor: Ein Projektleiter soll ein Projekt durchführen. Er lässt das Projekt zum Test vorab in der künstlichen Welt durchführen und erhält so Hinweise auf seine Durchführbarkeit. –  Oder er lässt parallel zur realen Welt eine künstliche Welt mitlaufen, in die die Daten der realen Welt synchron eingespeist werden, um Forecasting zu betreiben.

In [12] wird berichtet, dass das Handeln der künstlichen Agenten von Menschen auf ‚Menschen-Ähnlichkeit‘ überprüft wurde. Das emergierende ‚believable behavior‘ der Agenten und des emergierenden sozialen Systems wird von den Evaluationspersonen, trotz einiger Fehler, als sehr hoch eingestuft.   

Das nächste Wunder geschieht schon!

    

[1] Future of Life Institute (2023) Pause giant AI Experiments, https://futureoflife.org/open-letter/pause-giant-ai-experiments/, zugegriffen am 22.04.2023

[2] Barkey S (2023) Kurz vor dem Durchbruch: „Gottgleiche“ KI könnte laut Experte Menschheit zerstörenhttps://www.berliner-zeitung.de/news/agi-kurz-vor-durchbruch-gottgleiche-ki-koennte-laut-experte-ian-hogarth-menschheit-zerstoeren-kuenstliche-allgemeine-intelligenz-li.339062, zugegriffen am 22.04.2023

[3] EU (2023) EU AI Act, https://artificialintelligenceact.eu/, zugegriffen am 22.04.2023

[4] Bubeck S et al. (2023) Sparks of Articial General Intelligence: Early experiments with GPT-4, arXiv:2303.12712v3 [cs.CL] 27 Mar 2023, zugegriffen am 22.04.2023

[5] Wikipedia (2023) Emergenz, https://de.wikipedia.org/wiki/Emergenz, zugegriffen am 25.04.2023

[6] Greve J, Schnabel A (Herausgeber) (2011) Emergenz: Zur Analyse und Erklärung komplexer Strukturen, suhrkamp taschenbuch wissenschaft

[7] Wi J et al. (2022) Emergent Abilities of Large Language Models, in Transactions on Machine Learning Research 08/2022, arXiv:2206.07682v2 [cs.CL] 26 Oct 2022

[8] DALL-E (2023) https://openai.com/product/dall-e-2, zugegriffen am 03.05.2023

[9] Wikipedia (2023) Reduktionismus, https://de.wikipedia.org/wiki/Reduktionismus, zugegriffen am 25.04.2023

[10] Complexity Explorer (2023) MESA-Python Lecture, https://www.complexityexplorer.org/courses/172-agent-based-models-with-python-an-introduction-to-mesa/segments/17326, Santa Fe Institute, zugegriffen am 30.04.2023

[11] Epstein J M, Axtell R (1996) Growing Artificial Societies – Social Science from the Bottom Up, The Brookings Institution, Washington D.C.

[12] Park J S et. al. (2023) Generative Agents: Interactive Simulacra of Human Behavior, arXiv:2304.03442v1 [cs.HC] 7 Apr 2023

[13] Oswald A, Müller W (2019) Management 4.0 – Handbook for Agile Practices, Release 3.0, Verlag BoD, kindle edition

AI & AM 4.0: Agent Based Modeling – Von Agenten Intelligenz und Kollektiver Intelligenz oder von ‚Intelligenz ist immer kollektiv‘?!

Das Thema Kollektive Intelligenz hat gerade Hochkonjunktur. Sei es in Form der mehrteiligen ZDF-Fernsehserie der Schwarm [1] und der damit verbundenen zweiteiligen Terra X Dokumentationen zur Intelligenz von Schwärmen [2], [3]. – Oder, auch in Form der AI Systeme chatGPT und des gerade veröffentlichten GPT-4 [4]. – Diese Systeme sind in zweierlei Hinsicht Systeme kollektiver Intelligenz: Die GPT-X Systeme und andere vergleichbare Systeme verwenden als Daten die Ergebnisse unserer aller Intelligenz und die Systeme selbst sind über die Neuronalen Netzwerke, auf denen sie beruhen, kollektive Systeme, die Intelligenz hervorbringen können, wenn sie mit unserer Intelligenz in Form von Daten gefüttert werden. – Dies ist gar nicht so unähnlich unserer kulturellen Entwicklung, die Produkte menschlicher Intelligenz hervorgebracht hat – nur eben viel, viel schneller!

Es ist absehbar, dass sich in Zukunft aus der Intelligenz von GPT-X eine Künstliche Allgemeine Intelligenz (Artificial General Intelligence, kurz AGI) entwickeln wird. Der CEO von openai betont in einem Blogbeitrag erst kürzlich hierzu die gesellschaftliche Verantwortung von openai [5] und im EU AI Act Newsletter wird, meines Erachtens zum ersten Mal, von der nahen Bedeutung von AGI im Kontext von GPT-X  Systemen gesprochen [6].   

In [2] und [3] wird eindrucksvoll geschildert, wie natürliche kollektive mobile Systeme, die aus ‚dummen‘ Agenten (u.a. Ameisen, Bienen, Fischen) bestehen, im Schwarm intelligentes Verhalten zeigen. Die vermeintlich ‚dummen‘ Agenten haben ihrerseits ein wenig Intelligenz auf der Basis von kleinen natürlichen neuronalen Netzwerken. – Die Natur ist also offensichtlich in der Lage mittels kollektiver Systeme (z.B. Ameisen Kollektiv) und von Subsystemen (z.B. Ameise als Agent) Intelligenz-Hierarchien aufzubauen.

Dies relativiert auch unseren Anspruch an intelligenter Einzigartigkeit: Kollektive Systeme, gleichgültig ob natürlich oder künstlich, haben das Potential, über eine geeignete Vernetzung, Intelligenz auszubilden.

Hieraus leite ich die These ab, dass Intelligenz immer kollektiv ist. Dies wird auch durch Ashby’s Law [7] gestützt, wonach ein komplexes System nur durch ein anderes komplexes System mit hinreichender Komplexität reguliert werden kann. Komplexität ist also eine Vorbedingung für Intelligenz. Deshalb sagen wir auch im Management 4.0, dass Komplexität ein Geschenk ist, das nicht reduziert werden sollte, sondern nur reguliert werden darf: Die Komplexität unseres Gehirns (und unseres gesamten Körpers) mit ca. 86 Milliarden vernetzter Neuronen ermöglicht es, dass wir uns adaptiv auf unsere Umgebung einstellen und diese ggf. regulieren. – Ich nehme an, dass niemand seiner Intelligenz, also seiner neuronalen Komplexität, beraubt werden möchte, indem diese reduziert wird.

In Konsequenz heißt dies auch, dass gut geführte soziale Organisationen, u.a. Teams, mit einer wertschaffenden Komplexität, kollektive Intelligenz zeigen, die über die Intelligenz der einzelnen Teammitglieder hinausgeht. Die einzige ! Aufgabe von Führung ist es, zu ermöglichen, dass sich diese kollektive Intelligenz ausbildet.    

Es ist vielleicht auch nicht abwegig, anzunehmen, dass Intelligenz eine Vorbedingung für Bewusstsein ist. – Und, dass Bewusstsein sich aus intelligenten kollektiven Systemen emergent entwickelt. Die Integrated Information Theory zum Bewusstsein zeigt erste Überlegungen in diese Richtung [8].

Im letzten Blog-Beitrag habe ich den Video-Vortrag des DeepMind Mitarbeiters Thore Graepel zum Thema ‚Multi-Agent Learning in Artificial Intelligence‘ erwähnt [9]. Thore Graepel referenziert dort am Anfang auf den Artikel von Legg und Hutter zum Thema ‚Universal Intelligence‘ [10]. Legg und Hutter geben einen Literatur-Überblick zum Verständnis von Intelligenz und definieren ihr Verständnis von Agent Intelligence:

Abbildung 1: Definition Universelle Intelligenz nach [10]

In [10] wird angenommen, dass die Wahrscheinlichkeit für Kontexte exponentiell (zur Basis 2) mit der Komplexität abnimmt. – Hier folgen Legg und Hutter auch dem Prinzip des Occam’schen Rasiermessers [11]: Die Natur bevorzugt Einfachheit und unsere Modelle zu Ihrer Beschreibung sollten dementsprechend auch einfach sein. – Einfache Kontexte werden also bei der Intelligenzberechnung höher gewichtet. Man kann auch jetzt verstehen, warum die melting pot Initiative von DeepMind von Bedeutung ist: Es werden möglichst viele Kontexte erstellt, um die allgemeine Intelligenz von Agenten über die obige Formel zu ermitteln.  

Legg und Hutter haben gezeigt, dass die obige Formel für Intelligenz alle bekannten Definitionen von Intelligenz subsummiert und auch auf den Intelligenzbegriff bei Menschen angewendet werden kann.- Auch wenn die konkrete Ausgestaltung von V und P in der obigen Formel für nachvollziehbare Kritik sorgt [12] und sich noch ändern dürfte. – Abbildung 2 visualisiert die Formel, in dem ich für das Mindset eines Agenten die Dilts Pyramide angenommen habe: Der Agent passt sich über die Zeit in einem PDCA-Zyklus mittels seiner Fähigkeiten und seines Verhaltens (auch policy genannt) an seine Umgebung an. Über die Funktion V wird die Performance des Agenten im Hinblick auf ein Ziel gemessen.- Der Agent erhält eine Belohnung. Die Performance des Agenten kann in zweierlei Hinsicht gemessen werden: Intern und extern. Das interne Performancemaß wird utility U genannt [13]. Agenten werden  rational genannt, wenn sie anstreben das interne Performancemaß mit dem externen in Einklang zu bringen. Einer der Kritikpunkte an [10] ist, dass (lediglich) das externe Performancemaß zur Intelligenzmessung herangezogen wird. 

    

Abbildung 2: Visualisierung der Formel zur Universellen Intelligenz nach [10]

Die Definition der Universellen Intelligenz ist sicherlich als Referenz für die Vermessung von Agenten Intelligenz sehr hilfreich. Ihre operative Ausgestaltung hat aber erst begonnen. – Und, sie ist rein phänomenlogisch, sie sagt also nichts über die Ingredienzien von Intelligenz aus, also welche Elemente wie zusammengebracht werden müssen, um intelligente Agenten bzw. Systeme zu bauen. Aus diesem Grunde versuche ich im Folgenden, einige mir wichtig erscheinende Elemente, in Form von Prinzipien, zu nennen. Ich lasse mich hierbei von der Transformer Technologie leiten, auf der die GPT-X Technologie beruht. Die aus meiner Sicht mit Abstand beste Darstellung zur Transformer-Technologie hat Ralph Krüger geschrieben – er macht keine verständnislosen Vereinfachungen, sondern beschreibt die Technologie didaktisch brillant [14]. Nicht desto weniger kann es manchmal beim Lesen helfen, die in Bing eingebundene chatGPT Bot Version als Assistenz zu benutzen ;-).

Neben [14] empfehle ich [15], eine dreiteilige sehr gute visuelle Aufbereitung des Matrizen-Flows (Tensorflows) in Transformern und für einen tieferen Blick in die Programmierung den Dreiteiler [16] sowie [17]. Als Einstieg kann der Spektrum der Wissenschaft Artikel von Manon Bischoff dienen [18]. Dieser Artikel enthält eine ganze Reihe interessanter Hinweise, u.a. auch die von mir im letzten Blog-Beitrag geäußerte Vermutung, dass chatGPT lediglich 1,5 Milliarden Parameter enthält, also mehr als 100 mal weniger als GPT-3. Manon spricht sogar von nur 1,3 Milliarden Parametern. Als Einstieg empfehle ich zusätzlich den Artikel über chatGPT [19].

Auf der Basis dieser Literatur liste ich im Folgenden die Prinzipien, die meines Erachtens das Was und das Wie der Intelligenz ausmachen:

Intelligenz ist immer kollektiv: Als Kollektiv bezeichne ich ein System von vernetzten Elementen (künstliche oder natürliche Neuronen, Ameisen, Menschen, usw.), das die Außenwelt per Transformation in eine Innenwelt abbildet. Die Transformation erfolgt im Falle der AI durch künstliche neuronale Netzwerken, die Tensor Operationen durchführen (bzw. Matrizenoperatione durchführen: Die Matrizenelemente sind die Gewichte zwischen den Neuronen). – Die Tensor Operationen sorgen also für die Abbildung. Damit diese Abbildung hinreichend viele Informationen der Außenwelt abbilden kann, benötigt sie viele Zustände, also viele Parameter, im Falle von GPT-3 175 Milliarden. Die Abbildung der Außenwelt über eine Parametrisierung in der Innenwelt, erfolgt über Selbstorganisations-Mechanismen, in denen eine Zielfunktion im AI-Training dafür sorgt, dass die niedrigsten energetischen Zustände in dem hochdimensionalen Parameterraum gefunden werden. – Diese repräsentieren nach dem Training die Daten der Außenwelt.

Ich habe die Bing AI gefragt, ‚Gibt es eine Zielfunktion für das Lernen im Gehirn‘. Bing AI wandelt dies in eine Frage nach ‚Zielfunktion Lernen Gehirn‘ um und generiert folgende Antwort:

Ja, das Gehirn hat eine Zielfunktion für das Lernen. Das Lernen ist im Grunde genommen eine Reaktion unseres Gehirns auf neue Erfahrungen. Wenn eine solche Erfahrung eine nachhaltige Änderung im Gehirn hervorruft, dann kann man von Lernen sprechen. Das Gehirn bereitet sich dadurch auf die Zukunft vor. Natürlich kann man sein Gehirn anregen und unterstützen, neue Dinge schneller zu lernen oder die synaptischen Verbindung zu bilden, die man möchte. Dazu brauchen wir nur unsere Aufmerksamkeit genau auf die zu lernenden Themen zu richten und sie entsprechend oft wiederholen.

Diese Definition der Zielfunktion entspricht nicht ganz meinem obigen Verständnis einer Zielfunktion: Außer, man versteht die neuronalen Mechanismen, die sich hinter der Aufmerksamkeit verbergen, als solche.

Die Außenwelt wird über Aufmerksamkeit kontextualisiert: Im Falle der Transformer-Technologie ist der Aufmerksamkeits-Mechanismus (Attention-Mechanismus) der Mechanismus, der die Leistungssteigerung gegenüber vorherigen AI Systemen wesentlich ausmacht. Hierzu werden die sprachlichen Inhalte der Außenwelt auf ihre semantischen Zusammenhänge hin analysiert: Alle Worte eines Satzes (eines Textes) werden herausgegriffen, also mit Aufmerksamkeit belegt, und es wird die Korrelation dieses herausgegriffenen Wortes zu allen anderen Worten in diesem Satz  (diesem Text) ermittelt. – Die Korrelationswahrscheinlichkeiten werden in speziellen neuronalen Netzwerken (Tensoren) trainiert. Für die Generierung von neuen Texten wird auf diese trainierten Korrelationswahrscheinlichkeiten zurückgegriffen.

Wahrscheinlichkeiten werden durch zusätzliche kollektive Maßnahmen auf verschiedenen Ebenen ausbalanciert: Die Ergebnisse, die ein Transformer nach außen liefert, sind die Ergebnisse mit der höchsten Wahrscheinlichkeit. Um die Verlässlichkeit der Wahrscheinlichkeiten zu erhöhen, werden die Wahrscheinlichkeiten pro Transformer Modul nicht nur einmal berechnet, sondern mehrmals parallel d.h. zum Beispiel mit 8 attention Mechanismen, dem sogenannten multi-head-attention. Zusätzlich werden im Falle von GPT-3 96 Transformer Module (Decoder) hintereinander geschaltet, um die Ergebnisse zu verfeinern und zu stabilisieren [18]. Der multi-head-attention Mechanismus zeigt damit die Wirkung eines Teams mit acht Teammitgliedern, in dem die potentiellen mentalen Verzerrungen der Teammitglieder ausbalanciert werden. Und, das Hintereinanderschalten der Transformer-Module lässt sich gut mit der iterativen Wirkung von 96-PDCA-Zyklen vergleichen.

… ggf. weitere Prinzipien

Ich glaube, dass Intelligenz nicht auf natürliche Systeme beschränkt ist, ja dass diese Einteilung in natürliche und künstliche Systeme künstlich ist: Intelligenz ist ein universelles Phänomen, das sich potentiell in allen Systemen ausdrücken kann, sobald hierfür die Voraussetzungen vorliegen…. Vielleicht sind die oben genannten Prinzipien tatsächlich (einige) der Voraussetzungen …Vielleicht wird die Filmreihe ‚Autobots – The Transformers‘ sogar einmal als (diesbezüglich) hellsehend bezeichnet werden [20]. 

 

[1] ZDF (2023a) Der Schwarm, https://www.zdf.de/serien/der-schwarm

[2] ZDF (2023b) Terra X – Schlaue Schwärme, Geheimnisvolle Sprachen, https://www.zdf.de/dokumentation/terra-x/schlaue-schwaerme-geheimnisvolle-sprachen-doku-102.html

[3] ZDF (2023c) Terra X – Schlaue Schwärme, Rätselhafte Kräfte, https://www.zdf.de/dokumentation/terra-x/schlaue-schwaerme-raetselhafte-kraefte-doku-100.html

[4] openai (2022) GPT-4, https://openai.com/product/gpt-4, zugegriffen am 20.03.2023

[5] Altman S (2023) Planning for AGI and beyond, https://openai.com/blog/planning-for-agi-and-beyond, zugegriffen am 15.03.2023

[6] The future of Life Institute (2023) The EU AI Act Newslettr #25 vom 01/03/23-14/03/23

[7] Wikipedia (2023) Ashby’s Law, https://de.wikipedia.org/wiki/Ashbysches_Gesetz, zugegriffen am 15.03.2023

[8] Wikipedia (2023a) IIT- Integrated Information Theory, https://en.wikipedia.org/wiki/Integrated_information_theory, zugegriffen am 15.03.2023

[9] Graepel T (2023) The role of Multi-Agent Learning in Artificial Intelligence Research at DeepMind, https://www.youtube.com/watch?v=CvL-KV3IBcM&t=619s, zugegriffen am 06.02.2023

[10] Legg S und Hutter M (2007) Universal Intelligence: A Definition of Machine Intelligence, arXiv:0712.3329v1

[11] Wikipedia (2023b) Occam’s razor, https://en.wikipedia.org/wiki/Occam%27s_razor, zugegriffen am 21.03.2023

[12] Park D (2023) Paper Summary: Universal Intelligence: A Definition of Machine Intelligence, https://crystal.uta.edu/~park/post/universal-intelligence/, zugegriffen am 06.03.2023

[13] Russel S und Norvig P (2016) Artificial Intelligence – A modern approach, Third Edition, Prentice Hall Series in Artificial Intelligence Series, Pearson Education Limited

[14] Krüger R (2021) Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung – eine popularisierende Darstellung, in trans-kom 14 [2], Seite 278-324

[15] Doshi K (2022) Transformers Explained Visually: How it works, step-by-step published January 2, 2021, towardsdatascience.com, zugegriffen am 10.05.2022,  (Part 1, 2, 3, 4), https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452, https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34, https://towardsdatascience.com/transformers-explained-visually-part-3-multi-head-attention-deep-dive-1c1ff1024853, https://towardsdatascience.com/transformers-explained-visually-not-just-how-but-why-they-work-so-well-d840bd61a9d3

[16] Gosthipaty A R und Raha R (2022) A Deep Dive into Transformers with Tensorflow and Keras, Part 1-3, PyImagesearch.com, published November 2022, zugegriffen am 06.12.2022, https://pyimagesearch.com/2022/09/05/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-1/, https://pyimagesearch.com/2022/09/26/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-2/, https://pyimagesearch.com/2022/11/07/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-3/

[17] Cristina S (2023) Training the Transformer Model, https://machinelearningmastery.com/training-the-transformer-model/, updated am 06.01.2023, zugegriffen am 20.03.2023

[18] Bischoff M (2023) Wie man einem Computer das Sprechen beibringt, https://www.spektrum.de/news/wie-funktionieren-sprachmodelle-wie-chatgpt/2115924, veröffentlicht am 09.03.2023, zugegriffen am 20.03.2023

[19] Ruby M (2023) How ChatGPT Works: The Model Behind the Bot, https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286, veröffentlicht am 30.01.2023, zugegriffen am 20.03.2023

[20] Wikipedia(2023) Autobot, https://en.wikipedia.org/wiki/Autobot, zugegriffen am 20.03.2023