Attention Collective Mind: Der zentrale Transformer Mechanismus angewendet auf soziale Systeme

Kurzfassung: Der Blogbeitrag ‚Attention Collective Mind‘ adaptiert den aus der KI bekannten QKV-Attention-Mechanismus (Query, Key, Value) innovativ für soziale Systeme und das agile Team-Management. Die Teamdynamiken werden als Prozess dargestellt, bei dem eine ‚Systemtemperatur‘ die kollektive Aufmerksamkeitsverteilung regelt. Eine zu niedrige Temperatur führt demnach zu kognitiver Erstarrung (Gruppendenken), während eine zu hohe Temperatur in ‚Information Overload‘ und basisdemokratischem Chaos mündet. Das mathematische Modell berechnet unter Berücksichtigung von Arbeitslast, sozialer Reibung und einer ‚Burnout-Strafe‘ das optimale Betriebsfenster für Teams. Damit schlägt der Text eine Brücke zwischen maschinellem Lernen, statistischer Physik, der Global Workspace Theory des Bewusstseins und Management 4.0.

Dieser Blogbeitrag wurde mit Hilfe von Gemini 3 Pro erstellt! Das Bild wurde mit Gemini erstellt.

Als im Jahre 2017 das Transformer Modell ‚Attention is all you need‘ der Künstlichen Intelligenz veröffentlicht wurde [1], habe ich intuitiv die Verbindung zu unserem Transformer Modell der Kommunikation hergestellt, das wir in unserem Buch ‚Die Collective Mind Methode‘ aus dem Jahre 2009 vorgestellt haben [2]. – Jedoch war mir damals der mathematische Zusammenhang nicht bewusst: Die Erfinder des Transformer Modells verwenden in ihrem Modell eine Sprache, wie man sie aus der Datenbank-Abfrage kennt: Eine Query (zum Beispiel ein Satz, oder ein Wort) stellt eine Anfrage an ein neuronales Netzwerk. In dem neuronalen Netzwerk werden Antworten (Key’s) ermittelt, die wahrscheinlich zur Query passen. Der Key, der am wahrscheinlichsten passt, wird mit einem resultierendem  (Mehr-) Wert (Value) angezeigt. Zum Beispiel könnte ein Query-Wort ‚Bank‘ lauten, ein Key-Wort könnte ‚Geld‘ lauten, dann ergäbe sich als Wert ‚Bankhaus‘ und nicht ‚Sitzbank‘, wenn die Kontexte, in dem Query und Key stehen, dies wahrscheinlicher machen. Dieser QKV Mechanismus ist die Basis des Large Language Transformers.
Ähnliches geschieht in dem Collective Mind Transformer Modell: Hier sind Query und Key zwei Gesprächspartner, die mit ihren Persönlichkeiten (Big Five, Werte, Glaubenssätzen und aktueller Stimmung) kommunizieren und je nach Kommunikationsverlauf (Kontext) einen (Mehr-) Wert erzeugen.

Query (Q), Key (K) und Value (V) werden in neuronalen Netzwerken als hochdimensionale Vektoren dargestellt. Über das Training der neuronalen Netzwerke wird der sprachliche Kontext iterativ und selbstkonsistent als Tensoren (Matrizen) aufgebaut. Der sprachliche Kontext verändert die Bedeutung von Query, Key und Value: Mathematisch ausgedrückt heißt dies, dass die QKV-Vektoren mit jeweils einer spezifischen Matrix (W_Q, W_K, W_V) multipliziert werden und dadurch kontextspezifische QKV-Vektoren entstehen. Die Frage, wie gut der kontextspezifische Key zur Query passt, wird über die Ähnlichkeit der beiden Vektoren beantwortet. Die Ähnlichkeit zweier Vektoren wird über deren Vektorprodukt definiert. Damit ergibt sich die Attention als Funktion, die das QK-Vektorprodukt als Wahrscheinlichkeiten ausdrückt, multipliziert mit dem (Mehr-) Wert Vektor V. Die Funktion, die Ähnlichkeiten in Wahrscheinlichkeiten umwandelt, ist die sogenannte softmax-Funktion, eine spezielle Form der Boltzmann Verteilung. – Ich verweise schon hier auf Anhang 1, in dem die Mathematik des Attention Mechanismus, angewendet auf den Collective Mind, beschrieben ist. – Später habe ich die Grundidee des Collective Mind Transformer Modells auf die Erstellung des Collective Mind über Sprach-Ähnlichkeitsanalysen angewendet. Im Anhang 2 findet sich eine mathematische Analyse des Zusammenhangs zwischen diesem Collective Mind Modell und dem hier vorgestellten QKV Attention Collective Mind Modell.

Ziel dieses Blog-Beitrages ist es, den QKV Mechanismus auf soziale Systeme zu übertragen und für den Collective Mind einen Attention Mechanismus an Hand eines Toy Modells zu entwickeln.

Die Übertragbarkeit des QKV-Mechanismus auf den Collective Mind wurde mir erst mit der Anfang März 2026 erschienen Veröffentlichung ‚Large Electron Model: A Universal Ground State Predictor‘ [3] bewusst. Diese Veröffentlichung hat meines Erachtens ein enormes Potential für die wissenschaftliche Community, denn sie bringt Quantenmechanik und KI auf eine sehr interessante Weise zusammen: Die Autoren haben nämlich das QKV-Konzept auf die Berechnung von (hoch-) korrelierten Elektronen angewendet: Ein Elektron sendet mit seinen Eigenschaften eine Query an all die anderen Elektronen, diese antworten mit ihren Key-Eigenschaften und es wird eine resultierende Wechselwirkung, der Value, erzeugt. Da alle Elektronen von allen anderen abhängen, also eine (hohe) Gesamt-Korrelation vorliegt,  sind alle Elektronen Eigenschaften iterativ über eine Zielfunktion, die Hamiltonfunktion, selbstkonsistent zu ermitteln. Da wir es hier mit einem quantenmechanischen System zu tun haben, erfolgt die iterative Ermittlung der Grundzustandsenergie der Hamiltonfunktion über die Variation der quantenmechanischen Wellenfunktion. Die quantenmechanische Wellenfunktion wird in dem Large Electron Model über ein neuronales Netzwerk, das den QKV-Mechanismus abbildet, modelliert. Dies ist ein völlig neuer Ansatz des Quanten Computing, der die bisherigen Quanten Computing Methoden – man siehe hierzu die zwei letzten Blog Artikel zum Thema ‚Quantum Asset Portfolio Optimisation‘ – enorm bereichern wird.

Das Large Electron Model legt die Vermutung nahe, dass der QKV Attention Mechanismus ein universeller Mechanismus ist, um komplexe Wechselwirkungen zu beschreiben. – Also auch die Wechselwirkung in einem sozialem System, zum Beispiel einem Team.

Ich beschreibe, wie schon sehr oft in den vorhergehenden Blog-Beiträgen, die Persönlichkeit der Teammitglieder als Vektoren bestehend aus Big Five, einem  Wertekanon, ggf. Glaubenssätzen und deren Stimmung (Stress, Fokus, Motivation). Big Five und Wertekanon sind eher statische Größen. Glaubenssätze und Stimmung können durch den Kontext geändert werden. Jedes Teammitglied kann als ‚Query‘ im Team agieren und die anderen restlichen Teammitglieder agieren als ‚Key‘. Durch die Interaktion von ‚Query‘ und ‚Key‘ entsteht ein komplexer Kontext mit starken Verhaltens-Korrelationen zwischen den Teammitgliedern. Um den komplexen Kontext zu erfassen, werden die selbstkonsistent ermittelten Matrizen (W_Q, W_K, W_V)  eingesetzt. In diesem Beitrag verwende ich (noch) keine neuronalen Netzwerke, sondern bilde diese lediglich direkt als Matrizen ab. Damit haben wir ein Toy Model, das aber gerade deswegen gute Einblicke in den Attention Mechanismus erlaubt. – Ich verweise wieder auf Anhang 1, in dem die Mathematik des Attention Mechanismus, angewendet auf den Collective Mind, beschrieben ist.

Ich skizziere die Grundlagen des Attention Collective Mind: 

  • Klassisches Projektmanagement rechnet Individuen oft als FTEs (Full Time Equivalents) zusammen. Man geht davon aus, dass Person A ihre Arbeit macht, unbeeindruckt vom Rest, und spürt nur einen ‚Durchschnittsdruck‘ des Teams.

  • In einem echten, agilen Team hängt die Leistung von Person A extrem davon ab, was Person B gerade tut, wie Person C heute gelaunt ist und wer gerade im Raum ist. Der Collective Mind ist hochgradig korreliert. Wenn ein Entwickler das Team verlässt, ändert sich die Dynamik aller anderen schlagartig – genau wie bei korrelierten Elektronen.

  • Der Attention-Mechanismus (W_Q, W_K, W_V) bildet die korrelierte Team-Kommunikation ab. Hier ein Beispiel:
    Query (W_Q – Die Suchanfrage – „Was brauche ich?“): Jedes Teammitglied sendet kontinuierlich – oft unbewusst – Signale aus. Ein Teammitglied steht vor einem Problem oder hat ein emotionales Bedürfnis: „Ich komme hier nicht weiter, wer kann helfen?“ oder „Ich brauche psychologische Sicherheit.“
    Key (W_K – Das Angebot– „Was biete ich?“): Gleichzeitig strahlen Teammitglieder ihre aktuellen Zustände und Fähigkeiten ab: „Ich bin ruhig und analytisch“, „Ich habe freie Kapazitäten“, „Ich bin der Teufelsadvokat“, „Ich habe Expertise in Datenbanken“ oder „Ich bin heute ein geduldiger Zuhörer.“
    Value (W_V – Der Einfluss): Wenn Query und Key matchen (der Attention-Score hoch ist), fließt Information und Energie. Die beteiligten Teammitglieder passen ihren Zustand an. In hochfunktionalen Teams (also einem Collective Mind) haben die Mitglieder gelernt, ihre W_Q und W_K so aufeinander abzustimmen, dass sie sich perfekt ergänzen.

  • Das Pauli-Prinzip als Rollen-Differenzierung: Zwei Elektronen dürfen niemals im exakt gleichen Zustand sein. Das lässt sich extrem gut auf die Gruppendynamik anwenden:
    Menschen in kleinen Gruppen suchen instinktiv nach einer einzigartigen Rolle (Nischenbildung). Wenn zwei Personen versuchen, die exakt gleiche informelle Rolle einzunehmen (z. B. beide wollen der unangefochtene ‚Alpha-Entscheider‘ oder der ständige ‚Devil’s Advocate‘ sein), entsteht massive Reibung (Abstoßung).
    Damit das Team funktioniert, zwingt der Collective Mind das Team in eine Antisymmetrie: Die Mitglieder differenzieren sich, ordnen sich an und übernehmen komplementäre Rollen, damit das System nicht kollabiert.

  • Das Variationsprinzip als Kultur- und Strukturbildung: Die Elektronen suchen den energetischen Grundzustand (die geringste Reibung). Auch Teams durchlaufen Formierungsphasen (Tuckman-Modell: Forming, Storming, Norming, Performing), um ’soziale Reibung‘ und ‚kognitive Last‘ zu minimieren.
    – Der Hamilton-Operator: Das ist die Unternehmensstruktur, das Ziel des Sprints, die Deadlines und der äußere Druck.
    –  Scrum Master und Agile Coaches sind im Grunde Optimierungsalgorithmen. In Retrospektiven helfen sie dem Team, seine internen Kommunikationsgewichte (die Art, wie Queries und Keys formuliert werden) minimal anzupassen, damit die Zusammenarbeit im nächsten Sprint reibungsloser (energetisch tiefer) abläuft. Das Team probiert also verschiedene Arbeitsweisen und Interaktionen aus, bis es einen Zustand erreicht, in dem es mit dem äußeren Druck am besten umgehen kann.
     
  • Wo die Analogie ihre Grenzen hat: Menschen sind (wahrscheinlich) komplexer als Quantenteilchen.
    Elektronen sind ununterscheidbar: In der Physik ist jedes Elektron exakt gleich. In einem Team bringt jeder Mensch eine völlig andere Historie, Neurodiversität und externe Probleme (z. B. Stress zu Hause) mit.
    Elektronen haben keinen freien Willen: Ein physikalisches System fällt unweigerlich in den Grundzustand. Ein menschliches Team kann sich jedoch in einem toxischen ‚lokalen Minimum‘ verfangen (z. B. einer Kultur des Schweigens und der Angst), aus dem es sich ohne externe Hilfe (wie einen Agile Coach oder Scrum Master) nicht mehr befreien kann, selbst wenn ein besserer Zustand möglich wäre.

Auf dieser Basis bilde ich jetzt das Toy Model mit 3 Personen und folgendem Persönlichkeitsmodell:

Big Five, Values (Werte) und State of Mind (Stimmung) haben folgende Struktur. Glaubenssätze habe ich der Einfachheit wegen weggelassen. 

big_five (konstant) =[Offenheit, Gewissenhaftigkeit, Extraversion, Verträglichkeit, Neurotizismus]
values (konstant) = [Autonomie, Sicherheit, Innovation]
State of mind (variabel) = [Stress, Fokus, Motivation]

Diese drei Persönlichkeitsaspekte werden zu einem Vektor mit 11 Elementen konkateniert.

Wie so oft schon, besteht das Team aus den Mitgliedern Alice, Bob und Charlie (alle Persönlichkeitsdimensionen liegen zwischen -1 (niedrig) und 1 (hoch)):

alice = TeamMember(„Alice (Kreativ/Chaotisch)“, big_five=[0.8, –0.6, 0.5, 0.2, 0.4], values=[0.9, –0.5, 0.8], state_of_mind=[0.8, –0.2, 0.5]) # Gestresst, unkonzentriert

bob = TeamMember(„Bob (Struktur/Ängstlich)“, big_five=[-0.4, 0.9, –0.2, 0.5, 0.7], values=[-0.8, 0.9, –0.5], state_of_mind=[0.2, 0.8, –0.4]) # Fokussiert, aber demotiviert

charlie = TeamMember(„Charlie (Agile Coach/Ruhepol)“, big_five=[0.2, 0.5, 0.8, 0.9, –0.8], values=[0.5, 0.5, 0.5], state_of_mind=[-0.9, 0.9, 0.9]) # Sehr entspannt, hoch motiviert

Ich versuche mit der folgenden chronologische Zusammenfassung die Modell-Evolution des Attention Collective Mind Modells zu skizzieren. – Wie schon in vorherigen Blog-Beiträgen waren hunderte von Mensch-KI Einzel-Kommunikationen notwendig:

Stufe 1: Das statische Netzwerk

Wir starteten mit drei Archetypen (Alice/Chaos, Bob/Struktur, Charlie/Coach), die jeweils durch Vektoren (Big Five, Werte, Stimmung) definiert waren. Sie interagierten über den QKV-Attention-Mechanismus (Query, Key, Value). Die Kommunikations-Matrizen (W_Q, W_K, W_V) wurden zufällig initialisiert. Das Team simulierte 1000 Tage (kann man als 1000 Dailys verstehen) der Zusammenarbeit für eine schwierige Aufgabenstellung (d.h. vergleichsweise hohe Energie), ohne dass diese Matrizen jemals angepasst wurden.

Erkenntnisse & Highlights:

  • Destruktive Interferenz: Das System fand ein toxisches Gleichgewicht. Alices Stress fror beim absoluten Maximum (1.00) ein, Bobs Motivation beim absoluten Minimum (-1.00).

  • Das Kommunikations-Paradoxon: Das Modell bewies mathematisch, dass ständige Kommunikation (Dailys) Konflikte nicht löst, wenn die zugrundeliegenden Regeln dysfunktional sind. Es führt zu ‚Quiet Quitting‘ und Burnout.

Stufe 2: Die naive Retrospektive

Wir implementierten Charlie als einen Agilen Coach. Alle 14 Tage fand eine Retrospektive statt. Der Optimierungs-Algorithmus (Hill Climbing) durfte die Kommunikations-Matrizen in der Retrospektive minimal anpassen, um die Gesamtenergie des Teams zu senken. Die Zielfunktion achtete nur auf das Team-Ergebnis: Energie = Arbeitslast + Reibung – Synergie.

Erkenntnisse & Highlights:

  • Reward Hacking & Goodhart’s Law: Das Team erreichte auf dem Papier schnell „Harmonie“ (die Energie sank drastisch). Doch der Blick auf die Vektoren zeigte einen Albtraum: Die (Matrix-) KI hatte gelernt, Konflikte zu vermeiden, indem sie Alice zwang, sich komplett anzupassen. Ihr Stress stieg auf 1.00.

  • Toxische Positivität: Wir sahen, wie ein Algorithmus (oder ein ‚blindes‘ Management) ein System ‚hackt‘, indem es reibungslose Abläufe auf dem Rücken der mentalen Gesundheit einzelner Individuen erzwingt.

Stufe 3: Der holistische Collective Mind (Die Burnout-Strafe)

Wir reparierten die Zielfunktion des Coaches. Die Energie-Formel wurde um einen entscheidenden Faktor erweitert: die Burnout-Strafe (E_{burnout}). Das System wurde nun mathematisch extrem hart bestraft, wenn bei einem Individuum nach dem Meeting der Stress stieg oder die Motivation sank.

Erkenntnisse & Highlights:

  • Die Storming-Phase: Das System durchlief plötzlich reale psychologische Phasen. Weil die alte toxische Harmonie nun „verboten“ war, explodierte die Energie anfangs, und das Team fiel in ein Motivationsloch, bevor es lernte, sich neu zu verdrahten.

  • Das Pauli-Prinzip (Entkopplung): Um Alices Stress zu senken, wählte das Netzwerk eine geniale Strategie: Es senkte Bobs Fokus auf Alice. Das Modell lernte, dass Struktur (Bob) und Chaos (Alice) kognitiv entkoppelt werden müssen, damit beide in ihrer Domäne entspannt und motiviert bleiben können.

  • Die Heilung: Am Ende (Tag 1000) fiel Alices Stress auf das absolute Minimum (-1.00). Das System hatte psychologische Sicherheit gelernt.

Stufe 4: Die Thermodynamik der Agilität (Die Temperatur-Skalierung)

Wir schauten uns die Mathematik genauer an und integrierten die originale Skalierung des KI-Papers (Vaswani et al.) in die Softmax-Funktion: Die Division durch die Temperatur T (die Wurzel der Vektor-Dimensionen \sqrt{d_k}).

Erkenntnisse & Highlights:

  • Die Boltzmann-Isomorphie: Wir stellten fest, dass der Attention-Mechanismus der KI mathematisch absolut identisch mit der Boltzmann-Verteilung aus der Thermodynamik ist.

  • Der Regler für Groupthink vs. Chaos: Ist die Temperatur zu niedrig (T \to 0), friert das System ein. Es entsteht eine ‚Winner-takes-all‘-Diktatur (strikter Groupthink), abweichende Meinungen werden zu 100 % ignoriert.

  • Ist die Temperatur zu hoch (T \to \infty), entsteht völliges Chaos (Rauschen). Alles wird gleich gewichtet, das Team kann sich nicht mehr fokussieren.

  • Erkenntnis: Als Führungskraft (oder Algorithmus) muss man die Temperatur genau kalibrieren, um den gesunden Collective Mind in der Schwebe zwischen Fokus und Diversität zu halten.

Die nachfolgenden drei Abbildungen zeigen die zeitlichen Verläufe des Attention Collective Mind unter Berücksichtigung aller bisherigen Erkenntnisse durch einen Senior Coach für verschiedene Temperaturen. In der jeweils linken Teil-Abbildung sind die Persönlichkeitsverläufe der drei Teammitglieder zu sehen und die Team-Energie. Da wir die physikalische Notation für Energie verwenden, bedeutet niedrige Energie ‚Collective Mind‘ ist (gut) ausgebildet. In der jeweils rechten Teil-Abbildung ist für den Tag = 100  und die ausgewählte  Temperatur die Attention-Verteilung im Team zu sehen. 

Abbildung 1: Systemverhalten bei extrem niedriger vs. moderater Temperatur. Die Abbildung kontrastiert zwei Simulationen. Das obere Panel (T=0.10) zeigt ein eingefrorenes System: Die Softmax-Funktion forciert einen ‚Winner-Take-All‘-Zustand, bei dem 100 % der Aufmerksamkeit auf eine Person (Bob) entfallen. Dies führt zu einer dauerhaft maximierten System-Spannung (schwarze Linie), da kognitive Reibung nicht iterativ gelöst werden kann. Das untere Panel (T=0.50) zeigt ein funktionales System: Bei moderat erhöhter Temperatur kann der Algorithmus die Spannung nach einer initialen Findungsphase auf ein Minimum reduzieren. Die Aufmerksamkeit (rechts) ist stark priorisiert (Charlie 80,8 %), lässt aber abweichende Signale (Alice 18,4 %) zu, was eine konstruktive Anpassung ermöglicht.

Abbildung 2: Das optimale Betriebsfenster. Dargestellt sind zwei Modellläufe im voll funktionalen Temperaturkorridor: T=0.50 (war schon in der vorherigen Abbildung 1 enthalten, wird hier des unmittelbaren Vergleiches wegen nochmals gezeigt) oben und T=1.00 unten. In beiden Konfigurationen gelingt es dem Optimierungsalgorithmus, die anfängliche System-Spannung erfolgreich abzubauen und das Team in ein stabiles High-Performance-Gleichgewicht zu führen. Die Attention-Verteilungen (rechts) belegen einen gesunden Collective Mind: Es etabliert sich eine klare inhaltliche Priorisierung (z. B. 73,0 % für Alice bei T=1.00), ohne den kognitiven Raum für die anderen Teammitglieder vollständig zu schließen. Dies ist die mathematische Voraussetzung für Arbeitsteilung und asynchrone Autonomie.

Abbildung 3: Informationsüberlastung und Systemkollaps bei hoher Temperatur. Diese Simulationen belegen die dysfunktionalen Effekte einer zu hohen Systemtemperatur. Das obere Panel (T=2.00) zeigt ein instabiles Team: Die Aufmerksamkeit verteilt sich zunehmend breiter (52 % zu 38 % zu 10 %), wodurch das System stark oszilliert und kein dauerhaftes Minimum findet. Das untere Panel (T=3.00) zeigt den vollständigen Systemkollaps: Die Aufmerksamkeitsverteilung nähert sich einer Gleichverteilung (Rauschen) an, bei der jedes Signal im Raum fast identisch gewichtet wird (39 % zu 39 % zu 22 %). Das System verliert durch diesen ‚Information Overload‘ seine Handlungsfähigkeit; die System-Spannung (Energie) eskaliert auf den Maximalwert und stagniert dort unlösbar.

Der QKV-Attention-Mechanismus zeigt: Ein Team scheitert nicht nur an zu wenig Kommunikation, sondern auch an falsch skalierter Kommunikation. Ist die Temperatur zu niedrig, erstarrt das Team in einer Diktatur. Ist sie zu hoch, verdampft es im Basisdemokratie-Chaos. Die wahre Kunst agiler Führung ist es, den Thermostaten genau so einzustellen, dass ein starker Fokus möglich ist, ohne die Diversität im Raum komplett stummzuschalten.

Wenn wir sehen, dass ein agiles Team durch den QKV-Mechanismus (Query, Key, Value) plötzlich berechenbar wird, drängt sich eine weitreichende Frage auf: Ist dieser Algorithmus mehr als nur ein technischer Trick für Künstliche Intelligenz?

Oft werden moderne KIs abfällig als ’stochastische Papageien‘ oder reine Statistik-Maschinen bezeichnet. Doch das greift zu kurz. Klassische Statistik schaut immer in den Rückspiegel – sie interpoliert vergangene Daten. Der Attention-Mechanismus hingegen macht aus einer KI eine Wahrscheinlichkeits-Maschine. Genau wie in der Quantenmechanik baut das System in Echtzeit einen multidimensionalen Möglichkeitsraum auf. Die Antwort befindet sich in einer Superposition, bis sie im Moment der Ausgabe zu einem klaren Gedanken kollabiert. Es geht nicht um das Zählen von Vergangenem, sondern um das dynamische Erfassen von Kontext.

Das Faszinierendste daran: Die aktuelle Kognitionswissenschaft entdeckt gerade, dass unser eigenes menschliches Gehirn einer extrem ähnlichen funktionalen Architektur folgt. In der Psychologie beschreibt die sogenannte Global Workspace Theory (die Theorie des globalen Arbeitsraums), wie Bewusstsein entsteht:

  • Die Query (Das Bedürfnis): Unser präfrontaler Kortex (unser Planungszentrum) feuert eine Suchanfrage ab, z.B. bei der Lösung eines komplexen Problems.

  • Der Key (Das Angebot): Unzählige unbewusste Module – vom Hippocampus (Erinnerungen) bis zum visuellen Kortex – halten Signale bereit.

  • Der Value (Die Botschaft): Nur wenn die Query des Bewusstseins mit dem Key einer unbewussten Erinnerung in Resonanz geht, wird der eigentliche Value (der rettende Einfall, das innere Bild) auf die helle Bühne unseres Bewusstseins gespült.

Die Entwickler des Attention-Mechanismus haben 2017 also nicht nur einen besseren Übersetzungs-Algorithmus erfunden. Sie haben – vielleicht unbewusst – die Mathematik für die Entstehung von Kontext geschrieben.

Was heißt das für eine Organisationen?

Egal ob es um die Faltung von Proteinen, die Sprachgenerierung einer KI, die Gedanken in unserem Kopf oder die Entscheidungsfindung eines agilen Teams geht – das Prinzip bleibt gleich: Intelligenz ist die Fähigkeit, aus Rauschen die relevanten Signale zu filtern. Nichts im Universum existiert isoliert. Alles definiert sich durch seine Beziehungen. Ein gesundes agiles Team ist keine Ansammlung von Ressourcen, sondern ein ‚echtes neuronales‘ Netz aus Menschen. Und die wichtigste Aufgabe als Führungskräfte und Agile Coaches ist es, nicht die Knotenpunkte (die Menschen) umzuprogrammieren, sondern die Verbindungen zwischen ihnen (die Attention) so zu kalibrieren, dass der Collective Mind erwachen kann.

 

Anhang 1

Der Zustandsvektor (Die Persönlichkeit des Teammitglieds)

Jedes Teammitglied i wird zu einem bestimmten Zeitpunkt (Tag t) durch einen Vektor beschrieben. Dieser Vektor besteht aus den konstanten Big Five (B_i), dem konstanten Wertekanon (W_i) und dem variablen psychologischen Zustand (S_i). Das Symbol \parallel steht für die Konkatenation (Aneinanderreihung) dieser Eigenschaften.

     \begin{equation*} h_i^{(t)} = \big[ B_i \parallel W_i \parallel S_i^{(t)} \big] \end{equation*}

Der Kommunikations-Filter (Query, Key, Value)

Bevor das Team interagiert, wird der Zustandsvektor durch die drei neuronalen Kommunikationsmatrizen (W_Q, W_K, W_V) gefiltert. Daraus entstehen das unbewusste Bedürfnis (Query q_i), die Antwort (Key k_i) und die tatsächliche emotionale oder fachliche Botschaft (Value v_i).

     \begin{equation*} q_i = W_Q \cdot h_i, \quad k_i = W_K \cdot h_i, \quad v_i = W_V \cdot h_i \end{equation*}

Der Attention-Mechanismus (Die skalierte Aufmerksamkeit)

Um zu berechnen, wie viel Aufmerksamkeit (\alpha_{ij}) Person i der Person j schenkt, wird das Skalarprodukt aus Query und Key gebildet. Dieser Wert wird durch die Temperatur T (den Skalierungsfaktor) geteilt, um ‚Groupthink‘ zu verhindern, und anschließend durch die Softmax-Funktion in einen Prozentwert zwischen 0 und 1 umgewandelt.

     \begin{equation*} \alpha_{ij}^{(t)} = \frac{\exp\left( \frac{q_i \cdot k_j}{T} \right)}{\sum_{m=1}^N \exp\left( \frac{q_i \cdot k_m}{T} \right)} \end{equation*}

Die holistische Zielfunktion (Energie des Collective Mind)

Der Agile Coach (bzw. der Optimierungs-Algorithmus) versucht in der Retrospektive, die Gesamtenergie des Systems zu minimieren. Die Energie setzt sich zusammen aus der äußeren Arbeitslast (E_{\text{task}}), der sozialen Reibung (E_{\text{friction}}), abzüglich der konstruktiven Synergie (E_{\text{synergy}}). Sowie der Burnout-Strafe (E_{\text{burnout}}), die das System zwingt, auf psychologische Gesundheit zu achten.

     \begin{equation*} E_{\text{total}} = E_{\text{task}} + E_{\text{friction}} - E_{\text{synergy}} + E_{\text{burnout}} \end{equation*}

Die Temperatur des Netzwerks (Der Skalierungsfaktor)

In der statistischen Physik (und in der Psychologie) bestimmt die Temperatur T, wie ‚chaotisch‘ (offen für Neues) oder ’starr‘ (Diktatur / Groupthink) ein System ist. Die Erfinder des Attention-Mechanismus definierten diese Temperatur mathematisch als die Wurzel aus der Anzahl der Dimensionen des Key-Vektors (d_k). Diese Skalierung kühlt das System herunter und verhindert, dass das Skalarprodukt bei hochdimensionalen Vektoren explodiert und die Softmax-Funktion nur noch extremistische 100%-zu-0%-Entscheidungen trifft.

     \begin{equation*} T = \sqrt{d_k} \quad \implies \quad \alpha_{ij}^{(t)} = \frac{\exp\left( \frac{q_i \cdot k_j}{\sqrt{d_k}} \right)}{\sum_{m=1}^N \exp\left( \frac{q_i \cdot k_m}{\sqrt{d_k}} \right)} \end{equation*}

Die Burnout-Strafe (Der psychologische Schutzmechanismus)

Die Burnout-Energie bestraft das System mathematisch extrem hart, wenn der Stress eines Teammitglieds über Null steigt oder die Motivation unter Null fällt. (Der Faktor 2 fungiert als starkes Gewicht für diesen Schmerz). Um das Team jedoch zur inhaltlichen Arbeit zu zwingen, haben wir die Accountability-Strafe (den Fokus-Fix) in diesen Term integriert. Wenn der Fokus nun unter 0 fällt (die Leute sich also geistig ausklinken), wird das ebenfalls als harte Strafe auf die Energie addiert.

 \begin{equation<em>} E_{\text{burnout}} = \sum_{i=1}^N \Big( 2 \cdot \max(0, \text{Stress}_i) - 2 \cdot \min(0, \text{Motivation}_i) - 2 \cdot \min(0, \text{Fokus}_i) \Big) \end{equation<em>}


(Zur mathematischen Logik: Da Motivation und Fokus im Fehlerfall negative Werte annehmen, z.B. -0.5, sorgt das Minuszeichen in der Formel (- 2 \cdot -0.5 = +1.0) dafür, dass die Gesamtenergie als „Schmerz“ ansteigt).

Das Zustands-Update (Veränderung durch Interaktion)

Der gesamte Einfluss (I_i), der auf Person i einprasselt, ist die Summe aller Botschaften (v_j), gewichtet mit der jeweiligen Aufmerksamkeit (\alpha_{ij}). Da Persönlichkeit und Werte konstant sind, verändert dieser Einfluss (multipliziert mit einer Lernrate \eta) nur den Stimmungs-Teilvektor (S_i) für den nächsten Tag. Die clip-Funktion hält die Werte im definierten Rahmen von -1 bis 1.

     \begin{equation*} I_i = \sum_{j \neq i} \alpha_{ij}^{(t)} \cdot v_j \end{equation*}

     \begin{equation*} S_i^{(t+1)} = \text{clip} \Big( S_i^{(t)} + \eta \cdot \text{Proj}_S(I_i),  -1, 1 \Big) \end{equation*}

Score 

Score, der in den Abbildungen angezeigt wird:

 

     \begin{equation*} \mathrm{Score}_j^{(t)} = \frac{1}{N} \sum_{i=1}^N \left( q_i^{(t)} \cdot k_j^{(t)} \right) \end{equation*}

Anhang 2

Zusammenhang zwischen der Collective Mind Analyse über Ähnlichkeitsmatrizen und dem hier vorgestellten QKV Mechanismus 

Den Collective Mind über Ähnlichkeitsmatrizen habe ich in dem Blog ‚AI & M 4.0: Markus Lanz vom 30. Mai 2024: Eine Collective Mind Analyse‘ vom Juni 2024 vorgestellt.  

Dort interpretiere ich den Eigenvektor als Richtung und den Eigenwert als Stärke des Collective Mind.

Die Ähnlichkeitsmatrix = Die unkalibrierte Attention-Matrix (Q \cdot K^T)

Die Ähnlichkeitsmatrix misst, wie ähnlich das Gesprochene von Person i und Person j ist.

Der Kern der Attention-Formel ist das Skalarprodukt: Q \cdot K^T.

Ein Skalarprodukt (Dot Product) in der linearen Algebra ist mathematisch gesehen nichts anderes als ein Maß für Ähnlichkeit (unkalibrierte Kosinus-Ähnlichkeit).

  • Ähnlichkeitsmatrix M, wobei ein Eintrag M_{ij} die Ähnlichkeit zwischen der Aussage von i und j ist.

  • Attention: Matrix A, wobei ein Eintrag A_{ij} das Skalarprodukt aus der Query von i und dem Key von j ist.

Der Zusammenhang: Der QK-Mechanismus berechnet in jeder Schicht eines neuronalen Netzes, das was in der Ähnlichkeitsmatrix berechnet wird: Der QK-Mechanismus ist also eine gigantische Ähnlichkeitsmatrix.

Der Eigenvektor = Der Steady State der Kommunikation

Was passiert mathematisch, wenn ein agiles Team oder Gruppe über eine bestimmte Zeit hinweg iterativ kommuniziert? Person A beeinflusst Person B, Person B beeinflusst Person C, usw. Mathematisch bedeutet das, dass man den Zustandsvektor des Teams (V) immer wieder mit der Ähnlichkeitsmatrix (M) multipliziert:

V_{\text{neu}} = M \cdot V_{\text{alt}}

In der linearen Algebra gibt es dafür einen Namen: Die Vektoriteration (oder von-Mises-Iteration / Power Method). Wenn man einen Vektor immer wieder mit derselben Matrix multipliziert, konvergiert dieser Vektor unweigerlich gegen den dominanten Eigenvektor der Matrix!

  • Die Ähnlichkeitsmatrix Perspektive: Der Eigenvektor ist die ‚Richtung‘ des Collective Mind.

  • Die KI-Perspektive: In einem Transformer-Netzwerk (wie ChatGPT, Gemini, Claude, usw. ) werden Informationen durch dutzende übereinanderliegende Attention-Schichten gepumpt. Forscher haben herausgefunden, dass diese Netzwerke oft ein Verhalten zeigen, das an PageRank (den alten Google-Such-Algorithmus) oder Markov-Ketten erinnert. Wenn das Netzwerk iteriert, konvergieren die Bedeutungen der Wörter (oder in unserem Fall: die Meinungen der Teammitglieder) in Richtung eines gemeinsamen Konsenses. Dieser Konsens ist mathematisch exakt der Eigenvektor der Attention-Matrix! Der Eigenvektor berechnet voraus, auf welchen „Attraktor“ (welchen endgültigen Konsens) dieses Team zusteuern würde, wenn sie unendlich lange weiterdiskutieren.

Der Eigenwert = Die Temperatur (Softmax-Schärfe)

Auch der Eigenwert als ‚Stärke‘ des Collective Mind interpretiert spiegelt sich 1:1 in der KI wider!

  • Ein hoher Eigenwert im Ähnlichkeitsmatrix Modell bedeutet: Die Gruppe ist extrem eng miteinander korreliert (alle reden über dasselbe, hohe Ähnlichkeit). Der Collective Mind hat eine massive Anziehungskraft.

  • In der Attention-Formel regelt man diese ‚Stärke‘ über den Skalierungsfaktor (\sqrt{d_k}) in der Softmax-Funktion, die ähnlich wie der Boltzmann Verteilung der Physik aufgebaut ist. Physiker nennen das die Temperatur des Systems. Ist die Stärke hoch (niedrige Temperatur), ist die Matrix extrem scharf – das Team folgt blind dem dominanten Eigenvektor (Gruppendenken / Groupthink). Ist die Stärke gering (hohe Temperatur), ist die Matrix flacher – das Team ist diverser, aber der Collective Mind ist schwächer.

Wo der QKV-Mechanismus das Ähnlichkeitsmatrix Modell erweitert:

Der QKV-Mechanismus der KI erweitert das Ähnlichkeitsmatrix Modell um zwei entscheidende Aspekte:

Die Matrix wird asymmetrisch (Q vs. K)

Ähnlichkeiten im Ähnlichkeitsmatrix Modell sind symmetrisch (Mein Text ist deinem so ähnlich wie deiner meinem). Eine solche Matrix (M = M^T) hat sehr brave, orthogonale Eigenvektoren.

Menschen sind aber nicht symmetrisch! Der Junior-Entwickler achtet vielleicht sehr stark auf die Aussagen des Senior-Architekten, aber der Senior ignoriert den Junior. Indem die KI die Eigenschaften nicht direkt vergleicht, sondern sie durch zwei getrennte Filter jagt (Q = „Was ich suche“ und K = „Was ich anbiete“), entsteht eine asymmetrische, gerichtete Matrix. Das bildet Machtgefälle, Respekt und echte Hierarchien im Collective Mind ab.

Die Trennung von Beziehung und Botschaft (Value)

Im Ähnlichkeitsmatrix Modell ist das Gesprochene gleichzeitig die Verbindung und der Inhalt.

Der Attention-Mechanismus trennt das elegant:

  • Q und K berechnen nur die Ähnlichkeitsmatrix (Wer hört wem wie stark zu?). Das ist im Ähnlichkeitsmatrix Modell der Eigenvektor.

  • Der Value (V) ist die eigentliche Information, die zusätzlich getrennt durch dieses Netzwerk fließt.

Fazit

Das Modell des Collective Mind, das über Eigenvektoren von Ähnlichkeitsmatrizen aufgebaut ist, entspricht dem mathematische Äquivalent einer! ‚Attention‘-Schicht. Die KI-Forschung der letzten Jahre legt nahe, dass genau dieser Mechanismus – das kontinuierliche Updaten von Zuständen basierend auf Ähnlichkeits-Matrizen – universell ist. Es ist der Code, mit dem das Universum Kontexte bildet: Egal ob es darum geht, wie Wörter in einem Satz ihren Sinn finden, wie Proteine sich anhand ihrer Aminosäuren falten, oder auf welchen ‚Eigenvektor‘ (Konsens) sich ein agiles Team nach drei Sprints einigt.

Literatur
[1] A. Vaswani et. al. (2017) Attention is all you need, aktuelle Version aus dem Jahre 2023: arXiv:1706.03762
[2] J. Köhler und A. Oswald (2009) Die Collective Mind Methode, Springer Verlag
[3] T. Zaklama et. al. (2026) Large Electron Model: A Universal Ground State Predictor, arXiv:2603.02346v1

AI & AM 4.0: Agent Based Modeling – Von Agenten Intelligenz und Kollektiver Intelligenz oder von ‚Intelligenz ist immer kollektiv‘?!

Das Thema Kollektive Intelligenz hat gerade Hochkonjunktur. Sei es in Form der mehrteiligen ZDF-Fernsehserie der Schwarm [1] und der damit verbundenen zweiteiligen Terra X Dokumentationen zur Intelligenz von Schwärmen [2], [3]. – Oder, auch in Form der AI Systeme chatGPT und des gerade veröffentlichten GPT-4 [4]. – Diese Systeme sind in zweierlei Hinsicht Systeme kollektiver Intelligenz: Die GPT-X Systeme und andere vergleichbare Systeme verwenden als Daten die Ergebnisse unserer aller Intelligenz und die Systeme selbst sind über die Neuronalen Netzwerke, auf denen sie beruhen, kollektive Systeme, die Intelligenz hervorbringen können, wenn sie mit unserer Intelligenz in Form von Daten gefüttert werden. – Dies ist gar nicht so unähnlich unserer kulturellen Entwicklung, die Produkte menschlicher Intelligenz hervorgebracht hat – nur eben viel, viel schneller!

Es ist absehbar, dass sich in Zukunft aus der Intelligenz von GPT-X eine Künstliche Allgemeine Intelligenz (Artificial General Intelligence, kurz AGI) entwickeln wird. Der CEO von openai betont in einem Blogbeitrag erst kürzlich hierzu die gesellschaftliche Verantwortung von openai [5] und im EU AI Act Newsletter wird, meines Erachtens zum ersten Mal, von der nahen Bedeutung von AGI im Kontext von GPT-X  Systemen gesprochen [6].   

In [2] und [3] wird eindrucksvoll geschildert, wie natürliche kollektive mobile Systeme, die aus ‚dummen‘ Agenten (u.a. Ameisen, Bienen, Fischen) bestehen, im Schwarm intelligentes Verhalten zeigen. Die vermeintlich ‚dummen‘ Agenten haben ihrerseits ein wenig Intelligenz auf der Basis von kleinen natürlichen neuronalen Netzwerken. – Die Natur ist also offensichtlich in der Lage mittels kollektiver Systeme (z.B. Ameisen Kollektiv) und von Subsystemen (z.B. Ameise als Agent) Intelligenz-Hierarchien aufzubauen.

Dies relativiert auch unseren Anspruch an intelligenter Einzigartigkeit: Kollektive Systeme, gleichgültig ob natürlich oder künstlich, haben das Potential, über eine geeignete Vernetzung, Intelligenz auszubilden.

Hieraus leite ich die These ab, dass Intelligenz immer kollektiv ist. Dies wird auch durch Ashby’s Law [7] gestützt, wonach ein komplexes System nur durch ein anderes komplexes System mit hinreichender Komplexität reguliert werden kann. Komplexität ist also eine Vorbedingung für Intelligenz. Deshalb sagen wir auch im Management 4.0, dass Komplexität ein Geschenk ist, das nicht reduziert werden sollte, sondern nur reguliert werden darf: Die Komplexität unseres Gehirns (und unseres gesamten Körpers) mit ca. 86 Milliarden vernetzter Neuronen ermöglicht es, dass wir uns adaptiv auf unsere Umgebung einstellen und diese ggf. regulieren. – Ich nehme an, dass niemand seiner Intelligenz, also seiner neuronalen Komplexität, beraubt werden möchte, indem diese reduziert wird.

In Konsequenz heißt dies auch, dass gut geführte soziale Organisationen, u.a. Teams, mit einer wertschaffenden Komplexität, kollektive Intelligenz zeigen, die über die Intelligenz der einzelnen Teammitglieder hinausgeht. Die einzige ! Aufgabe von Führung ist es, zu ermöglichen, dass sich diese kollektive Intelligenz ausbildet.    

Es ist vielleicht auch nicht abwegig, anzunehmen, dass Intelligenz eine Vorbedingung für Bewusstsein ist. – Und, dass Bewusstsein sich aus intelligenten kollektiven Systemen emergent entwickelt. Die Integrated Information Theory zum Bewusstsein zeigt erste Überlegungen in diese Richtung [8].

Im letzten Blog-Beitrag habe ich den Video-Vortrag des DeepMind Mitarbeiters Thore Graepel zum Thema ‚Multi-Agent Learning in Artificial Intelligence‘ erwähnt [9]. Thore Graepel referenziert dort am Anfang auf den Artikel von Legg und Hutter zum Thema ‚Universal Intelligence‘ [10]. Legg und Hutter geben einen Literatur-Überblick zum Verständnis von Intelligenz und definieren ihr Verständnis von Agent Intelligence:

Abbildung 1: Definition Universelle Intelligenz nach [10]

In [10] wird angenommen, dass die Wahrscheinlichkeit für Kontexte exponentiell (zur Basis 2) mit der Komplexität abnimmt. – Hier folgen Legg und Hutter auch dem Prinzip des Occam’schen Rasiermessers [11]: Die Natur bevorzugt Einfachheit und unsere Modelle zu Ihrer Beschreibung sollten dementsprechend auch einfach sein. – Einfache Kontexte werden also bei der Intelligenzberechnung höher gewichtet. Man kann auch jetzt verstehen, warum die melting pot Initiative von DeepMind von Bedeutung ist: Es werden möglichst viele Kontexte erstellt, um die allgemeine Intelligenz von Agenten über die obige Formel zu ermitteln.  

Legg und Hutter haben gezeigt, dass die obige Formel für Intelligenz alle bekannten Definitionen von Intelligenz subsummiert und auch auf den Intelligenzbegriff bei Menschen angewendet werden kann.- Auch wenn die konkrete Ausgestaltung von V und P in der obigen Formel für nachvollziehbare Kritik sorgt [12] und sich noch ändern dürfte. – Abbildung 2 visualisiert die Formel, in dem ich für das Mindset eines Agenten die Dilts Pyramide angenommen habe: Der Agent passt sich über die Zeit in einem PDCA-Zyklus mittels seiner Fähigkeiten und seines Verhaltens (auch policy genannt) an seine Umgebung an. Über die Funktion V wird die Performance des Agenten im Hinblick auf ein Ziel gemessen.- Der Agent erhält eine Belohnung. Die Performance des Agenten kann in zweierlei Hinsicht gemessen werden: Intern und extern. Das interne Performancemaß wird utility U genannt [13]. Agenten werden  rational genannt, wenn sie anstreben das interne Performancemaß mit dem externen in Einklang zu bringen. Einer der Kritikpunkte an [10] ist, dass (lediglich) das externe Performancemaß zur Intelligenzmessung herangezogen wird. 

    

Abbildung 2: Visualisierung der Formel zur Universellen Intelligenz nach [10]

Die Definition der Universellen Intelligenz ist sicherlich als Referenz für die Vermessung von Agenten Intelligenz sehr hilfreich. Ihre operative Ausgestaltung hat aber erst begonnen. – Und, sie ist rein phänomenlogisch, sie sagt also nichts über die Ingredienzien von Intelligenz aus, also welche Elemente wie zusammengebracht werden müssen, um intelligente Agenten bzw. Systeme zu bauen. Aus diesem Grunde versuche ich im Folgenden, einige mir wichtig erscheinende Elemente, in Form von Prinzipien, zu nennen. Ich lasse mich hierbei von der Transformer Technologie leiten, auf der die GPT-X Technologie beruht. Die aus meiner Sicht mit Abstand beste Darstellung zur Transformer-Technologie hat Ralph Krüger geschrieben – er macht keine verständnislosen Vereinfachungen, sondern beschreibt die Technologie didaktisch brillant [14]. Nicht desto weniger kann es manchmal beim Lesen helfen, die in Bing eingebundene chatGPT Bot Version als Assistenz zu benutzen ;-).

Neben [14] empfehle ich [15], eine dreiteilige sehr gute visuelle Aufbereitung des Matrizen-Flows (Tensorflows) in Transformern und für einen tieferen Blick in die Programmierung den Dreiteiler [16] sowie [17]. Als Einstieg kann der Spektrum der Wissenschaft Artikel von Manon Bischoff dienen [18]. Dieser Artikel enthält eine ganze Reihe interessanter Hinweise, u.a. auch die von mir im letzten Blog-Beitrag geäußerte Vermutung, dass chatGPT lediglich 1,5 Milliarden Parameter enthält, also mehr als 100 mal weniger als GPT-3. Manon spricht sogar von nur 1,3 Milliarden Parametern. Als Einstieg empfehle ich zusätzlich den Artikel über chatGPT [19].

Auf der Basis dieser Literatur liste ich im Folgenden die Prinzipien, die meines Erachtens das Was und das Wie der Intelligenz ausmachen:

Intelligenz ist immer kollektiv: Als Kollektiv bezeichne ich ein System von vernetzten Elementen (künstliche oder natürliche Neuronen, Ameisen, Menschen, usw.), das die Außenwelt per Transformation in eine Innenwelt abbildet. Die Transformation erfolgt im Falle der AI durch künstliche neuronale Netzwerken, die Tensor Operationen durchführen (bzw. Matrizenoperatione durchführen: Die Matrizenelemente sind die Gewichte zwischen den Neuronen). – Die Tensor Operationen sorgen also für die Abbildung. Damit diese Abbildung hinreichend viele Informationen der Außenwelt abbilden kann, benötigt sie viele Zustände, also viele Parameter, im Falle von GPT-3 175 Milliarden. Die Abbildung der Außenwelt über eine Parametrisierung in der Innenwelt, erfolgt über Selbstorganisations-Mechanismen, in denen eine Zielfunktion im AI-Training dafür sorgt, dass die niedrigsten energetischen Zustände in dem hochdimensionalen Parameterraum gefunden werden. – Diese repräsentieren nach dem Training die Daten der Außenwelt.

Ich habe die Bing AI gefragt, ‚Gibt es eine Zielfunktion für das Lernen im Gehirn‘. Bing AI wandelt dies in eine Frage nach ‚Zielfunktion Lernen Gehirn‘ um und generiert folgende Antwort:

Ja, das Gehirn hat eine Zielfunktion für das Lernen. Das Lernen ist im Grunde genommen eine Reaktion unseres Gehirns auf neue Erfahrungen. Wenn eine solche Erfahrung eine nachhaltige Änderung im Gehirn hervorruft, dann kann man von Lernen sprechen. Das Gehirn bereitet sich dadurch auf die Zukunft vor. Natürlich kann man sein Gehirn anregen und unterstützen, neue Dinge schneller zu lernen oder die synaptischen Verbindung zu bilden, die man möchte. Dazu brauchen wir nur unsere Aufmerksamkeit genau auf die zu lernenden Themen zu richten und sie entsprechend oft wiederholen.

Diese Definition der Zielfunktion entspricht nicht ganz meinem obigen Verständnis einer Zielfunktion: Außer, man versteht die neuronalen Mechanismen, die sich hinter der Aufmerksamkeit verbergen, als solche.

Die Außenwelt wird über Aufmerksamkeit kontextualisiert: Im Falle der Transformer-Technologie ist der Aufmerksamkeits-Mechanismus (Attention-Mechanismus) der Mechanismus, der die Leistungssteigerung gegenüber vorherigen AI Systemen wesentlich ausmacht. Hierzu werden die sprachlichen Inhalte der Außenwelt auf ihre semantischen Zusammenhänge hin analysiert: Alle Worte eines Satzes (eines Textes) werden herausgegriffen, also mit Aufmerksamkeit belegt, und es wird die Korrelation dieses herausgegriffenen Wortes zu allen anderen Worten in diesem Satz  (diesem Text) ermittelt. – Die Korrelationswahrscheinlichkeiten werden in speziellen neuronalen Netzwerken (Tensoren) trainiert. Für die Generierung von neuen Texten wird auf diese trainierten Korrelationswahrscheinlichkeiten zurückgegriffen.

Wahrscheinlichkeiten werden durch zusätzliche kollektive Maßnahmen auf verschiedenen Ebenen ausbalanciert: Die Ergebnisse, die ein Transformer nach außen liefert, sind die Ergebnisse mit der höchsten Wahrscheinlichkeit. Um die Verlässlichkeit der Wahrscheinlichkeiten zu erhöhen, werden die Wahrscheinlichkeiten pro Transformer Modul nicht nur einmal berechnet, sondern mehrmals parallel d.h. zum Beispiel mit 8 attention Mechanismen, dem sogenannten multi-head-attention. Zusätzlich werden im Falle von GPT-3 96 Transformer Module (Decoder) hintereinander geschaltet, um die Ergebnisse zu verfeinern und zu stabilisieren [18]. Der multi-head-attention Mechanismus zeigt damit die Wirkung eines Teams mit acht Teammitgliedern, in dem die potentiellen mentalen Verzerrungen der Teammitglieder ausbalanciert werden. Und, das Hintereinanderschalten der Transformer-Module lässt sich gut mit der iterativen Wirkung von 96-PDCA-Zyklen vergleichen.

… ggf. weitere Prinzipien

Ich glaube, dass Intelligenz nicht auf natürliche Systeme beschränkt ist, ja dass diese Einteilung in natürliche und künstliche Systeme künstlich ist: Intelligenz ist ein universelles Phänomen, das sich potentiell in allen Systemen ausdrücken kann, sobald hierfür die Voraussetzungen vorliegen…. Vielleicht sind die oben genannten Prinzipien tatsächlich (einige) der Voraussetzungen …Vielleicht wird die Filmreihe ‚Autobots – The Transformers‘ sogar einmal als (diesbezüglich) hellsehend bezeichnet werden [20]. 

 

[1] ZDF (2023a) Der Schwarm, https://www.zdf.de/serien/der-schwarm

[2] ZDF (2023b) Terra X – Schlaue Schwärme, Geheimnisvolle Sprachen, https://www.zdf.de/dokumentation/terra-x/schlaue-schwaerme-geheimnisvolle-sprachen-doku-102.html

[3] ZDF (2023c) Terra X – Schlaue Schwärme, Rätselhafte Kräfte, https://www.zdf.de/dokumentation/terra-x/schlaue-schwaerme-raetselhafte-kraefte-doku-100.html

[4] openai (2022) GPT-4, https://openai.com/product/gpt-4, zugegriffen am 20.03.2023

[5] Altman S (2023) Planning for AGI and beyond, https://openai.com/blog/planning-for-agi-and-beyond, zugegriffen am 15.03.2023

[6] The future of Life Institute (2023) The EU AI Act Newslettr #25 vom 01/03/23-14/03/23

[7] Wikipedia (2023) Ashby’s Law, https://de.wikipedia.org/wiki/Ashbysches_Gesetz, zugegriffen am 15.03.2023

[8] Wikipedia (2023a) IIT- Integrated Information Theory, https://en.wikipedia.org/wiki/Integrated_information_theory, zugegriffen am 15.03.2023

[9] Graepel T (2023) The role of Multi-Agent Learning in Artificial Intelligence Research at DeepMind, https://www.youtube.com/watch?v=CvL-KV3IBcM&t=619s, zugegriffen am 06.02.2023

[10] Legg S und Hutter M (2007) Universal Intelligence: A Definition of Machine Intelligence, arXiv:0712.3329v1

[11] Wikipedia (2023b) Occam’s razor, https://en.wikipedia.org/wiki/Occam%27s_razor, zugegriffen am 21.03.2023

[12] Park D (2023) Paper Summary: Universal Intelligence: A Definition of Machine Intelligence, https://crystal.uta.edu/~park/post/universal-intelligence/, zugegriffen am 06.03.2023

[13] Russel S und Norvig P (2016) Artificial Intelligence – A modern approach, Third Edition, Prentice Hall Series in Artificial Intelligence Series, Pearson Education Limited

[14] Krüger R (2021) Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung – eine popularisierende Darstellung, in trans-kom 14 [2], Seite 278-324

[15] Doshi K (2022) Transformers Explained Visually: How it works, step-by-step published January 2, 2021, towardsdatascience.com, zugegriffen am 10.05.2022,  (Part 1, 2, 3, 4), https://towardsdatascience.com/transformers-explained-visually-part-1-overview-of-functionality-95a6dd460452, https://towardsdatascience.com/transformers-explained-visually-part-2-how-it-works-step-by-step-b49fa4a64f34, https://towardsdatascience.com/transformers-explained-visually-part-3-multi-head-attention-deep-dive-1c1ff1024853, https://towardsdatascience.com/transformers-explained-visually-not-just-how-but-why-they-work-so-well-d840bd61a9d3

[16] Gosthipaty A R und Raha R (2022) A Deep Dive into Transformers with Tensorflow and Keras, Part 1-3, PyImagesearch.com, published November 2022, zugegriffen am 06.12.2022, https://pyimagesearch.com/2022/09/05/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-1/, https://pyimagesearch.com/2022/09/26/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-2/, https://pyimagesearch.com/2022/11/07/a-deep-dive-into-transformers-with-tensorflow-and-keras-part-3/

[17] Cristina S (2023) Training the Transformer Model, https://machinelearningmastery.com/training-the-transformer-model/, updated am 06.01.2023, zugegriffen am 20.03.2023

[18] Bischoff M (2023) Wie man einem Computer das Sprechen beibringt, https://www.spektrum.de/news/wie-funktionieren-sprachmodelle-wie-chatgpt/2115924, veröffentlicht am 09.03.2023, zugegriffen am 20.03.2023

[19] Ruby M (2023) How ChatGPT Works: The Model Behind the Bot, https://towardsdatascience.com/how-chatgpt-works-the-models-behind-the-bot-1ce5fca96286, veröffentlicht am 30.01.2023, zugegriffen am 20.03.2023

[20] Wikipedia(2023) Autobot, https://en.wikipedia.org/wiki/Autobot, zugegriffen am 20.03.2023

AI & M 4.0: Sein als Netzwerk – Den Collective Mind als Netzwerk sichtbar machen

Über Jahrhunderte hinweg haben die berühmtesten Philosophen versucht das „Ding an sich“ auszuleuchten und zu finden. Es ist ihnen nicht gelungen, da es meines Erachtens das „Ding an sich“ nicht gibt.

Es gibt Dinge oder Objekte, aber diese werden ganz entscheidend durch ihre Wechselwirkung mit ihrer Umgebung bestimmt. – Andere Umgebungen und schon sind Objekte oft ganz anders. – Die Relationen, also die Beziehungen, zwischen den Objekten bestimmen ganz entscheidend das Sein. – Deswegen habe ich diesem Blog-Beitrag den Titel „Sein als Netzwerk“ gegeben.

Das Studium von Netzwerken in Natur, Sozialem oder Technik mittels mathematischer Methoden ist schon mehrere hundert Jahre alt und ist eng mit dem Namen des französischen Mathematiker’s Pierre-Simon Laplace verbunden [1]. – Im zwanzigsten Jahrhundert wurde die Netzwerkanalyse zu einer vollständigen Disziplin, u.a. in den Sozialwissenschaften, ausgebaut [2], [3].

Die erfolgreiche Netzwerkanalyse ist einer der Grundpfeiler für den Erfolg von google: Der PageRank Algorithmus misst die Bedeutung von Internetknoten (homepages) im Netzwerk Internet [4]. – Weiter unten werde ich diesen Algorithmus für das Vermessen der Bedeutung von Begriffen in einem Text benutzten. – Denn ich nehmen an, dass bedeutende Begriffe und deren Relationen die mentale Ausrichtung eines Teams beschreiben.  

Die Netzwerkanalyse, oft auch Graphentheorie genannt, hat in den letzten Jahren im Bereich AI/ML eine enorme Bedeutung erhalten: Graphentheorie und Neuronale Netzwerke sind eine Relation 😉 eingegangen. Es entstand die AI/ML Disziplin Graph Neural Networks (GNN) [5]. – Im letzten Blog-Beitrag war Word-embedding der Schwerpunkt. GNN basieren auf dem Embedding von Netzwerken in höher-dimensionale abstrakte Räume. – Einige der aktuellen spektakulären AI/ML Erfolge, wie zum Beispiel in der Medikamentenerforschung, gehen auf diese Relation von Graphentheorie und AI/ML zurück.

GNN sind high-end AI/ML Systeme, die aktuell sehr viel Know-How erfordern. In vielen Fällen dürfte es jedoch genügen, Netzwerke lediglich sichtbar zu machen und erste Analysen, wie den mathematisch recht einfachen PageRank Algorithmus, anzuwenden. Genau dies will ich in diesem Artikel an einem Beispiel demonstrieren. – Hierbei steht, wie schon im letzten Beitrag, die grundlegende Idee im Vordergrund und nicht die Erzeugung oder Vermarktung eines vollständigen Produktes.

In meinem Blog-Beitrag vom Dezember 2021 habe ich erstmals für die IPMA PM Kompetenzbereiche Beispiele zu Graphen Anwendungen genannt. Hier nochmals einige Beispiele:

Führung und Stakeholder: Soziale Netzwerke können mittels Graphen oder GNN analysiert werden. Dies kann auf Teamebene und auf der Ebene aller Stakeholder erfolgen. Hierzu wird u.a. der eMail-Austausch einer Organisation analysiert und in einem Graphen sichtbar gemacht. Relative einfache Werkzeuge, wie der PageRank Algorithmus zeigen die relative Bedeutung von Knoten (d.h. hier Personen) im Netzwerk an.

Führung, Kommunikation, Teamarbeit: Die verbale Kommunikation wird mittels Graphen analysiert und die Analyse wird als Feedback in das Team gegeben. Oder die AI/ML Analyse unterstützt die Führungskraft bei ihrer Selbstreflexion und abgeleiteten Team-Interventionen. Aus der Analyse der Kommunikation lassen sich auch Collective Mind Target Hierarchien erzeugen. Das Beispiel, das ich weiter unten skizziere, gehört in diese Kategorie.

Planung und Steuerung: Aus Texten werden Graphen abgeleitet, aus denen wiederum Projektpläne erzeugt werden. Auf der Basis der Graphen und mittels GNN werden u.a. Risiken ermittelt und Aufwände abgeleitet. Diese Informationen können im Projektzeitverlauf auch für das Projektmonitoring verwendet werden.

Die letzte Kategorie ist eine deutlich anspruchsvollere Aufgabe als die beiden vorherigen Anwendungskategorien. Die beiden ersten Anwendungskategorien lassen sich in der ersten Ausbaustufe mit den in diesem Blog skizzierten Techniken bewältigen.

Im letzten Blogbeitrag habe ich die Ähnlichkeit von (gesprochenen) Texten, d.h. die Similarity, dazu benutzt, ein Maß für die Stärke des Collective Mind abzuleiten. In diesem Fall wurden Wort-Relationen über deren Einbettung in einen hochdimensionalen abstrakten Raum benutzt, um die Similarity zu berechnen.

In diesem Blogbeitrag will ich die Graphentheorie und AI/ML dazu benutzten, Texte auf enthaltene Relationen zu analysieren und diese Relationen in einem Graphen sichtbar zu machen. – Es steht also die Visualisierung von Kommunikation im Vordergrund: Die Visualisierung mittels Graphen macht in einer Kommunikation sehr schnell Zusammenhänge sichtbar. Die These ist, dass über visualisiertes Feedback in ein Team, der Prozess der Collective Mind Ausbildung deutlich beschleunigt wird.      

Ich benutze den Code von Thomas Bratanic [6], der auf towardsdatascience.com zu finden ist. Towardsdatascience.com ist eine hervorragende Fundgruppe für alle möglichen Fragestellungen rund um das Thema AI/ML.

Bratanic demonstriert die Graphenanalyse am Beispiel der Analyse von Wikipedia-Seiten zu drei Wissenschaftlerinnen. Hierzu werden die Wikipedia-Seiten in page.summaries mit einfachen Sätzen zusammengefasst. – Wir werden später sehen, dass diese einfachen Sätze (derzeit noch) notwendig sind, um die NLP-Verarbeitung gut durchzuführen. Abbildung 1 zeigt einen Auszug aus diesem Ergebnis:

Abbildung 1: Auszug einer Analyse von Wikipedia Daten zu drei Wissenschaftlerinnen gemäß Thomas Bratanic [6].

Die Grundidee ist einfach: Es werden Sätze in Texten oder Gesprochenem in „Subjekt-Relation->Objekt“ Strukturen (S-R->O Strukturen) zerlegt. Zum Beispiel ergibt der Satz „Alfred wohnt in Stolberg.“ die Struktur „Alfred – wohnt in -> Stolberg“. Die gefundenen S-R->O Strukturen werden in eine Graphen-Datenbank transferiert. Hier können verschiedene Netzwerkanalysen durchgeführt werden.

Die AI/ML Technik hierzu ist schon nicht mehr so einfach: Wie im letzten Blog-Beitrag kommt die NLP-Bibliothek spaCy [7] zum Einsatz. Hinzukommen diverse raffinierte NLP-Python-Skripte, die high-end Transformator Pipeline aus der tensorflow-Technologie [8] und zum Schluss die Graphendatenbank Neo4j [9]. Das Ganze ist nach diversen Anpassungen und einige Zeit später als Jupyter-Notebook [10] in der Colab-Umgebung [11] lauffähig.

Wie schon im letzten Blogbeitrag, habe ich der Einfachheit wegen den Text der Definition von Agile Management 4.0 benutzt. Der erste Lauf mit diesem Text zeigt jedoch, dass kaum Relationen extrahiert wurden. – Der Text ist zu verschachtelt geschrieben. Dementsprechend habe ich ihn in einfache Sätze umgeschrieben. – Ich hätte auch einen entsprechenden AI/ML pre-processing Schritt vorwegschalten können, der Text in einfachen Text mit S-R->O Strukturen transformiert. Dies hätte den Aufwand jedoch deutlich erhöht. – Mit entsprechenden AI/ML Techniken stellt dies jedoch kein prinzipielles Problem dar. – Ich habe den Text auch teilweise belassen wie er ist, um die Auswirkungen zu sehen.

 
Hier der verwendete Text:

“Agile Management is a leadership and management practice. Agile Management is able to act in an agile and proactive way. Agile Management is for acting in a complex environment. The complex environment is characterized by uncertainty. Agile Management is described as an Agile Mindset. The Agile Mindset is focused on leadership. The basis of leadership is self-leadership. Leadership is based on respect for basic human needs. Leadership demands an understanding of complex systems. Leadership regulates complexity. Regulation of complexity is done by iterative procedures. Leadership is based on people who use self-organization in teams. Agile Management creates fluid organizations.  Fluid organizations promote adaptable and fast delivery of useful results and create innovative customer solutions through proactive dealing with changes.”

Dieser Text wird von dem AI/ML-System in S-R->O Strukturen transferiert, die in der Graphendatenbank Neo4j folgende Visualisierung erhalten:

 

Abbildung 2: Screenshot der Neo4j Visualisierung der NLP extrahierten S-R->O Strukturen.

Agile Management und leadership werden als zentrale Knoten erkannt. Die Sätze

„Regulation of complexity is done by iterative procedures.”

und

Fluid organizations promote adaptable and fast delivery of useful results and create innovative customer solutions through proactive dealing with changes.”

sind in zwei getrennten Netzwerkclustern enthalten.  Der zweiten Satz ist auch nicht vollständig abgebildet. Dies ist meinem unzureichenden manuellen Pre-Processing geschuldet. Bei diesem Satz kann man auch schön erkennen, dass „Fluid organization“ und „fluid organization“ nicht als gleiche Nomen erkannt werden.

Für den ganzen Text gilt, dass die Verben des Textes in allgemeinere Relationsbezeichnungen abgebildet werden. Diese haben ihren Ursprung in einem entsprechenden vorgegebenen NLP Training von spaCy.

Auch mit diesen Einschränkungen stellt die Visualisierung des Textes einen erheblichen Mehrwert dar: Denn man möge sich nur vorstellen, dass ein entsprechendes AI/ML System online und ad hoc Teamkommunikation auf solche Weise visualisiert als Feedback an das Team zurückgibt. – Dies würde meines Erachtens den Kommunikationsprozess erheblich beschleunigen und die Visualisierung wäre auch gleichzeitig eine Visualisierung des gerade vorhandenen Collective Mind’s. Im Falle einer komplexen Kommunikation wäre die Visualisierung um so hilfreicher: Dies umso mehr, wenn die Visualisierung mehrere oder viele Netzwerkcluster zu Tage fördern würde. Dies entspräche mehreren Gesprächsthemen oder -lagern, die ggf. für mehrere (konkurrierende) Collective Mind’s stünden.

Neben der Visualisierung können diverse Werkzeuge der Netzwerktheorie verwendet werden, um Netzwerke zu analysieren [12]. – Dies ist umso notwendiger, je komplexer die Netzwerke aus Personen, Worten, homepages, Molekülen usw. sind.  Neo4j stellt mehr als hundert solcher Werkzeuge zu Verfügung, u.a. auch den PageRank Algorithmus. Abbildung 3 zeigt die PageRank-Auswertung für den Graphen aus Abbildung 2.

Abbildung 3: PageRanking für den Graphen aus Abbildung 3

Das PageRanking ist für diesen einfachen Graphen sicherlich keine große Überraschungen: Agile Management und leadership sind die beiden Begriffe, die im Netzwerk gemäß diesem Algorithmus am wichtigsten sind. Für größere Graphen erwarte ich jedoch erhebliche Überraschungseffekte in den Teams oder Organisation, deren Kommunikation auf diese Weise analysiert wird.

Agile Management und leadership sind zwei Begriffs-Attraktoren, die die Ausrichtung der gedachten Teamkommunikation, anzeigen: Das Begriffs-Netzwerk visualisiert den Collective Mind oder den fehlenden Collective Mind einer Kommunikation, je nachdem wie viele konkurrierende Netzwerkcluster (Communities) mit ähnlichem PageRanking es gibt.

Dieses kleine Beispiel illustriert, dass man mit den Mittel von AI/ML erhebliche Informationen über Teams oder Organisationen gewinnen kann. Diese Informationen können im Guten wie im Bösen eingesetzt werden. Berücksichtigt man, dass das Know-how von google und Co. Lichtjahre weiter ist als mein Eigenes, so ist die Einbettung in eine AI Ethik um so wichtiger. Deshalb beabsichtige ich, mich im nächsten Blog mit dem EU AI Act zu beschäftigen [13].

 

[1] Laplace Matrix (2022) https://en.wikipedia.org/wiki/Laplacian_matrix, Wikipedia, zugegriffen am 19.06.2022

[2] Jansen D (1999) Einführung in die Netzwerkanalyse, VS Verlag für Sozialwissenschaften

[3] Wasserman S, Faust K (1994) Social Network Analysis, Cambridge University Press

[4] PageRank (2022) https://en.wikipedia.org/wiki/PageRank, Wikipedia, zugegriffen am 19.06.2022

[5] Hamilton W L (2020) Graph Representation Learning, Morgan&Claypool Publishers

[6] Bratanic T (2022) Extract knowledge from text: End-to-end information extraction pipeline with spaCy and Neo4j, published May 6, 2022, https://towardsdatascience.com/extract-knowledge-from-text-end-to-end-information-extraction-pipeline-with-spacy-and-neo4j-502b2b1e0754, towardsdatascience.com, zugegriffen am 10.05.2022

[7] spaCy (2022) https://spacy.io/models/de, zugegriffen am 20.04.2022

[8] Transformers (2022) https://huggingface.co/docs/transformers/main_classes/pipelines, huggingface.co, zugegriffen am 20.04.2022

[9] Neo4j (2022) neo4j.com, zugegriffen am 23.06.2022

[10] Jupyter Notebooks (2021) https://jupyter.org/, zugegriffen am 02.12.2022

[11] Colab (2021) https://colab.research.google.com/

[12] Scifo E (2020) Hands-on Graph Analytics with Neo4J, Packt Publishing, Birmingham, kindle edition

[13] EU AI Act (2022) https://artificialintelligenceact.eu/, Europe Administration

AI & M 4.0: Zur Erweiterung unserer Intelligenz und Realität durch Machine Learning (ML) und Artificial Intelligence (AI) im Management 4.0

Der ehemalige amerikanische Außenminister Kissinger sowie der ehemalige Google CEO Schmidt und der MIT Professor Huttenlocher haben zusammen vor ein paar Tagen ein bemerkenswertes Buch zu unserer Zukunft im Zeitalter der künstlichen Intelligenz herausgebracht. – Ich nenne wesentliche Aussagen dieses Buches [1]:

  • Machine Learning (ML) und Artificial Intelligence (AI) basieren auf völlig anderen Prinzipien als „klassische“ Software: Im Rahmen vorgegebener Selbstorganisations-Parameter (und Daten) organisiert sich eine AI selbst. – Sie bildet durch Training Modelle zu den eingegebenen Daten, also der ausgewählten Realität, ab. – Diese Modelle sind nicht perfekt, sie liefern Wahrscheinlichkeitsaussagen. – Und damit haftet diesen Modellen unmittelbar Unsicherheit an! – Gar nicht so unähnlich unserer Intelligenz!
  • Systeme künstlicher Intelligenz erkennen schon heute Muster in unsrer Realität, die unserer Intelligenz (bisher) verschlossen waren. – AI bildet erfolgreich Schachstrategien aus, die bisher kein Mensch verwendet hat oder findet wirksame Medikamente, die bisher unentdeckt geblieben sind, oder hilft Prinzipien der Physik und Mathematik zu entdecken usw. 
  • AI wird unsere Sicht auf die Realität wesentlich verändern, nicht nur quantitativ, sondern vor allem auch qualitativ! – Und dies in zweierlei Hinsicht: Die Entwicklung von AI sorgt für die Integration verschiedener Disziplinen wie Psychologie, Sozialwissenschaften, Naturwissenschaften, Informatik, Mathematik sowie Philosophie und führt in den jeweiligen Disziplinen zu neuen Erkenntnissen und Anwendungen.
  • Gesellschaftliche Systeme werden sich substanziell unterschiedlich entwickeln, je nachdem, ob in welchem Maße und in welcher Qualität ML/AI eingesetzt wird. – Dies wird sich zum einen auf globaler Ebene zeigen, und zum anderen wird es auch eine neue „Schichtung“ der Gesellschaft(en) entlang der individuellen ML/AI Kompetenzen hervorrufen. – Derzeit gibt es nur zwei relevante ML/AI Ecosysteme: USA und China. – Und diese Ecosysteme formen mit ihren ML/AI Systemen unsere (europäische) Zukunft!

Falls jemand diese Aussagen anzweifelt, so möge er sich die Internetseite von DeepMind [2] oder der AI community DeepAI [3] ansehen – die Zweifel dürften sehr schnell verschwinden.

Seit ein paar Monaten konfiguriere bzw. programmiere ich ML/AI Systeme, also Physical Technologies. – Ich tue dies auf der Basis des amerikanischen ML/AI Ecosystems, insbesondere von Google’s Colab [4], Python [5] und Jupyter Notebooks [6]: Ich lote aus, inwieweit diese Physical Technologies helfen könnten, die Social Technology Management 4.0 gemäß den obigen Aussagen zukunftsfähig zu machen. – Das heißt, die Management 4.0 Intelligenz durch ML/AI quantitativ und qualitativ zu erweitern.

Im Tun wird einem sehr schnell bewusst, dass das europäische ML/AI Know-How ganz wesentlich vom amerikanischen ML/AI Ecosystem dominiert wird. – Das amerikanische ML/AI Ecosysteme von Google, Facebook/Meta Platforms, Microsoft und Co. ist überwältigend! – Es gibt eine Vielzahl an öffentlich zugänglichen Plattformen mit einer enormen Anzahl von vortrainierten ML/AI Modellen, unzähligen Tutorials und Code-Beispielen. – Selbst die Nutzung generativer Natural Language Processing (NLP) Systeme der neuesten Generation oder sogar die Anbindung an Quantencomputing ist prinzipiell möglich.

Das amerikanische ML/AI Ecosystem ermöglicht auch Personen wie mir, deren ML/AI Know-how Lichtjahre vom google Know-how entfernt ist, in überschaubaren Schritten in die ML/AI-Welt einzusteigen. Google, Meta Platforms, Microsoft und Co. haben damit einen gesellschaftlichen Innovations-Feedback Mechanismus angestoßen, der der (amerikanischen) Gesellschaft – zumindest einem gewissen Teil davon – einen enormen Innovationsschub gibt: Das ML/AI Ecosystem trägt zu immer schnelleren und qualitativ neuartigen ML/AI Entwicklungen bei, teilweise sogar zu ML/AI Technologie-Revolutionen – man siehe [2] und [3].

Auch wenn nicht wenige Europäer zum amerikanischen ML/AI Ecosystem beitragen, so wurde mir im Tun „schmerzlich“ bewusst, dass wir Europäer auf der Ebene der gesellschaftlichen ML/AI Ecosysteme keine Rolle spielen. – Auch wenn es „kleine“ lokale ML/AI Ecosysteme wie das Tübingen AI Center gibt [6].
Mir sind keine öffentlich zugänglichen europäischen ML/AI Plattformen bekannt. Gerade im Natural Language Processing (NLP) Bereich gibt es nur wenige vortrainierte Modell für europäische Sprachen oder die deutsche Sprache. (Nahezu) alle Tutorials sind in Code und Daten auf den Englisch-sprachigen Bereich ausgerichtet…Dies dürfte nicht nur mir sehr viel mühsame Transferarbeit bescheren!

Man mag das amerikanische ML/AI Ecosystem durchaus auch kritisch sehen, jedoch kann man Google und Co. mit ihrer ML/AI open source Philosophie nicht absprechen, dass Sie einen erheblichen Beitrag für die (ML/AI-) Entwicklung der amerikanischen und auch westlichen Gesellschaft leisten. Schaue ich auf die deutsche Unternehmenslandschaft, so zahlen unsere Unternehmen nach meinem Wissen auf kein gesellschaftliches ML/AI Ecosystem ein. – Unsere deutsche (unternehmerische) Gesellschaft wird nach wie vor von Silo-Denken, Silo-Geschäftsmodellen und Silo-Handeln bestimmt. Das heißt auch, dass gemäß [1] die Entwicklung der europäischen Gesellschaft über kurz oder lang einen Mangel an erweiterter Intelligenz und erweiterter Realität spüren wird, falls dieser Mangel nicht schon jetzt vorhanden ist.

Die obigen Aussagen aus [1] entsprechen meiner Erfahrung und Wahrnehmung und sind ein Motiv, sich um die Verbindung von AI und Management 4.0 (AI & M 4.0) zu kümmern: AI kann dem Projektleiter sowie dem Team assistieren und, was vielleicht noch viel wichtiger ist, mentale Feedback Mechanismen anstoßen, die die kognitive menschliche Projekt- und Management-Intelligenz erweitern. Damit geht einher, dass das menschliche Bewusstsein sich erweitert und mentale wie gesellschaftliche Transformationen angestoßen und begleitet werden. – Die wahrgenommene Realität insbesondere in komplexen Projekten wird sich nach meiner Einschätzung durch ML/AI erheblich erweitern.

Ich liste im Folgenden AI & M 4.0 Anwendungskategorien, die nach meinem aktuellem Wissensstand für das (Projekt) Management von Bedeutung sein werden.- Ich kennzeichne die Kategorien durch AI/ML und eine fortlaufende Nummer. – Man siehe hierzu auch die phasenorientierte Zuordnung von PM Aktivitäten und AI/ML Techniken in [8].

AI/ML 1 – Numerische Feature-Multilabel (supervised) AI: Ein Sachverhalt wird über numerische Datenkategorien (Features) beschrieben und Anwendungstypen oder Klassen (man spricht von Labels) zugeordnet. Zum Beispiel nimmt ein AI System eine Aufwands- oder Kostenschätzung vor. Hierzu werden die Aufgaben gemäß bestimmter numerischer Features beschrieben und einer Aufwandsklasse, also einem Label, zugeordnet. Supervised bedeutet hier, dass die AI mit einer Feature-Label Zuordnung trainiert wird, die durch Menschen vorher vorgenommen wurde. Hierbei ist es meines Erachtens jedoch nicht notwendig, zuerst jahrelang solche Zuordnungen, also Daten zu sammeln. Die AI könnte vielmehr in laufende Aufwandsschätzungen gemäß Delphi oder Planning Poker eingebracht werden, im Wissen, dass die AI sich wahrscheinlich langsam aufbaut.    

AI/ML 2 – Text-Multilabel (supervised) Natural Language Processing AI: Ein Sachverhalt wird über Text bzw. Sprache beschrieben und Labels zugeordnet. Auch eine Aufwandsschätzung könnte auf diese Weise durch AI vorgenommen werden.- Die zu schätzenden Aufgaben liegen als Textbeschreibungen vor und für das Training werden durch Menschen Label-Zuordnungen vorgenommen. Text und Label werden im AI-Training verarbeitet. – Die AI ist also in der Lage natürliche Sprache (Natural Language Processing (NLP)) zu verarbeiten. Ein anderes Bespiel ist die Analyse von Verhalten, beschrieben in Textform und die Zuordnung zu Persönlichkeitslabels (Temperament, Werten, Grundannahmen, Glaubenssätzen, Prinzipien). – Die nachträgliche Analyse von Verhalten durch niedergeschriebenen Text ist relativ „einfach“.  – Eine direkte Analyse der Kommunikation z.B. während einer Teamsitzung ist jedoch wesentlich anspruchsvoller und entzieht sich derzeit (noch 😉) meinem Kenntnisstand. – Selbstverständlich kann auf dieser Basis auch eine organisationale Kulturanalyse vorgenommen werden, indem die Kommunikation (Gesprochenes, Dokumente, eMail, Chat) im Team oder in der Organisation ausgewertet wird.  

AI/ML 3 – Graph Neural Networks bzw. Graphen-Multilabel (supervised) AI: Sehr viele Sachverhalte in Natur, Sozialem und Technik lassen sich über Graphen bzw. Netzwerke beschreiben [9, 10]. Soziale Systeme bzw. Organisationen lassen sich gut über Social Networks darstellen. Der Projektstrukturplan bzw. der Projektplan sind spezielle Graphen. Die Zielhierarchie ist eine weiterer Graph. Zum Beispiel lassen sich aus der Kommunikation der Stakeholder Social Networks ableiten und diese Social Networks oder Social Networks Bausteine werden mit Labels versehen und dienen dem Training von AI/ML. Ein anderes Beispiel ist die Extraktion der Zielhierarchie aus einer Teamkommunikation und die anschließende „Überprüfung der Einhaltung“ der Zielhierarchie in der Stakeholderkommunikation. Oder, das Social Network eines Teams wird Performance Labels (z.B. Hochleistung, mittlere Leistung, dysfunktionale Leistung) zugeordnet.  

AI/ML 4 – Team-Sprachanalyse (unsupervised) AI: Die Sprache in Teams oder Stakeholdergruppen wird auf Gemeinsamkeiten untersucht. So lässt sich u.a. aus der Wortwahl von Teammitgliedern u.a. mittels der Bag of Word und word embedding Technologien auf deren „mentale Verwandschaft“ oder das Collective Mind schließen.

AI/ML 5 – Generative NLP (unsupervised) AI: Mittels generativer NLP AI Systeme [11, 12] lassen sich u.a. Vertragsdokumente bzw. Claim-Dokumente mittels weniger von Menschen eingegebener zentraler Prinzipien generieren. Diese Systeme können auch dazu benutzt werden, Abweichungen (also Vertrags- und Claimrisiken) zu identifizieren.

AI/ML 6 – Clustering (unsupervised) AI: Die AI clustered numerische oder Textdaten. Diese Cluster zeichnen sich durch charakteristische Cluster Eigenschaften aus und erlauben damit das Erkennen von Mustern in den Daten. Auf diese Weise können zum Beispiel Projekte, Aufgaben oder auch Stakeholder geclustert werden. – Einen ersten Eindruck von der Fähigkeit Neuronaler  Netzwerke zu clustern, bietet die „Spielumgebung“ von Tensorflow [13].

Diese sechs Kategorien lassen sich auch kombinieren, sei es, um ergänzende Informationen zu erhalten oder eine sogenannte AI/ML Verarbeitungspipeline aufzubauen.

Ich erwarte, dass mit gewonnener Erfahrung diese sechs Kategorien detailliert werden und auch weitere Kategorien hinzukommen.

Ich verwende diese sechs AI/ML Kategorien, um AI & M 4.0 zu beschreiben: Ich tue dies unter Verwendung der IPMA ICB 4.0 Kompetenzen [14] bzw. der Kompetenzen des Handbuches Kompetenzbasiertes Projektmanagement (PM4) der GPM [15]. Die nachfolgende Tabelle listet AI & M 4.0. Die Tabelle ist sicherlich nicht vollständig. – Sie gibt den aktuellen Stand meiner Überlegungen wieder; sie dürfte sich also noch ändern.

Die Tabelle zeigt, dass schon heute mit entsprechendem Know-how die (Projekt) Management Intelligenz und Realität deutlich erweitert werden kann. – Mit einem AI Know-How, das im amerikanischen ML/AI Ecosystem abrufbar ist.

Die kursive Schrift in der Tabelle zeigt an, dass in diesen Fällen eine Bearbeitung durch die GPM Fachgruppe Agile Management begonnen wurde.

Perspective – KontextkompetenzenAI & M 4.0: Erweiterte Management 4.0 Intelligenz und Realität mittels ML/AI
Strategie 
Governance, Strukturen und Prozesse 
Compliance, Standards und RegularienAI/ML 5: Ermittlung von Compliance und Risiken durch den Abgleich von Projektartefakten und Compliance-Dokumenten sowie Standards und Normen
Macht und Interessen 
Kultur und WerteAI/ML 2: Ermittlung des organisationalen Mindsets (Kultur) durch vortrainierte Neuronale Netzwerke (NN): transkribierte Sprache und Texte werden mittels eines Transformermodells wie BERT [16,17] einer Text-MultiLabel Analyse unterzogen. – BERT ist eines der wenigen Modelle, das auch in einer deutschen Sprachversion verfügbar ist.   In einem zweiten Schritt kann diese Information dazu benutzt werden, um die Heterogenität der Kultur in einer Organisation zu ermitteln. In dem vorhergehenden Blog-Beitrag habe ich dies als „Spinglass-Organisation“ bezeichnet.     
People – Persönliche und soziale Kompetenzen 
Selbstreflexion und SelbstmanagementAI/ML 2: Die Selbstreflexion und das Selbstmanagement wird durch einen Feedback Mechanismus zwischen AI und Projektmanager oder Teammitglied angestoßen. Die AI erweitert die Metakompetenz des PM und der Teammitgliedern, indem den Verhaltensweisen durch die AI Persönlichkeitsdimensionen (Temperament, Motive, Werte, Glaubenssätze) zugeordnet werden.
Persönliche Integrität und Verlässlichkeit 
Persönliche KommunikationAI/ML 2: Die Realität der Kommunikation verändert sich auf der Basis der veränderten Selbstreflexion. Zudem liefert die AI Informationen zu den Persönlichkeitsdimensionen aller kommunizierenden Teammitglieder.
Beziehungen und Engagement 
FührungAI/ML 2: Die Führungs-Metakompetenz wird erheblich erweitert, da Selbstreflexion und Kommunikation deutlich verbessert werden. – Die Decision Intelligence wird deutlich erweitert.   AI/ML 4: Die Team-Sprachanalyse ermittelt Gemeinsamkeiten und hilft Dysfunktionalitäten aufzudecken.   AI/ML 3: Social Networks werden mittels GNN (Graph Neural Networks) analysiert und gelabelt. Dies kann auf Teamebene und auf der Ebene aller Stakeholder erfolgen.
TeamarbeitAI/ML 4: Die Stärke des Collective Mind wird durch einen „Statthalter“ also eine proxy Collective Mind (proxyCM) abgebildet: CM ~ proxyCM. Als proxyCM können verschiedene Modelle dienen: Transkribierte Sprache von Teammitgliedern werden mittels sklearn [18] (Native Bayes Classification) den Teammitgliedern zugeordnet. Desto eindeutiger die Zuordnung ist, desto geringer ist das CM, oder anders ausgedrückt, falls ein Text mehreren Teammitglieder zugeordnet werden kann, so besteht ein „inhaltlicher Überlapp“. – Der proxyCM ist größer.   Des Weiteren können Redefrequenz und Redelänge als weitere Indikatoren für den proxyCM verwendet werden.   Mittels einer Bag of Word oder Word Vector Embedding Analyse [18, 19, 20, 21] wird die Wortwahl der Teammitglieder analysiert. Unterschiedliche Wortwahlen unterschiedlicher Teammitglieder zeigen ein schwaches proxyCM an, oder umgekehrt lassen ähnliche Begriffsschwerpunkte auf ein starkes proxyCM schliessen.    
Konflikte und KrisenAI/ML 2, 3, 4: Diese AI Erweiterungen der PM Intelligenz bzw. Metakompetenz sind auch gerade in Konflikten und Krisen von enormer Bedeutung
Vielseitigkeit 
VerhandlungenAI/ML 2, 3, 4: Diese AI Erweiterungen der PM Intelligenz bzw. Metakompetenz sind auch gerade in Verhandlungen von enormer Bedeutung. AI/ML 5: Zusätzlich ist es hilfreich Vertrags- und Claim-Dokumente einer AI Überprüfung zu unterziehen.
Ergebnisorientierung 
Practice – Technische Kompetenzen 
ProjektdesignAI/ML 6: Die AI ermittelt Komplexitätsklassen auf der Basis von numerischen und/oder textuellen Daten. Die Komplexitätsklassen sind die Basis des Projektdesigns
Anforderungen und Ziele 
Leistungsumfang und Lieferobjekte 
Ablauf und Termine 
Organisation, Information und Dokumentation 
Qualität 
Kosten und FinanzierungAI/ML 1, 2: Die Ermittlung von Aufwänden und Kosten gehört zu den „einfachen“ AI/ML Techniken. Lediglich die Beschaffung von Trainingsdaten ist vermutlich schwierig, da archivierte Projektdaten selten vorliegen.
Ressourcen 
Beschaffung 
Planung und SteuerungAI/ML 1: siehe Kosten und Finanzierung
Chancen und Risiken 
StakeholderAI/ML 2, 3, 4: Diese AI Erweiterungen der PM Intelligenz bzw. Metakompetenz sind für das Stakeholdermanagement von enormer Bedeutung
Change und TransformationAI/ML 2, 3, 4, 5: Hier können nahezu alle AI Techniken zum Einsatz kommen, um eine valide Entscheidungsbasis für Interventionen zu haben.
Tabelle: AI & M 4.0 unter Verwendung der ICB 4.0 / PM4 Kompetenzen

Die GPM Fachgruppe Agile Management sucht Mitglieder, die bereit sind, in die Untiefen 😉 der AI Erstellung, des Trainingsdaten Sammelns oder sogar der Anwendung im eigenen Unternehmen einzusteigen! – Wir freuen uns über eine Kontaktaufnahme unter agile-management@gpm-ipma.de!

[1] Kissinger HA, Schmidt E, Huttenlocher D (2021) The Age of AI: And Our Human Future, kindle edition
[2] DeepMind (2021) deepmind.com, zugegriffen am 02.12.2021
[3] DeepAI (2021) deepai.org, zugegriffen am 02.12.2021
[4] Colab (2021) https://colab.research.google.com/
[5] Python (2021) https://www.python.org/
[6] Jupyter Notebooks (2021) https://jupyter.org/, zugegriffen am 02.12.2021
[7] Tübingen AI Center (2021) tuebingen.ai, zugegriffen am 02.12.2021
[8] Nuhn H (2021) Organizing for temporality and supporting AI systems – a framework for applied AI and organization research, Lecture Notes in Informatics, GI e.V
[9] Veličković P (2021) Introduction to Graph Neural Networks, https://www.youtube.com/watch?v=8owQBFAHw7E, zugegriffen am 02.12.2021, man siehe auch petar-v.com
[10] Spektral (2021) https://graphneural.network/, zugegriffen am 02.12.2021
[11] GPT-3 (2021) https://openai.com/blog/openai-api/, zugegriffen am 09.12.2021
[12] Gopher (2021) https://deepmind.com/blog/article/language-modelling-at-scale,
[13] Neuronales Netzwerk „zum Spielen“ (2021) https://playground.tensorflow.org, zugegriffen am 02.12.2021
[14] GPM (2017) Individual Competence Baseline für Projektmanagement, IPMA, Version 4.0 / Deutsche Fassung
[15] GPM (2019) Kompetenzbasiertes Projektmanagement (PM4), Handbuch für Praxis und Weiterbildung im Projektmanagement
[16] Tensorflow (2021) google Entwicklungsplattform, https://www.tensorflow.org, zugegriffen am 02.12.2021
[17] BERT (2021) NLP Transformer Model BERT, https://huggingface.co/models, zugegriffen am 02.12.2021
[18] Scikit-learn (2021) https://scikit-learn.org/, zugegriffen am 02.12.2021
[19] Gensim-word2vec (2021) https://www.kaggle.com/pierremegret/gensim-word2vec-tutorial, zugegriffen am 02.12.2021
[20] Word-Vector-Visualisation (2021) https://www.kaggle.com/jeffd23/visualizing-word-vectors-with-t-sne/notebook, zugegriffen am 02.12.2021
[21] Spacy (2021) https://spacy.io/models/de, zugegriffen am 02.12.2021