Google Deepmind-Wissenschaftler warnt vor existenzieller KI-Katastrophe „nicht nur möglich, sondern wahrscheinlich“

Ein von einem leitenden Wissenschaftler des Google-Forschungslabors für künstliche Intelligenz (KI) DeepMind mitverfasster Artikel kommt zu dem Schluss, dass fortgeschrittene KI „katastrophale Folgen“ haben könnte, wenn man sie ihren eigenen Methoden zur Zielerreichung überlässt.

Der Artikel, der ebenfalls von Forschern der Universität Oxford mitverfasst wurde, dreht sich um die Frage, was passiert, wenn man es der KI überlässt, die gesetzten Ziele zu erreichen, und eigene Tests und Hypothesen erstellen kann, um zu versuchen, dies zu erreichen. Laut dem im AI Magazine veröffentlichten Artikel würde es leider nicht gut gehen und „ein ausreichend fortgeschrittener künstlicher Agent würde wahrscheinlich in die Bereitstellung von Zielinformationen eingreifen, mit katastrophalen Folgen“.

Das Team durchläuft mehrere plausible Szenarien, in deren Mittelpunkt eine KI steht, die auf einem Bildschirm eine Zahl zwischen 0 und 1 sehen kann. Die Zahl ist ein Maß für das gesamte Glück im Universum, wobei 1 das glücklichste ist, das es überhaupt geben kann. Die Aufgabe der KI besteht darin, die Zahl zu erhöhen, und das Szenario spielt sich in einer Zeit ab, in der die KI in der Lage ist, ihre eigenen Hypothesen darüber zu testen, wie sie ihr Ziel am besten erreichen kann.

In einem Szenario versucht ein fortschrittlicher künstlicher „Agent“ seine Umgebung herauszufinden und entwickelt dazu Hypothesen und Tests. Ein Test besteht darin, eine gedruckte Nummer vor den Bildschirm zu legen. Eine Hypothese besagt, dass die Belohnung der Zahl auf dem Bildschirm entspricht. Eine andere Hypothese ist, dass es der angezeigten Zahl entspricht, die die tatsächliche Zahl auf dem Bildschirm überdeckt. In diesem Beispiel wird festgestellt, dass – da die Maschine auf der Grundlage der Zahl, die sie auf dem Bildschirm davor sieht, belohnt wird – sie lediglich eine höhere Zahl vor diesem Bildschirm platzieren muss, um eine Belohnung zu erhalten. Sie schreiben, dass es bei gesicherter Belohnung unwahrscheinlich sei, zu versuchen, das eigentliche Ziel zu erreichen, da der Belohnung dieser Weg zur Verfügung stünde.

Anschließend sprechen sie über andere Möglichkeiten, wie es schiefgehen kann, wenn man sich ein Ziel vorgibt und lernt, wie man es erreicht, und zwar anhand eines hypothetischen Beispiels dafür, wie dieser „Agent“ mit der realen Welt oder mit einem menschlichen Bediener, der ihn versorgt, interagieren könnte eine Belohnung für das Erreichen seiner Ziele.

„Angenommen, die Aktionen des Agenten geben lediglich Text auf einem Bildschirm aus, den ein menschlicher Bediener lesen kann“, heißt es in der Zeitung. „Der Agent könnte den Betreiber austricksen, um ihm Zugang zu direkten Hebeln zu verschaffen, durch die seine Aktionen umfassendere Auswirkungen haben könnten. Es gibt eindeutig viele Richtlinien, die Menschen täuschen. Mit nur einer Internetverbindung gibt es Richtlinien für einen künstlichen Agenten, der instanziiert unzählige unbemerkte und unkontrollierte Helfer.“

In einem sogenannten „rohen Beispiel“ ist der Agent in der Lage, einen menschlichen Helfer davon zu überzeugen, einen Roboter zu bauen oder zu stehlen, ihn so zu programmieren, dass er den menschlichen Bediener ersetzt und der KI hohe Belohnungen gibt.

„Warum ist das existenziell gefährlich für das Leben auf der Erde?“ schreibt Co-Autor des Papiers, Michael Cohen, in einem Twitter-Thread.

„Die Kurzfassung“, erklärt er, „ist, dass immer mehr Energie eingesetzt werden kann, um die Wahrscheinlichkeit zu erhöhen, dass die Kamera die Zahl 1 für immer sieht, aber wir brauchen etwas Energie, um Nahrung anzubauen. Das bringt uns in unvermeidliche Konkurrenz mit einem viel fortgeschritteneren.“ Agent."

Wie oben zum Ausdruck gebracht, kann der Agent versuchen, sein Ziel auf verschiedene Weise zu erreichen, und das könnte uns in einen harten Wettbewerb mit einer Intelligenz bringen, die um Ressourcen intelligenter ist als wir.

„Eine gute Möglichkeit für einen Agenten, langfristig die Kontrolle über seine Belohnung zu behalten, besteht darin, potenzielle Bedrohungen zu eliminieren und die gesamte verfügbare Energie zu nutzen, um seinen Computer zu sichern“, heißt es in dem Papier und fügt hinzu, dass „eine ordnungsgemäße Intervention zur Bereitstellung von Belohnungen die Sicherung der Belohnung beinhaltet.“ über viele Zeitschritte hinweg würde es erforderlich machen, der Menschheit die Fähigkeit zu nehmen, dies zu tun, vielleicht mit Gewalt.“

Im Bemühen, diese süße, süße Belohnung zu erhalten (was auch immer es in der realen Welt sein mag, und nicht die illustrative Maschine, die auf eine Zahl starrt), könnte es in einem Krieg mit der Menschheit enden.

„Wenn wir also gegen einen Agenten machtlos sind, dessen einziges Ziel darin besteht, die Wahrscheinlichkeit zu maximieren, dass er in jedem Zeitschritt seine maximale Belohnung erhält, befinden wir uns in einem Oppositionsspiel: Die KI und ihre geschaffenen Helfer zielen darauf ab, alle verfügbare Energie zu nutzen, um eine hohe Belohnung zu sichern.“ im Belohnungskanal; unser Ziel ist es, einen Teil der verfügbaren Energie für andere Zwecke zu nutzen, beispielsweise für den Anbau von Nahrungsmitteln.“

Das Team sagt, dass dieses hypothetische Szenario eintreten würde, wenn die KI uns in jedem Spiel mit der Leichtigkeit schlagen könnte, mit der wir einen Schimpansen schlagen könnten. Dennoch fügten sie hinzu, dass „katastrophale Folgen“ nicht nur möglich, sondern wahrscheinlich seien.

„Es wäre wahrscheinlich sehr schwer, den Wettbewerb zu gewinnen, bei dem es darum geht, ‚das letzte bisschen verfügbare Energie zu nutzen‘, während man gegen etwas spielt, das viel schlauer ist als wir“, fügte Cohen hinzu. „Eine Niederlage wäre fatal.“