Union-Find-Struktur

Eine Union-Find-Datenstruktur verwaltet die Partition einer Menge. Der abstrakte Datentyp wird durch die Menge der drei Operationen {Union, Find, Make-Set} gebildet. Union-Find-Strukturen dienen zur Verwaltung von Zerlegungen in disjunkte Mengen. Dabei bekommt jede Menge der Zerlegung ein kanonisches Element zugeordnet, welches als Name der Menge dient. Union vereinigt zwei solche Mengen, Find(x) bestimmt das kanonische Element derjenigen Menge, die x enthält, und Make-Set erzeugt eine Elementarmenge {x} mit dem kanonischen Element x.

Definition

Eine endliche Menge $S$ sei in die disjunkten Klassen $X_{i}$ partitioniert:

S=X_{0}\uplus X_{1}\uplus X_{2}\uplus \ldots \uplus X_{k}

mit

X_{i}\cap X_{j}=\varnothing \quad \forall i,j\in \lbrace 0,1,\ldots ,k\rbrace ,i\neq j

.

Zu jeder Klasse $X_{i}$ wird ein Repräsentant $r_{i}\in X_{i}$ ausgewählt. Die zugehörige Union-Find-Struktur unterstützt die folgenden Operationen effizient:

Init( $S$ ): Initialisiert die Struktur und bildet für jedes $x\in S$ eine eigene Klasse mit $x$ als Repräsentant.
Union( $r$ , $s$ ): Vereinigt die beiden Klassen, die zu den beiden Repräsentanten $r$ und $s$ gehören, und bestimmt $r$ zum neuen Repräsentanten der neuen Klasse.
Find( $x$ ): Bestimmt zu $x\in S$ den eindeutigen Repräsentanten, zu dessen Klasse $x$ gehört.

Implementierung

Eine triviale Implementierung speichert die Zugehörigkeiten zwischen den Elementen aus $S$ und den Repräsentanten $r_{i}$ in einem Array. Für kürzere Laufzeiten werden jedoch in der Praxis Mengen von Bäumen verwendet. Dabei werden die Repräsentanten in den Wurzeln der Bäume gespeichert, die anderen Elemente der jeweiligen Klasse in den Knoten darunter.

Union( $x$ , $y$ ): Hängt die Wurzel des niedrigeren Baumes als neues Kind unter die Wurzel des höheren Baumes (gewichtete Vereinigung). Falls nun $x$ Kind von $y$ ist, werden $x$ und $y$ vertauscht.
Find( $x$ ): Wandert vom Knoten $x$ aus den Pfad innerhalb des Baumes nach oben bis zur Wurzel und gibt diese als Ergebnis zurück.

Heuristiken

Um die Operationen Find und Union zu beschleunigen, gibt es die Heuristiken union by size, union by rank (Rang- und Größenheuristik) und Pfadkompression, wobei sich union by size und union by rank gegenseitig ausschließen und union by rank oft in Kombination mit Pfadkompression verwendet wird.

Union by size

Bei der Operation Union(r,s) wird der Baum, der in Summe weniger Knoten hat, sprich kleiner ist, unter den größeren Baum gehängt. Damit verhindert man, dass einzelne Teilbäume zu Listen entarten können wie bei der naiven Implementation (r wird in jedem Fall Wurzel des neuen Teilbaums). Die Tiefe eines Teilbaums T kann damit nicht größer als $\log \left|T\right|$ werden. Mit dieser Heuristik verringert sich die Worst-Case-Laufzeit von Find von $O(n)$ auf $O(\log n)$ . Für eine effiziente Implementation führt man bei jeder Wurzel die Anzahl der Elemente im Teilbaum mit.

Union by rank

Wird ausschließlich die Heuristik union by rank verwendet, entspricht der Rang (rank) einer Wurzel der Höhe ihres Unterbaumes. Es wird stets der Baum mit dem niedrigeren Rang dem mit dem höheren angehängt. Bei gleichem Rang kann die Verkettung der Bäume beliebig gewählt werden. Somit kann der Rang eines Knoten nur wachsen, wenn zwei Bäume des gleichen Rangs aneinander gehängt werden.

Daraus folgt insbesondere:

Knoten ohne Kinder haben den Rang 0
Wenn die zu kombinierenden Bäume den gleichen Rang haben, ist der Rang der resultierenden Baumes um 1 größer

Man kann zur weiteren Effizienzsteigerung union by rank in Kombination mit Pfadkompression verwenden. In diesem Fall wird deutlich, weshalb die Bezeichnung des Rangs anstelle der der Tiefe verwendet wird: Die Pfadkompression verringert die Höhe von Bäumen, während ihr Rang bestehen bleibt. Siehe auch Pfadkompression.[1][2]

Pseudocode

function Union(x, y)
{
    // Knoten durch die Wurzeln des Baums ersetzen
    x = Find(x);
    y = Find(y);
    if (x = y) // Wenn x und y schon zur selben Menge gehören, wird die Funktion verlassen
    {
        return;
    }
    if (x.rank < y.rank) // Wenn der Rang von x kleiner als der Rang von y ist, wird y zur neuen Wurzel
    {
        x.parent = y;
    }
    else if (x.rank > y.rank) // Wenn der Rang von x größer als der Rang von y ist, wird x zur neuen Wurzel
    {
        y.parent = x;
    }
    else // Wenn die Ränge gleich sind, wird y zur neuen Wurzel und der Rang von y inkrementiert
    {
        x.parent = y;
        y.rank = y.rank + 1;
    }
}

Pfadkompression

Um spätere Find(x)-Suchvorgänge zu beschleunigen, versucht man die Wege vom besuchten Knoten zur zugehörigen Wurzel zu verkürzen.

Maximale Verkürzung (Wegkompression)

Nach dem Ausführen von Find(x) werden alle Knoten auf dem Pfad von x zur Wurzel direkt unter die Wurzel gesetzt. Man beachte hierbei, dass die Operation Union(x,y) die Operation Find(x) verwendet. Dieses Verfahren bringt im Vergleich zu den beiden folgenden den größten Kostenvorteil für nachfolgende Aufrufe von Find für einen Knoten im gleichen Teilbaum. Zwar muss dabei jeder Knoten auf dem Pfad zwischen Wurzel und x zweimal betrachtet werden, für die asymptotische Laufzeit ist das jedoch egal.

Pseudocode

function Find(x)
{
    if (x.parent ≠ x)
    {
        x.parent = Find(x.parent);
        return x.parent;
    }
    else
    {
        return x;
    }
}

Aufteilungsmethode (splitting)

Während des Durchlaufes lässt man jeden Knoten auf seinen bisherigen Großvater zeigen, falls vorhanden. Damit wird ein durchlaufender Pfad in zwei der halben Länge zerlegt.

Halbierungsmethode (halving)

Während des Durchlaufes lässt man jeden zweiten Knoten auf seinen bisherigen Großvater zeigen.

Diese Methoden haben beide dieselben amortisierten Kosten wie die oberste Kompressionsmethode (Knoten unter die Wurzel schreiben). Alle Kompressionsmethoden beschleunigen zukünftige Find(x)-Operationen.

Laufzeiten

Union-Find-Datenstrukturen ermöglichen die Ausführung der obigen Operationen mit den folgenden Laufzeiten ( $n=\left|S\right|$ ):

Triviale Implementierung mit einem Array A (A[i] = x: Knoten i liegt in der Menge x), worst-case: Find $O(1)$ , Union: $O(n)$

Implementierung mit Bäumen:

ohne Heuristiken: Find $O(n)$ , Union $O(n)$
mit Union-By-Size, worst-case: Find $O(\log(n))$ , Union $O(1)$
mit Union-By-Size, Pfadkompression, worst-case: Find $O(\log(n))$ , Union $O(1)$
mit Union-By-Size, Pfadkompression, Folge von m Find- und n-1 Union-Operationen: $O\left(n+m\cdot \alpha (n)\right)$

Dabei ist $\alpha (n)$ die Umkehrfunktion der Ackermannfunktion $A(n,n)$ . Sie wächst sehr langsam und ist für alle „praktischen“ Eingaben ( $n<10^{80}$ ) kleiner als 5. Im Jahr 1977 hat Robert Tarjan gezeigt, dass für eine Sequenz m Find- und n-1 Union-Operationen jede Datenstruktur im Pointer-Maschinen Modell eine Laufzeit von $\Omega \left(n+m\cdot \alpha (n)\right)$ benötigt.[3] Fredman und Saks haben 1989 gezeigt, dass diese untere Schranke auch im allgemeineren Cell-Probe Modell gilt.[4] Daraus folgt, dass die Datenstruktur mit Union-By-Size und Pfadkompression eine asymptotisch optimale Laufzeit besitzt, und es keine Union-Find-Datenstruktur geben kann, die sowohl Find als auch Union amortisiert in O(1) ausführt.

Anwendungen

Union-Find-Strukturen eignen sich gut, um Zusammenhangskomponenten von Graphen zu verwalten.

Union-Find-Strukturen können auch genutzt werden, um effizient herauszufinden, ob ein Graph Zyklen enthält.

Das folgende Computerprogramm in der Programmiersprache C++ zeigt die Implementierung eines ungerichteten Graphen mit einem Array von Kanten. Der ungerichtete Graph wird als Datentyp UndirectedGraph deklariert. Bei der Ausführung des Programms wird die Methode main verwendet, das auf der Konsole ausgibt, ob der gegebene Graph Zyklen enthält. Die Funktion unionSubsets verwendet union by rank, um zwei Teilmengen von Kanten des Graphen zu vereinigen.[5]

#include <iostream>
using namespace std;

// Deklariert den Datentyp für die Kanten des Graphen
struct Edge
{
    int startIndex, endIndex;
};

// Deklariert den Datentyp für den ungerichteten Graphen
struct UndirectedGraph
{
    int numberOfVertices, numberOfEdges;
    Edge* edges; // Pointer auf das Array für die Kanten
};

// Deklariert den Datentyp für Teilmengen der Kantenmenge des ungerichteten Graphen
struct subset
{
    int parent;
    int rank;
};

// Diese Funktion erzeugt einen ungerichteten Graphen
struct UndirectedGraph* createGraph(int numberOfVertices, int numberOfEdges)
{
    struct UndirectedGraph* undirectedGraph = new UndirectedGraph();
    undirectedGraph->numberOfVertices = numberOfVertices;
    undirectedGraph->numberOfEdges = numberOfEdges;
    undirectedGraph->edges = new Edge[numberOfEdges];
    return undirectedGraph;
}

// Diese rekursive Funktion gibt den Index der Wurzel der Teilmenge mit dem Index i zurück
int find(subset subsets[], int i)
{
    // Setzt Index der Wurzel auf den Index der Wurzel der Teilmenge mit dem Index i
    if (subsets[i].parent != i)
    {
        subsets[i].parent = find(subsets, subsets[i].parent); // Rekursiver Aufruf der Funktion
    }
    return subsets[i].parent;
}

// Diese Methode bildet die Vereinigungsmenge der zwei Teilmengen mit den Indexen index1 und index2
void unionSubsets(subset subsets[], int index1, int index2)
{
    int newIndex1 = find(subsets, index1); // Index der Teilmenge mit dem Index index1
    int newIndex2 = find(subsets, index2); // Index der Teilmenge mit dem Index index2
     // Hängt den Teilbaum mit dem niedrigeren Rang unter die Wurzel des Baums mit dem höheren Rang
    if (subsets[newIndex1].rank < subsets[newIndex2].rank)
    {
        subsets[newIndex1].parent = newIndex2;
    }
    else if (subsets[newIndex1].rank > subsets[newIndex2].rank)
    {
        subsets[newIndex2].parent = newIndex1;
    }
    else // Wenn die Teilbäume denselben Rang haben, wird der Rang des einen Baums erhöht und der andere Baum unter die Wurzel des anderen Baums gehängt
    {
        subsets[newIndex2].parent = newIndex1;
        subsets[newIndex1].rank++;
    }
}

// Diese Methode prüft, ob der Graph Zyklen enthält
bool containsCycle(struct UndirectedGraph* graph)
{
    int numberOfVertices = graph->numberOfVertices;
    int numberOfEdges = graph->numberOfEdges;
    Edge* edges = graph->edges; // Pointer auf das Array für die Kanten
    subset* subsets = new subset[numberOfVertices]; // Deklariert ein Array für die Teilmengen der Kantenmenge
    for (int i = 0; i < numberOfVertices; i++) // for-Schleife, die Teilmengen mit einzelnen Kanten erzeugt
    {
        subsets[i].parent = i;
        subsets[i].rank = 0;
    }
    for (int i = 0; i < numberOfEdges; i++) // foreach-Schleife, die alle Kanten durchläuft
    {
        Edge nextEdge = edges[i++]; // Weist die verbleibende Kante mit dem kleinsten Kantengewicht zu und erhöht den Kantenindex für die nächste Iteration um 1
        int index1 = find(subsets, nextEdge.startIndex); // Index der Wurzel der Teilmenge mit dem Index nextEdge.startIndex
        int index2 = find(subsets, nextEdge.endIndex); // Index der Wurzel der Teilmenge mit dem Index nextEdge.endIndex
        if (index1 == index2) // Wenn die Indexe der Wurzeln, also auch die Mengen übereinstimmen, enthält der Graph einen Zyklus
        {
            return true;
        }
        unionSubsets(subsets, index1, index2);
    }
    return false;
}

// Hauptfunktion die das Programm ausführt
int main()
{
    int numberOfVertices = 3;
    int numberOfEdges = 3;

    // Erzeugt den ungerichteten Graphen mit den gegebenen Kanten
    struct UndirectedGraph* undirectedGraph = createGraph(numberOfVertices, numberOfEdges);
    // Initialisiert das Array mit 3 Kanten
    Edge* edges = undirectedGraph->edges;
    edges[0].startIndex = 0;
    edges[0].endIndex = 1;
    edges[1].startIndex = 1;
    edges[1].endIndex = 2;
    edges[2].startIndex = 0;
    edges[2].endIndex = 2;
    if (containsCycle(undirectedGraph)) // Aufruf der Methode
    {
        cout << "Der Graph enthält Zyklen." << endl; // Ausgabe auf der Konsole
    }
    else
    {
        cout << "Der Graph enthält keine Zyklen." << endl; // Ausgabe auf der Konsole
    }
}

Der Algorithmus von Kruskal erfordert beispielsweise eine solche Datenstruktur, um effizient implementiert werden zu können.

Weblinks

Demonstration von Union-Find (Java-Applet)

Einzelnachweise

algorithms.tutorialhorizon.com: Disjoint Set | Union-Find Algorithm – Union by rank and path compression
mathblog.dk: Disjoint-set data structure
Robert E. Tarjan: A class of algorithms which require nonlinear time to maintain disjoint sets. In: Journal of Computer and System Sciences. 18, Nr. 2, 1979, S. 110–127. doi:10.1016/0022-0000(79)90042-4.
M. Fredman, M. Saks: The cell probe complexity of dynamic data structures. In: Proceedings of the Twenty-First Annual ACM Symposium on Theory of Computing., S. 345–354. doi:10.1145/73007.73040
GeeksforGeeks: Union-Find Algorithm | Set 2 (Union By Rank and Path Compression)

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. The authors of the article are listed here. Additional terms may apply for the media files, click on images to show image meta data.

[1] rithms.tutorialhorizon.com: Disjoint Set | Union-Find Algorithm – Union by rank and path compression

[2] thblog.dk: Disjoint-set data structure

[3] Robert E. Tarjan: A class of algorithms which require nonlinear time to maintain disjoint sets. In: Journal of Computer and System Sciences. 18, Nr. 2, 1979, S. 110–127. doi:10.1016/0022-0000(79)90042-4.

[4] M. Fredman, M. Saks: The cell probe complexity of dynamic data structures. In: Proceedings of the Twenty-First Annual ACM Symposium on Theory of Computing., S. 345–354. doi:10.1145/73007.73040

[5] GeeksforGeeks: Union-Find Algorithm | Set 2 (Union By Rank and Path Compression)