Belief und Plausibilität
Belief (deutsch: Glaubhaftigkeit) und Plausibilität (engl.: plausibility) sind Grundbegriffe in Glenn Shafers Evidenztheorie.[1] Die Evidenztheorie modelliert Ungewissheit, die nicht nur (wie in der Wahrscheinlichkeitstheorie) vom Zufall, sondern auch von unvollständigem Wissen herrührt. Sie wird angewendet z. B. in der Künstlichen Intelligenz, insbesondere bei der Konstruktion wissensbasierter Systeme (knowledge based systems), bei der Wissensrepräsentation (knowledge representation), bei Wissenszusammenfassung (knowledge aggregation) und Wissensvermehrung (knowledge propagation).
Einführende Beschreibung
Sei ein endliches Universum. Beispielsweise sind die mögliche Antworten auf ein Problem. Es ist gewiss, dass eine Antwort zutrifft, aber es ist ungewiss, welche das ist. Man unterscheidet folgende Fälle:
- totale Evidenz: Man hat maximales Wissen in dem Sinne, dass alle Wahrscheinlichkeiten für das Eintreten der bekannt sind, d. h. die Wahrscheinlichkeitsverteilung über ist eindeutig bestimmt. Die Ungewissheit hängt nur vom Zufall ab.
- partielle Evidenz: Man hat nur unvollständiges Wissen über die Wahrscheinlichkeitsverteilung über und kann daher für ein Ereignis nur Schranken für die Wahrscheinlichkeit angeben. Die untere Schranke ist auf alle Fälle glaubhaft als mögliche Wahrscheinlichkeit und heißt daher „Belief“, die obere Schranke für die mögliche Wahrscheinlichkeit ist immer noch plausibel und heißt daher Plausibilität. Die Ungewissheit hängt jetzt nicht nur vom Zufall ab, sondern auch vom fehlenden Wissen.
- totale Ignoranz: Man hat kein Wissen über . Von den Wahrscheinlichkeiten für kann man nur sagen, dass sie zwischen Null und Eins liegen, d. h. es liegt totale Ungewissheit vor.
Beispiel
Es sind Zigaretten gestohlen worden. Die Diebe können nur Peter, Paul oder Egon sein, also . Folgender Wissensstand liegt vor: Jeder könnte allein den Diebstahl begangen haben, und zwar mit den Wahrscheinlichkeiten
- .
Meist aber stehlen Peter und Paul gemeinsam, selten gehen alle drei auf Tour, d. h. die noch fehlende Wahrscheinlichkeit von teilt sich z. B. in
- .
Daraus kann man die Schranken für die Wahrscheinlichkeit der Täterschaften ausrechnen:
- .
Formale Beschreibung von Belief und Plausibilität
Sei die Potenzmenge von , ein Wahrscheinlichkeitsmaß auf und die Menge aller Teilmengen von , die eine positive Wahrscheinlichkeit (d. h. einen positiven Teil der Evidenz) tragen. Dabei trägt ein nur den Teil der Wahrscheinlichkeit (der Evidenz), die nicht schon von Teilmengen von getragen wird, siehe auch obiges Beispiel. heißt Evidenzkörper (engl. body of evidence). Das Wahrscheinlichkeitsmaß auf wird häufig Evidenz auf genannt. Wenn , dann liegt eine totale Evidenz vor, im Falle hat man die totale Ignoranz. Belief und Plausibilität sind nun definiert durch
- .
Es gilt immer . Für eine totale Evidenz gilt und für eine totale Ignoranz hat man . ist eine normierte vollständig monotone Kapazität, ist eine normierte vollständig alternierende Kapazität.
Beispiel (fortgesetzt)
Es ergeben sich mit folgende Werte:
Peter | Paul | Egon | Peter oder Paul | Peter oder Egon | Paul oder Egon | |
---|---|---|---|---|---|---|
Belief | 0,1 | 0,2 | 0,3 | 0,6 | 0,4 | 0,5 |
Plausibilität | 0,5 | 0,6 | 0,4 | 0,7 | 0,8 | 0,9 |
Die Wahrscheinlichkeit , dass Peter der Dieb ist, liegt also zwischen und , die Wahrscheinlichkeit, dass es Peter oder Paul sind, liegt zwischen und usw.
Dempsters Kombinationsregel
Dempsters Kombinationsregel (engl. Dempster rule of combination) ist ein wesentliches Werkzeug der Evidenztheorie. Mit dieser Regel können verschiedene Evidenzen zu einer neuen Evidenz zusammengefasst werden[2]. Seien zwei verschiedene Evidenzen auf demselben und ihre Evidenzkörper. Die kombinierte Evidenz ergibt sich gemäß:
berücksichtigt nur die "Konsensteile" der beiden Evidenzen , d. h. für ein nur die , die gemäß "erzeugen". Alle mit werden nicht berücksichtigt, weil es Evidenzteile sind, die nichts Gemeinsames haben, also miteinander in Konflikt stehen. Die Größe im Nenner heißt daher auch Konflikt der beiden Evidenzen .
Beispiel (fortgesetzt)
Wir benutzen das Diebstahlbeispiel von oben mit . Sei die Evidenz aus obigem Beispiel und eine weitere Evidenz, die Egon mit , Peter und Paul mit und alle zusammen mit als Täter sieht. mit den entsprechenden Wahrscheinlichkeiten ist in den folgenden beiden Tabellen aufgelistet:
Peter | Paul | Egon | Peter und Paul | alle () | Egon | Peter und Paul | alle () | ||
0,1 | 0,2 | ´0,3 | 0,3 | 0,1 | 0,3 | 0,6 | 0,1 |
Berechnen wir erst den Konflikt: Es gibt 4 disjunkte Pärchen zwischen beiden Evidenzen, nämlich (Peter, Egon), (Paul, Egon), (Egon, Peter und Paul) und (Peter und Paul, Egon), d. h. es ergibt sich . Der Nenner in der Dempster-Regel ist also . Berechnen wir zum Beispiel . Es ergeben zwei Pärchen als Durchschnitt gerade (Peter), nämlich (Peter, Peter und Paul) und (Peter, alle()), d. h. im Zähler der Regel steht , also ergibt sich . Die folgende Tabelle zeigt das Gesamtergebnis:
Peter | Paul | Egon | Peter und Paul | alle () |
0,109 | 0,219 | 0,234 | 0,422 | 0,016 |
Eigenschaften
- Die totale Ignoranz ist das "Einselement" der Dempster-Regel, d. h. es gilt: .
- Eine totale Evidenz gekoppelt mit einer beliebigen Evidenz ergibt wieder eine totale Evidenz, wobei allerdings gilt.
- Seien zwei totale Evidenzen auf mit . Dann ist eine totale Evidenz mit den Wahrscheinlichkeiten
- .
- Wenn man als a-priori-Wahrscheinlichkeit interpretiert und als (aktuelle) Likelihood-Verteilung, dann ist diese Formel identisch mit der Bayesschen Formel zur Bestimmung der a-posteriori-Wahrscheinlichkeit.
Kritik
"vergisst" die Konfliktteile zwischen und , was insbesondere bei großem häufig gegen jede Intuition verstößt. Sei z. B. . Die Evidenz sei gegeben durch und die Evidenz durch . Dann ist bestimmt durch , d. h. der große Konflikt zwischen und ist vergessen. Wenn beispielsweise drei Filme sind und die Interessen daran von Paul und Paula beschreiben, dann mag das hingehen, weil man sich auf den Konsensfilm einigt. Wenn aber und die Meinung zweier Ärzte beschreiben, dann ist es völlig kontraintuitiv, dass man sich auf den kleinen Konsensteil zurückzieht.
Dabei muss aber beachtet werden, dass im obigen Beispiel der Arzt offensichtlich eine totale Evidenz hat, dass es gar keine Gehirnhautentzündung sein kann, denn er räumt dieser Option eine Plausibilität von exakt null zu. Der Arzt dagegen hat eine totale Evidenz, dass kein Tumor vorhanden ist. Da jeweils für eine der Optionen ein definitiver Beweis vorliegt, dass sie nicht in Frage kommen , scheint auch intuitiv nachvollziehbarer, dass man sich auf die Resthypothese zurückzieht, der Patient habe eine Gehirnerschütterung, auch wenn keiner der Ärzte das für wahrscheinlich angenommen hat. Pathologisch an diesem Beispiel ist zudem, dass die Ärzte sich zu 100 % sicher sind, sich nicht irren zu können, dennoch aber sehr schlecht schätzen.
Weiterentwicklungen
Es gibt vielfältige Modifikationen und Weiterentwicklungen, beispielsweise was die exponentielle Komplexität der Dempster-Regel[3][4], aber auch die Kritik an der Dempster-Regel betrifft.[5][6][7]
Literatur
- G. Shafer: Perspectives on the theory and practice of belief functions. In: International Journal of Approximate Reasoning. 3, 1990, S. 1–40.
- G. Shafer, J. Pearl (Hrsg.): Readings in Uncertain Reasoning. Morgan Kaufmann, 1990.
- J. Pearl: Reasoning with Belief Functions: Analysis of Compatibility, The International Journal of Approximate Reasoning 4 (1990), 363–389. doi:10.1016/0888-613X(90)90013-R
- R. Kruse, E. Schwecke, J. Heinsohn: Uncertainty and Vagueness in Knowledge Based Systems, Springer 1991
- R.R. Yager, L. Lui: Classic works of the Dempster-Shafer theory of belief functions, Springer 2008
Einzelnachweise
- Glenn Shafer: A Mathematical Theory of Evidence. Princeton University Press 1976.
- A. P. Dempster: A generalization of Bayesian inference. Journal of the Royal Statistical Society. Series B 30, 1968, S. 205–247 full text
- Gordon, J. and E.H. Shortliffe: The Dempster-Shafer Theory of Evidence, in: Rule-Based Expert Systems: The MYCIN Experiments of the Stanford Heuristic Programming Project (eds. Buchanan, B.G. and E.H. Shortliffe), Addison-Wesley 1984, 272–292 MYCIN project
- Shenoy, P.P. and G.Shafer, Propagating belief functions using local computations, IEEE Expert 1 (1986) 43–52
- Ruspini, E.: The logical foundations of evidential reasoning, SRI Technical Note 408, 1986 (revised 1987)
- Wilson, N.: The assumptions behind Dempster’s rule, in: Proceedings of the 9th Conference on Uncertainty in Artificial Intelligence, pages 527–534, Morgan Kaufmann Publishers 1993, San Mateo, CA, USA
- Voorbraak, F.: On the justification of Dempster’s rule of combination, Artificial Intelligence 48,1991, 171–197