Verteilungsfreie Testverfahren

Eine weitere häufig in der Praxis anzutreffende Variante des Chi²-Tests bildet der Unabhängigkeitstest. Beim Chi²-Unabhängigkeitstest handelt es sich um ein verteilungsfreies Testverfahren zur Überprüfung der (stochastischen) Unabhängigkeit zweier beliebig skalierter Variablen oder Merkmale mittels so genannter Kontingenztabellen. Die Verteilungsfreiheit garantiert, dass der Unabhängigkeitstest stets durchgeführt werden kann, ohne dass die Verteilung der Variablen bzw. Merkmale in der Grundgesamtheit beachtet werden muss. Beim Unabhängigkeitstest wird der Zusammenhang von zwei oder mehr in einer Kreuztabelle beobachteten Variablen überprüft. Als Parameter gehen in den Test das Signifikanzniveau und der Freiheitsgrad ein, der sich aus der Struktur der Kreuztabelle ergibt.

Kontingenztabelle als Ausgangspunkt

Eine Kontingenztabelle, Kontingenztafel oder auch Kreuztabelle ist eine Kombination von zwei Häufigkeitstabellen, die so angeordnet sind, dass jede Zelle in der resultierenden Tabelle eine bestimmte Wertkombination der dargestellten Variablen repräsentiert. Kontingenztabellen bieten damit die Möglichkeit zur gleichzeitigen Beobachtung von mehreren Variablen. Durch die Untersuchung der beobachteten Häufigkeiten können Zusammenhänge zwischen den in Kontingenztabellen dargestellten Variablen identifiziert werden.

 
Praxis-Beispiel

Zur Verdeutlichung soll das Beispiel der fehlerhaften Rechnungen vertieft werden. Bisher gingen wir davon aus, dass in der betrachteten Stichprobe von 1.000 zufällig ausgewählten Lieferantenrechnungen ausschließlich eine Auswertung nach Branchen erfolgte:

 
Unternehmen A B C
Anzahl fehlerhafter Rechnungen 60 51 34

Zusätzlich wollen wir jetzt annehmen, dass neben dem Merkmal "Branche" auch das Merkmal "Land" notiert wurde, sodass festgestellt werden kann, ob ein Lieferant seinen Sitz in Deutschland oder im EU-Ausland hat. In diesem Fall mögen folgende Daten vorliegen:

 
  DE EU Summe Prozent
A   46   14   60   41,4%
B   31   20   51   35,2%
C   19   15   34   23,4%
Summe   96   49 145 100,0%
Prozent 66,2% 33,8% 100,0%  

Ausprägungskombinationen

Die Kreuztabelle für die beiden Merkmale "Branche" und "Land" gibt nun die Häufigkeit der fehlerhaften Rechnungen deutscher Lieferanten der Branche A, der fehlerhaften Rechnungen EU-ausländischer Lieferanten der Branche A usw. an. Es werden also Fallgruppen betrachtet, die durch die Kombination der Merkmalsausprägungen aus den beiden Merkmalen "Branche" und "Land" realisierbar sind. Da das Merkmal Branche drei Ausprägungen besitzt, während das Merkmal "Land" nur zwei Ausprägungen hat, gibt es genau 2 x 3 = 6 Ausprägungskombinationen, die aus der Kreuztabelle ersichtlich sind.

Wählt man eine grafische Darstellung der Ausprägungskombinationen der Kreuztabelle, so bietet sich das Bild in Abb. 3.

Abb. 3:Verteilung fehlerhafter Rechnungen

Die Einträge der Kreuztabelle entstanden als Ergebnis einer Zufallsstichprobe vom Umfang n = 1000, wobei in die Kreuztabelle nur die fehlerhaften Rechnungen eingegangen sind. Folglich kann die Kreuztabelle selbst als Resultat einer Zufallsstichprobe aus der Grundgesamtheit aller fehlerhaften Rechnungen der Periode angesehen werden. Hierbei ist die Grundgesamtheit der fehlerhaften Rechnungen unbekannt, bekannt ist hierbei nur der Stichprobenumfang von m = 145 fehlerhaften Rechnungen, die der unbekannten Grundgesamtheit der fehlerhaften Rechnungen zufällig entnommen wurden.

Auswertung

Bezogen auf das Merkmal "Land" offenbart die Kontingenztabelle, dass rund zwei Drittel der fehlerhaften Rechnungen von Lieferanten aus Deutschland stammen, während der Rest von ausländischen EU-Lieferanten kommt. Betrachtet man die Zellen der Kreuztabelle genauer, so kann man feststellen, dass von den 145 fehlerhaften Rechnungen 46 von deutschen Lieferanten der Branche "A" stammen, während nur 14 fehlerhafte Rechnungen in der Stichprobe auf EU-ausländische Lieferanten der Branche "C" zurückzuführen sind. Für die Variable "Branche" erhält man die bereits bekannten Prozentzahlen.

Randhäufigkeiten

Von besonderer Bedeutung in der Kontingenztabelle sind die Summenzeile und die Summenspalte, da hier die Randhäufigkeiten der beiden Merkmale vermerkt sind. Die Randhäufigkeiten eines Merkmals geben die Gesamthäufigkeit für eine feste Merkmalsausprägung an, unabhängig davon, welche Merkmalsausprägung die andere Variable gerade annimmt. So zeigt in der Kontingenztabelle des Beispiels der Wert 60 in der Summenspalte der ersten Zeile an, dass insgesamt die Branche "A" genau mit 60 fehlerhaften Rechnungen in der Stichprobe vertreten ist, unabhängig davon, aus welchem Land der zugehörige Lieferant gerade stammt. Daher werden die beiden Randhäufigkeiten auch als absolute Häufigkeiten einer Variablen unter Eliminierung des Einflusses der anderen Variablen verstanden. Die Summe der beiden jeweils betrachteten Randhäufigkeiten ergibt wieder die Gesamtzahl der zufällig ausgewählten, fehlerhaften Rechnungen, nämlich m = 145.

Das ist nur ein Ausschnitt aus dem Produkt Controlling Office. Sie wollen mehr?

Anmelden und Beitrag in meinem Produkt lesen


Meistgelesene beiträge