Sind Blindtests zum Testen von Audiogeräten geeignet? (2005)

Blindtests (oder auch Doppel-Blindtests) werden gerne von einigen als ultima ratio bei der Beurteilung klanglicher Eigenschaften von Audio-Komponenten angeführt. Wenn diese richtig und unter Beachtung verschiedenster Kriterien durchgeführt werden, wird dem zunächst niemand ernsthaft widersprechen wollen.
Allerdings herrschen noch weit verbreitet Missverständnisse, ab wann ein "Blindtest" wirklich als ein Blindtest anzusehen ist.
Zudem gibt es eine offensichtliche Diskrepanz zwischen vielen Ergebnissen dieser Tests (wenn sie denn diesen Namen wirklich verdienen) und den in der täglichen Hörpraxis von Musikliebhabern überall auf der Welt gemachten Erfahrungen.
Um ein Mißverständnis von vornherein auszuschalten: Die Bedeutsamkeit von Blindtests bei spezieller wissenschaftlicher Erkenntnisgewinnung (oder bei Weinproben ;-)) soll hier überhaupt nicht in Frage gestellt werden. Vielmehr soll die oft vorgebrachte Forderung nach Anwendung socher Tests bei der gehörmäßigen Auswahl von Audio-Komponenten für den Heimgebrauch seitens der Endverbraucher kritisch hinterfragt werden.

Zunächst sei vorangestellt, dass auch wir (TMR) nach fast dreißig Jahren Tätigkeit in der Entwicklung von Audio-Komponenten (Lautsprecher, Verstärker, Netzentstörung, NF-Verbindungen) trotz mehrfacher Anläufe die Verwendung von Blindtests während der Entwicklung als unproduktiv und daher als Zeitverschwendung verworfen haben.
Natürlich werden z.B. zwei technisch gleichberechtigte Schaltungsvarianten auch mal "blind" miteinander verglichen, um sich dann geschmacksmäßig für die anscheinend "bessere" zu entscheiden, aber das ist deshalb noch lange kein Blindtest im eigentlichen Sinne des Wortes.
Uns ist auch kein professionell mit Höreindrücken befaßter Arbeitsbereich (sei es im Studio oder im Musikinstrumentenbau) oder auch andere mit Audio-Entwicklung befaßte Firmen bekannt, wo man den Einsatz von ernsthaften Blindtests für zwingend notwendig erachten würde.
Jemand, der wirklich Kenntnis und Erfahrung der Dinge, die er entwickelt, hat, benötigt so etwas nicht (wenn man davon ausgeht, daß ein Audio-Entwickler nicht jedes Mal bei einer Neuentwicklung an physikalische bzw. psychoakustische Grenzbereiche stößt ;-) ).
Die Wahl und Beurteilung von Audio-Komponenten seitens der Endverbraucher findet zwangsläufig nach rein subjektiven Gesichtspunkten statt. Ziel ist letztendlich die persönliche Zufriedenheit, die durchaus bei jedem Hörer anders ausfallen kann.
Warum sollte also ausgerechnet hier ein Blindtest notwendig sein? Dient er wirklich dem genannten Zweck? Kann er wirklich das gewünschte subjektiv-objektive Ergebnis liefern, bzw. alle klanglich relevanten Aspekte abdecken?

Ein richtig durchgeführter (Doppel-)Blindtest ist eine sehr aufwendige Angelegenheit, bedarf einer größeren Zahl von vorab ausgesuchten Hörern und muß statistisch sehr genau begleitet werden. Ein ernsthafter Test kann sich leicht über eine Woche hinziehen. Für eine relevante Aussage wird eine Trefferquote von ca. 90% benötigt. Übliche Blindtests im Audio-Bereich erreichen ca. 50% Trefferquote und daher sind die Ergebnisse als quasi zufallsbedingt anzusehen.
Wenn jemand also behauptet, er hätte außerhalb eines wissenschaftlichen Kontexts einen ernsthaften Blindtest erfolgreich durchgeführt, so ist es durchaus legitim, hier von vornherein Zweifel anzumelden.

Blindtests in unserem Zusammenhang sind daher nicht wirklich relevant, sind nicht mehr als ein theoretisches Postulat und spielen in der realen Welt bei der Entscheidungsfindung auch folglich so gut wie keine Rolle. Sie werden aber gerne in Diskussionen (speziell Usenet und Internet) thematisiert und als Messlatte für klangliche Unterschiede zumindest verbal benutzt.
Meistens hat aber hier die Frage nach durchgeführten Blindtests eher argumentativen Totschlagcharakter, um Hörerfahrungen Andersdenkender zu desavouieren.
In diesem Zusammenhang wird dann oftmals zwar hämisch, aber in völliger Verkennung logischer Zusammenhänge eine Begebenheit kolportiert, bei dem angeblich bei einem Blindtest Hörer verschiedene Kabel identifiziert haben, obwohl während des Test immer nur das gleiche Kabel benutzt wurde. Wahrheitsgehalt hin oder her, auf jeden Fall zeigt auch diese Anekdote überdeutlich, daß Blindtests eigentlich zum Test von Audiokomponenten völlig ungeeignet sind.

Daher sollte es zunächst einmal die Frage erlaubt sein, ob überhaupt jemals in einem sachgemäß ausgeführten und allseits anerkannten Blindtest (bzw. Doppelblindtest) eindeutige Unterschiede zwischen fehlerfrei konstruierten und installierten Audio-Komponenten (gleich welcher Art, aber immer auf jeweils technisch vergleichbarem Niveau, Lautsprecherboxen einmal ausgenommen) festgestellt wurden?
Auf deutsch: Ist der Blindtest überhaupt ein taugliches Mittel für diesen Zweck?
Die Beantwortung dieser Frage dürfte die Anhänger von Blindtests bei Audiokomponenten in nicht unerhebliche Schwierigkeiten bringen.

Wenn nämlich bislang immer behauptet wurde, daß vorher postulierte Klangunterschiede in der Regel bei Audiokomponenten durch Blindtests nicht verifiziert werden konnten, also es demnach auch keine klanglichen Unterschiede geben dürfte, so lässt sich genau aus dieser Tatsache eine andere, zumindest gleichberechtigte Folgerung ziehen, nämlich die, daß Blindtests für die praktische Feststellung von Klangunterschieden von Audiokomponenten anscheinend ungeeignet sind.

Mit nachfolgenden Erörterungen wollen wir diese Problematik ein wenig beleuchten und unseren eigenen kritischen Standpunkt zu einigen Aspekten vortragen.
Tiefergehende psychoakustischen Aspekte bei der Durchführung von Blindtests müssen unberücksichtigt bleiben, ebenso wie Fragen der Testmethodik, statistischen Auswertung sowie vorangehende Eignungstests der Probanden.

Zur Psychoakustik sei nur soviel angemerkt, daß es nach Stand der heutigen Erkenntnis für das neuronale System garnicht so einfach ist, verschiedene kurz aufeinanderfolgende akustische fast gleichartige Ereignisse, wie es bei einem üblichen Blindtest üblich ist, voneinander zu unterscheiden.
Das neuronale System arbeitet nach dem Prinzip des "minimalen Aufwandes":
In dem Erkenntnisprozeß musikalischer (oder anderer sensorischer) Botschaften legt das System zunächst alles beiseite bis auf ein bestimmtes Minimum an Informationshinweisen. Wenn die Erkennung erfolgreich war, wendet sich das System der nächsten Botschaft zu. Wenn nicht, greift es auf das Kurzzeitgedächtnis zurück und sucht nach zusätzlichen Hinweisen. Das gilt nicht nur für Einzeltöne, sondern auch für die musikalische Botschaft als Ganzes:

Das Nervensystem versucht, jede von früheren Erfahrungen her vorhandene Information (d.h. im Langzeitgedächtnis gespeicherte Botschaften) zu benutzen, um den Erkennungsprozeß neu herankommender Information zu beschleunigen und, wenn möglich vorherzusagen.

Diese neuronale Verarbeitungsstrategie ist bei der Sprachwahrnehmung gut bekannt und kann u.a. auf einen natürlich Zusammenhang zwischen Musik und Sprache hindeuten.
(Quelle: Juan G. Roederer, Physikalische und psychoakustische Grundlagen der Musik, Springer-Verlag, 2000, ISBN 3-540-61370-6)

Wir wollen uns daher hier nur auf ein paar herausgegriffene Aspekte anderer Art beschränken, die aber jeder für sich schon geeignet ist, Zweifel an der sinnvollen Durchführung dieser Tests aufkommen zu lassen.

Probleme bei der Vorbereitung eines Blindtests

Unbestritten ist natürlich, daß die optische Anmutung des zu testenden Geräts und die markenspezifische Erwartungshaltung seitens des Hörers eine große Rolle spielt - das Auge hört mit.
Daher ist der Grundgedanke und die Intention bei Blindtests von Audiogeräten, nämlich den Hörer im Unklaren zu lassen, welches Gerät er gerade hört, zumindest, wenn es um klangliche Aspekte geht, durchaus nachvollziehbar.
Ohne Zweifel kann man sich, je nach Bedarf, Geräte "schön" oder "schlecht" hören. Die vorherrschende Grundstimmung (inkl. Geldbeutelinhalt) des Probanden bestimmt in hohem Maße das Ergebnis. Kommentare von Mithörern oder Verkäufern können ebenfalls das Ergebnis beeinflussen.
Grundsätzlich sind die bei Blindtests zu erwartenden Unterschiede abhängig von der Art der zu testenden Komponente und bei nichtpathologischen Konstruktionen meistens mehr im Nuancenbereich als im Grobdynamik- und Grobfärbungsbereich zu finden.
Die Unterschiede sind also nicht "weltbewegend", sondern eher subtil. (Daß diesem Umstand oft nicht im angemessenem Maße bei der verbalen Beschreibung der klanglichen Unterschiede Rechnung getragen wird, ja, hier sogar häufig übertrieben wird, ist ein anderes Thema und hängt mehr mit dem unzureichenden zur Verfügung stehenden Vokabular der Testhörer zusammen.)
Daher erfordert die Durchführung von aussagefähigen Test eine sehr gute und möglichst "neutrale" Wiedergabekette sowie einen Raum mit sehr guten "neutralen" akustischen Eigenschaften.
Vor die Anlage gehört ein akustisch durchlässiger, aber optisch undurchlässiger Vorhang.
Diese Voraussetzungen werden in der Praxis (falls es so etwas überhaupt gibt) bei Nichtprofis (dazu zählen erfahrungsgemäß leider auch viele Fachhändler) fast nirgendwo erfüllt.

Sweet spot

Die Größe des "sweet spots" bestimmt die Anzahl der Hörer, die gleichzeitig unter gleichen Voraussetzungen hören können. Das werden in aller Regel nur ein bis zwei Hörer sein.
Sind es aber gleichzeitig mehr Zuhörer als der "sweet spot" es prinzipiell zuläßt, darf man das Ergebnis dieses Hörtests zumindest mit einem Fragezeichen versehen.

Ein Blindtest in unserem speziellen Fall wird durchgeführt, indem verschiedene gleichartige Komponenten zeitlich hintereinander in einer Audiokette einem Zuhörerkreis vorgeführt werden, ohne daß dieser weiß, um welche Komponente speziell es sich jeweils dabei handelt.

Umschaltzeit

"Zeitlich hintereinander" kann 20 Sekunden oder 10 Minuten bedeuten, wobei die Zeitdauer in jedem Fall ebenfalls Anlass zu jeweils durchaus berechtigter Kritik und Diskussionen bieten kann - bis hin zur Infragestellung des gesamten Tests. Ein gut durchgeführter Test sollte dem Probanden die Wahl des Umschaltzeitpunktes und die Umschaltdauer möglichst selbst überlassen. Tests, die die Probanden in ein feststehendes Zeitraster zwängen, erzeugen Streß und damit bestenfalls ungenaue Ergebnisse. Der Testleiter muß sich natürlich jeden Kommentars enthalten oder, wie im Falle des Doppelblindtest, ebenfalls über die Testfolge im unklaren gelassen werden.

Gleicher Wiedergabepegel

Grundvoraussetzung bei abwechselnden Komponenten muß natürlich ein konstanter (d.h. bei allen zu testenden Komponenten gleichartiger) Wiedergabepegel sein.
Das ist schon die erste ernsthafte technische Hürde bei Ausrichtung eines Blindtests. Eine Pegelanpassung ist in der Praxis nicht trivial und erfordert massive elektrische Eingriffe in die Anlagenkonfiguration sowie ein Minimum an Mess-Equipment plus zugehöriger Erfahrung bei der Bedienung.
Man stelle sich beispielsweise einen Endverstärkertest vor. Hier müssen Quellen umgeschaltet und eventuell angepasst werden, während gleichzeitig die Lautsprecherboxen umgeschaltet werden müssen. Ohne externe zusätzliche Gerätschaften, die zumal von sehr hoher Qualität sein müssen, ist das nicht zu schaffen. Wer hat schon solche Geräte zur Verfügung?
Sollen Lautsprecherboxen blind getestet werden, stellt sich sofort die Frage der gleichberechtigten Aufstellung im Raum.
In der Industrie sind aufwendige Abhörräume bekannt geworden, bei denen die verschiedenen Lautsprecherpaare karussellartig jeweils an die gleiche Position gesetzt werden. So etwas ist in unserem Fall natürlich für einen Normalanwender undenkbar.
Auch die Einmessung wirft Probleme auf. Unterschiedliches Abstrahlverhalten kann trotz gleichem Pegel am Messplatz zu unterschiedlichem Gesamtlautheitseindruck führen und so das eigentlich zu verhindernde Identifizieren erleichtern, bzw. einen Lautsprechertyp bevorzugen oder benachteiligen helfen.

Höreindruck und Messtechnik

Verstärker, CD-Player (Laufwerk und DA-Wandler) und Leitungen unterscheiden sich bei nichtpathologischen Konstruktionen in ihren allgemein zugänglichen technischen Parametern so gut wie immer erst weit außerhalb des Hörbereiches (Bandbreite) bzw. weit unterhalb der Hörschwelle (Klirrfaktor), wenn wir bei Hörbereich und -schwelle den heutigen Stand der Erkenntnis zugrunde legen.
Kann man also daraus folgern, daß Geräte, die sich meßtechnisch im relevantem Hörbereich so gut wie gar nicht unterscheiden, alle also gleich klingen? Dem widerspricht die Erfahrung. Das Thema "Meßwerte als Auswahlkriterium" bei diesen Geräten kann schon seit Jahren als irrelevant zu den Akten gelegt werden.
Ähnlich sieht es bei Lautsprecher- und NF-Leitungen aus.
Bei nichtpathologischen Konstruktionen liegen alle Leitungsparameter elektrisch weit außerhalb jeglichen Einflusses auf den Hörbereich, wenn man von "normalen" und quasi-normgerechten Ein- und Ausgangsimpedanzen der angeschlossenen Geräte ausgehen kann.
Beim Lautsprecherkabel spielt zwar theoretisch der Leitungswiderstand zusammen mit dem Innenwiderstand der Endstufe u.a. eine Rolle bei der erzielbaren Dämpfung des Tieftöners. Übliche Querschnitte sind aber in der Praxis in dieser Hinsicht unproblematisch, bzw. das klangliche Resultat im Tieftonbereich ist in dieser Hinsicht meistens eher raumabhängig.
Selbst vorher vorgeblich deutliche Klangunterschiede sind häufig während eines Blindtests nicht mehr nachvollziehbar oder es sind eben Unterschiede da, wo eigentlich keine sein dürften.
Nach unserer Erfahrung versagt so gut wie jeder Proband bei einem Blindtest, wenn es um mehr als zwei zu vergleichende Objekte geht, unabhängig vom getestetem Gerät und der persönlichen Hörbildung. Für z.B. eine anstehende Audio-Entwicklung ist das eine ungenügende Grundlage und kein Audio-Entwickler wird sich daher auf die sehr zweifelhaften Ergebnisse eines Blindtests verlassen wollen.
Grundsätzlich kann man der Meinung sein, dass die meisten Klangunterschiede auch meßbar sein müßten, aber dazu müßten zunächst erst entsprechende Meßverfahren entwickelt werden.
Die Natur gibt nur richtige Antworten, wenn die Fragen richtig gestellt werden. Die meisten Meßverfahren sind vermutlich heute noch zu statisch angelegt. Selbst heute bekannte und unstrittige akustische Phänomene lassen sich nur schwer messtechnisch erfassen und mit dem Höreindruck korrelieren.
Mit mittels Sinustönen, Rauschen oder Dirac-Impulsen durchgeführten Übertragungsanalysen wird man subtilen Klangunterschieden meßtechnisch kaum auf die Spur kommen, höchstens vielleicht mit genau definierten komplexeren Impulsfolgen, wobei die Herstellung einer Korrelation zwischen Hören und Messen dadurch auch nicht einfacher wird. Aber das nur nebenbei.

Beurteilung von Lästigkeit

Ein ganz wichtiger Punkt bei der Beurteilung von Audio-Komponenten, der bei Durchführung von üblichen Blindtests völlig außen vor gelassen wird, ist das Phänomen der "Lästigkeit".
Eine Komponente erzeugt nach längerem Hören aufgrund spezifischer Verfärbungen und Verzerrungen ein Gefühl der Lästigkeit, das sich durch Unlust zum Weiterhören und Ermüdungserscheinungen beim Hörer bemerkbar macht. Der Hörer hat das Gefühl: "Irgendwas stimmt hier nicht."
Dieses Gefühl ist vermutlich der Hauptgrund für den Wunsch nach Wechsel einer Komponente. Dieses Gefühl der Lästigkeit muß kumulieren, d.h. hier ist eine längere Hörperiode nötig, damit dieser Punkt zum Tragen kommt und berücksichtigt werden kann.
Daher ist bei der endgültigen Bewertung einer Komponente ein Langzeittest unabdingbar.

Es bringt überhaupt nichts, sich durch einen Blindtest, der in der Regel sowieso ohne konkretes Ergebnis ausfällt, vielleicht bestätigen zu lassen, daß eigentlich keine Klangunterschiede vorhanden sind und demnach kein Grund zur Klage besteht, während man dann in der täglichen Hörpraxis dauernd mit dem besagten Gefühl der Lästigkeit konfrontiert wird.

Probleme bei der Durchführung eines Blindtests

Setzen wir einmal voraus, daß Pegelunterschiede aufgrund technischer Vorsichtsmaßnahmen keine Rolle spielen, daß Raum und Anlage auf höchstem Niveau spielen, dass keine externen Einflüsse gleich welcher Art das Ergebnis beeinflussen können - kurz, daß eine technische einwandfreie Durchführung des Blindtests gewährleistet ist.
Unklar ist anfangs noch die Zielsetzung des Tests bzw. die Aufgabe der Hörer: Sollen

a. anhand von Musikbeispielen Geräte zugeordnet werden oder
b. anhand von Musikbeispielen eine qualitative Bewertung der Geräte vorgenommen werden (Präferenztest).

Das hört sich zwar ähnlich in der Aussage an, bedingt aber einen Unterschied in der Art und Weise, wie man an einen Test herangeht.

Punkt a hieße z.B.: "Wer kann diese Geräte unterscheiden?".
Punkt b hieße z.B.: "Welche Musikwiedergabe gefällt mir am besten?".
Wer eine gute Musikwiedergabeanlage besitzt, weiß, daß z.B. schon auf einer einzigen CD eines Interpreten die einzelnen Tracks durchaus in allen Belangen unterschiedlich abgemischt sein können.
Das bedeutet in der Praxis, daß es fast unmöglich ist, "neutrale" Quellen zu benutzen.
Letztendlich weiß niemand wirklich, wie etwas zu klingen hat, da ja schon im Studio beim Abmischen für den Endverbraucher unbekannte Lautstärken benutzt und dann dieser Hörsituation entsprechend Frequenzgangänderungen gemacht werden.
Weiterhin dürfte bekannt sei, daß bei der Kombination von Audio-Komponenten bestimmte Synergie-Effekte auftreten, bzw. auch gezielt eingesetzt werden (Stichwort: Kompensation von Klangeigenschaften).
Das ist schon bei der Ausrichtung von "normalen" Hörtests ein heikles, wenn auch lösbares Problem, das allerdings bei einem Blindtest zu einem prinzipiell unlösbarem Problem wird.
Bei vielen vergleichenden Hörtests kann es gar nicht um das Herausfinden der objektiv (falls so etwas überhaupt möglich ist) besten Komponente gehen, sondern eher um das Herausfinden der Komponente, die am besten mit der Restanlage harmoniert. Bei einem Blindtest wird durch das Zusammenwirken von nichtneutralen Quellen unter Benutzung von nichtneutralen Audio-Komponenten die Auswahl von wiederum nichtneutralen Audio-Komponenten aufgrund von Kompensationseffekten zu einem reinem Zufallsspiel, was sich ja dann auch folgerichtig in den Ergebnissen widerspiegelt.
Zieht man dann noch das sehr mangelhaft ausgeprägte akustische Gedächtnis des Menschen hinzu, muß man eigentlich bei Berücksichtung aller reichlich widrigen Faktoren staunen, daß Blindtests für den genannten Zweck überhaupt in Erwägung gezogen werden.

Wenn man allerdings sowieso der Meinung ist, dass es keine klanglichen Unterschiede zwischen Audio-Komponenten gibt, kann man sich leicht diese Meinung immer wieder durch Durchführung von Pseudo-Blindtests zementieren lassen. In Sachen "Hörbildung" kommt man auf diese Weise allerdings keinen Schritt weiter.