Als vertiefende Reanalyse der Deutschen Wirbelsäulenstudie (DWS1, [2], Ditchen et al. der nächsten Ausgabe der Zeitschrift Zentralblatt für Arbeitsmedizin, Arbeitsschutz und Ergonomie) versucht die DWS-Richtwertestudie (DWS2, [23]) die Ableitung von kumulativen Dosismodellen, mit denen der Dosis-Wirkung-Zusammenhang zwischen bandscheibenbedingten Erkrankungen an der Lendenwirbelsäule und physischen Belastungen im Sinne der Berufskrankheit Nr. 2108 der Berufskrankheiten-Verordnung (BKV) für Männer und Frauen beschrieben werden kann ([11], Jäger et al. im vorliegenden Heft). Drei besondere Herausforderungen ergaben sich für die statistische Analyse [15].

1. Dosimetrie: Das optimale Dosismodell ist unbekannt. Kandidatenmodelle variieren weit mit angesetzten „Schwellen“ für die Rumpfvorneigung bei belastungsintensiven Körperhaltungen ohne Lastenhandhabung, für die Lendenwirbelsäulen-Bandscheiben-Druckkraft bei Lastenhandhabungen und für die Tagesdosis. Erst ab der jeweiligen Schwelle werden die Belastungsanteile für die Dosisbestimmung mit quadratischer Kraftwichtung relativ zur Vorgangsdauer bei der Berechnung der Tagesdosis und „Vollwertberücksichtigung“ der Bandscheibendruckkraft einbezogen.

2. Epidemiologie: Die Form des optimalen Risikomodells [stetige „Odds-ratio“(OR)-Kurve] über der Lebensdosis ist unbekannt und kann komplex sein (z. B. „W-Form“); dies führt zu einer großen Zahl an Kandidatenmodellen.

3. Richtwertermittlung: Aus der Risikoanalyse soll eine Verdopplungsdosis mit 95 %-Konfidenzintervall abgeleitet werden, also die Lebensdosis, die mit einer Verdopplung des Erkrankungsrisikos einhergeht. Der Richtwert, gesucht als Lebensdosis auf der „x-Achse“, soll also konditional zu einem vorgegebenen relativen Risiko ermittelt werden, passend zu dem gegebenen Wert des relativen Risikos (RR) = 2 auf der „y-Achse“.

Unter diesen 3 Bedingungen wird ein Auswerteplan entworfen, mit dem Ziel, die Daten der Studie optimal auszuschöpfen. Als Verfahren wird eine 2-schrittige Multi-Modell-Analyse (MMA) zu fraktionalen Polynomen (FP) 2. und 4. Grades zur Bestimmung der optimalen OR-Kurve mit anschließender Schätzung des Richtwerts durch Umkehrung der Kurve und ihrer 95 %-Bereiche bei einem RR = 2 gewählt. In diesem Beitrag wird das Verfahren dargestellt und an den Ergebnissen zu einer der 4 untersuchten Fallgruppen (FG) erläutert.

Methoden

Im Folgenden werden die Grundzüge des Auswerteplans vorgestellt: FP, das Akaike-Informations-Kriterium (AIC), die gewählten Polynomgrade, die Bestimmung des Dosismodells (Schritt 1 der MMA), die Bestimmung des epidemiologischen Modells (Schritt 2 der MMA) und die Schätzung der Verdopplungsdosis (Richtwertvorschlag). Alle Auswertungen wurden mit Stata 13 durchgeführt [27]. Ein Signifikanzniveau von 5 % wurde verwendet.

Stetige Risikokurven: fraktionale Polynome

In der DWS1 wurden für 4 FG (2 Geschlechter, 2 Erkrankungsarten: Prolaps, Chondrose) Dosismodelle zu kategorisierten Expositionen hinsichtlich der Anpassungsgüte der unterstellten Dosis-Wirkung-Beziehung geprüft [2, 3, 22]. Dieses Verfahren der kategorisierten Regressionsanalyse ist limitiert, denn es ist von Anzahl und Lage der „cut points“ zwischen den Dosiskategorien abhängig. Bei geringer Anzahl der Cut points sind die Ergebnisse grob, bei hoher Zahl der Cut points werden die Modelle instabil. Verdopplungsdosen und ihre Konfidenzgrenzen sind somit nur relativ ungenau aus kategorisierten Regressionsanalysen bestimmbar. Kategorisierungen führen zu Informationsverlust, potenziellen Verzerrungen und „Power“-Einbußen [19]. Daher wird in DWS2 eine stetige Analyse mit flexibler Kurvenform zur Risikokurvenermittlung bevorzugt. Naheliegende Kandidaten solcher stetigen Funktionen sind Polynome, d. h. Funktionen, die aus einer Konstanten, einem linearen Term und Parabeltermen von 2., 3. oder höherem Grad zusammengesetzt sind. Diese Polynome haben den Nachteil, dass alle positiven Basisfunktionen mit Grad > 1 (z. B. + x2, + x3, + x4 …) für x > 0 beschleunigt streng monoton steigend sind, d. h., dass auch die Ableitung (Steigung) streng monoton zunimmt, also für die Basisterme eine Linkskrümmung für x > 0 vorliegt. Eine Anpassung mit Polynomen höheren Grades führt daher häufig zu einer unerwünschten „wiggly curve“ (sog. Runge-Phänomen, [18]), d. h., zu einem Schwingen der Ausgleichsfunktion durch ein Gegeneinanderarbeiten der stark anziehenden Terme. Eine mögliche Lösung stellen FP dar, die auch Potenzterme mit gebrochenen Exponenten enthalten, z. B.

(Equ1)

also Funktionen, die zwar auch für x > 0 streng monoton anwachsen, aber deren Steigung abnimmt (Rechtskrümmung). Eingeschlossen werden auch Kombinationen mit anderen rechtsgekrümmten Kurven, wie dem Logarithmus, der in der Funktionsreihe formal als x0 mitgeführt wird (Motivation: Es gilt

(Equ2)

p ≠ −1, aber

(Equ3)

für p = −1).

Nach bisheriger Erfahrung [20] reicht die Standardexponentenmenge S = {− 2, − 1, − 0,5, 0, 0,5, 1, 2, 3} aus, um empirische Zusammenhänge hinreichend gut zu beschreiben. Ein FP wird näher durch diese aus der Standardmenge gewählten Exponenten beschrieben, z. B.

(Equ4)

Der absolute Term a0 wird hierbei stets berücksichtigt, ohne in der Exponentenbeschreibung aufgeführt zu sein, und die Exponenten/Terme werden aufsteigend sortiert. Die Zahl der Exponenten definiert den Grad des FP.

Einige weitere Beispiele für FP (ai sind reelle Zahlen, ai ≠ 0):

(Equ5)

hat Grad 2,

(Equ6)

hat Grad 2,

(Equ7)

hat Grad 3.

Fraktionale Polynome umfassen zudem weitere Funktionstypen durch die sog. Wiederholungsregel für Exponenten. Wiederholungen bezeichnen Produkte mit ln(x) in aufsteigender Potenz, d. h., der 1. Term ist

(Equ8)

der 2. Term ist

(Equ9)

Dies wird kurz als (p, p) geschrieben. Einige Beispiele für Terme in FP des Grades 3:

(Equ10)

Die Motivation für diese Wiederholungsregel liegt darin, dass eine zusätzliche Flexibilität in der Anpassung entsteht. Beispielsweise ist x2*ln(x), x ≥ 1 streng monoton steigend wie x2 und x3, aber in Steilheit und Krümmung liegt diese Kurve zwischen x2 und x3 [zudem: für x > e = 2,718 … liegt x2*ln(x) immer zwischen x2 und x3].

Fraktionale Polynome können verallgemeinert mithilfe sog. Link-Funktionen eingesetzt werden:

Link(y) = Identität = y führt zu y = FP (…), d. h. auf eine lineare FP-Regression, Link(y) = Logit(y) = ln[y/(1 − y)] führt zu ln[y/(1 − y)] = FP(…), d. h. auf eine logistische FP-Regression. (y steht hier für den Erwartungswert der Zielgröße.)

Gegeben sei die Menge SetFP(n, S, L) der fraktionalen Polynome n-ten Grades mit (wiederholten) Exponenten aus der Standardexponentenmenge S = {− 2, − 1, − 0,5, 0, 0,5, 1, 2, 3} mit Grad n zu einer Linkfunktion L. Aufgabe: Suche zu gegebenen Studiendaten in dieser Menge das bestanpassende FP. Die beste Anpassung wird nach der „Maximum-Likelihood“-Methode ermittelt. (Dies entspricht bei Link = Identität der Methode der kleinsten Quadrate.) Dies beste Polynom in SetFP(n, S, L) heißt FPn. Weitere Details können Royston u. Sauerbrei [20] entnommen werden.

Konfidenzintervalle zu FP werden in dieser Studie mit den Default-Einstellungen von Stata ermittelt [27]. Diese schließen nicht die Schätzung der Exponenten ein, sind also potenziell zu eng [20]. Zur Abschätzung der Größenordnung dieses Fehlers werden exemplarisch „Bootstrap“-Methoden eingesetzt: Es wurden die Gauß-Approximation und die Perzentilmethode benutzt [6, 28].

Vergleich von Risikokurven: das Akaike-Informations-Kriterium

Die Anpassungsgüte von FP verschiedener Grade und mit unterschiedlicher Exponentenstruktur ist nicht über übliche Testverfahren vergleichbar, da die Modelle i. Allg. nicht hierarchisch ineinander genestet sind. Mit dem Akaike-Informations-Kriterium (AIC) steht ein statistisches Mittel bereit, um auch in dieser komplexen Situation eine Bewertung vornehmen zu können. Akaike fand eine Lösung des Problems [1].Footnote 1 Das AIC ergibt sich trotz der komplexen Herleitung als relativ einfach zu berechnende Statistik:

AIC = 2 • Anzahl der geschätzten Modellparameter − 2 • Log-Likelihood.

Im Fall der linearen Regression (Methode der kleinsten Quadrate) zu n Beobachtungspunkten und mit residualer Standardabweichung σ vereinfacht sich dies zu

AIC = 2 • Anzahl der geschätzten Modellparameter + n • ln(σ2).

Das AIC berücksichtigt also nicht nur, ob das Modell einen kleinen oder großen Restfehler lässt (σ), sondern auch mit welchem Aufwand (Parameterzahl) die Anpassung versucht wird. Je kleiner das AIC ausfällt, desto besser ist die Anpassungsgüte.

Die Modelle können nach dem AIC-Wert in eine Rangfolge gebracht werden (AIC-Rang); hierbei stellt das Modell mit AICmin das am besten anpassende Modell dar. Unterschiede in der Anpassungsgüte zwischen den Modellen werden über die AIC-Differenz und mithilfe daraus abgeleiteter Begriffe gemessen ([5], S. 447):

Akaike-Δ:

(Equ11)

Akaike-Likelihood:

(Equ12)

Akaike-Gewicht:

(Equ13)

Das Akaike-Gewicht misst den relativen Informationsanteil, der einem Modell in einer Modellserie zukommt. Das höchste Akaike-Gewicht besitzt stets das am besten anpassende Modell, d. h. das Modell mit niedrigstem AIC. Durch die Exponentialfunktion im Akaike-Gewicht wird sichergestellt, dass Modelle mit großem ΔAIC, d. h. mit einem großen Abstand zu dem am besten anpassenden Modell, nur ein kleines Gewicht erhalten.

Mithilfe der Akaike-Gewichte kann eine Konfidenzmenge zum besten Modell bestimmt werden: Die Summe der Akaike-Gewichte (∑ w_AIC) wird über die Rangfolge der nach AIC aufsteigend sortierten Modelle fortlaufend berechnet und ergibt den jeweiligen Konfidenzgrad ([5], S. 271, 272, 281, 283). So gehören alle Modelle der geordneten Modellmenge mit ∑ w_AIC ≤ 0,95 zur 95 %-Konfidenzmenge. Modelle in der 95 %-Konfidenzmenge sind informationstheoretisch nicht von dem „Bestmodell“ unterscheidbar (bezogen auf ein statistisches Sicherheitsniveau von 95 %).

Konzeptkurven und der Grad fraktionaler Polynome

Um FP gezielt einsetzen zu können, sollte eine Vorüberlegung zum geeigneten FP-Grad angestellt werden. Hierzu sollte eine Konzeptkurve zum denkbaren Verlauf der Risikokurve entworfen werden, die die mögliche Komplexität des Zusammenhangs von Exposition und Risiko realistisch wiedergibt. Einen solchen Verlauf stellt Abb. 1 dar.

Abb. 1
figure 1

Konzeptfunktion zum möglichen Verlauf des „odds ratio“ über der Lebensdosis. HWE „Healthy-worker“-Effekt

Aufgrund möglicher Trainingswirkungen und „Healthy-worker“-Effekte, die die risikosteigernde Wirkung der Belastung überlagern, ist von einer prinzipiellen W-Form der Exposition-Risiko-Beziehung auszugehen. Die Anpassung von FP der Grade 2 und 4 an diese Konzeptkurve aus Abb. 1 geben Abb. 2 und Abb. 3 wieder.

Abb. 2
figure 2

„Fit“ der Konzeptfunktion aus Abb. 1 mit bestem fraktionalen Polynom 2. Grades (FP2): ungenügende Anpassung

Die Anpassung mit FP 2. Grades (FP2) ist ungenügend, da diese Modelle nicht flexibel genug sind, um der Form der Konzeptkurve zu folgen. Dagegen erlauben FP des Grades 4 eine exakte Abbildung des theoretisch unterstellten Zusammenhangs. Falls man potenzielle Trainings- und Healthy-worker-Effekte (sowie andere Bias-Quellen) in der epidemiologisch gesetzten Exposition-Wirkung-Kurve (Konzeptkurve) mitmodellieren will, sind FP 4. Grades eine geeignete Wahl. Eine solche detailliertere Modellierung ist angezeigt, um den unteren Belastungsbereich bei gemeinsamer Auswertung aller Daten realistisch abbilden zu können. Um zu prüfen, ob auch eine einfachere Darstellung möglich ist, werden zudem FP 2. Grades eingesetzt.

Alle FP werden optimal aus der Standardexponentenmenge gewählt, d. h., es werden in dieser Studie FP der Grade 2 und 4 mit Exponenten aus {− 2, − 1, − 0,5, 0, 0,5, 1, 2, 3} eingesetzt. Als Link wird Logit[y) = ln(y/(1 − y)] verwendet, da logistische Regressionen gefittet werden müssen.

Abb. 3
figure 3

„Fit“ der Konzeptfunktion aus Abb. 1 mit bestem fraktionalen Polynom 4. Grades (FP4): ausgezeichnete Anpassung

Multi-Modell-Analyse

Schritt 1: Bestimmung des optimalen Dosismodells

Die Auswahl nur eines Bestmodells bedingt Selektionsprobleme [5]. Um das Selektionsproblem zu verringern, wurde eine 2-schrittige Multi-Modell-Analyse (MMA, [5]) mit informationsgestützter Modellmittelung durchgeführt.

In Schritt 1 der MMA werden zu allen sinnvollen Kombinationen der zu untersuchenden Dosismodelleigenschaften multivariable FP 2. und 4. Grades als stetige Risikomodelle berechnet. Als Kovariablen werden stets das Zentrum der Datenerhebung (Frankfurt a. M., Freiburg, Halle/Saale, Regensburg) und das Alter der Fall- bzw. Kontrollpersonen mitgeführt, beide auf kategorialer Skala.

Zu jeder FG der DWS2 (FG 1: Männer mit Prolaps, FG 2: Frauen mit Prolaps, FG 3: Männer mit Chondrose, FG 4: Frauen mit Chondrose) werden 3 ModGr gebildet, die jeweils eine der Schwellenvariationen abbilden (ModGr 1: Tagesdosisschwellenvariation, ModGr 2: Druckkraftschwellenvariation, ModGr 3: Variation der Rumpfvorneigungsschwelle). Als Ausgangsdosismodell wird stets das zuvor ausgewählte Grundmodell „i_d_101k1“ gewählt, identisch mit Dosismodell 5 der DWS1 (Schwelle der Tagesdosis = 0 kNh, Schwelle der Druckkraft = 2,0 kN, Schwelle des Rumpfvorneigewinkels = 45°, Berücksichtigung von Lastenhandhabungen zusätzlich zum Heben oder Tragen wie z. B. Ziehen und Schieben; zur Definition der verwendeten Dosismodelle: [11]). Die Anpassungsgüte der Modelle wird mit dem AIC gemessen und ein Ranking der Modelle nach AIC innerhalb jeder Kombination aus FG und ModGr durchgeführt.

Optimale Schwellenwerte werden – separat für jede FG und für jede ModGr – durch gewichtete Mittelung der jeweils variierten Modellschwellen bestimmt; hierbei wird als Gewicht der relative Informationsgehalt des jeweiligen FP verwendet (Akaike-Gewicht). Vom Mittelungsprozess ausgeschlossen werden zuvor solche Modelle, die außerhalb der Konfidenzmenge zum Bestmodell liegen. Durch die Exponentialfunktion im Akaike-Gewicht wird sichergestellt, dass Modelle mit großem ΔAIC, d. h. einem großen Abstand zum „Bestmodell“, nur in vernachlässigbarer Weise in die Mittelung eingehen, was praktisch einem Ausschluss nahekommt. In einer zusätzlichen Rechnung wurden Modelle vorab ausgeschlossen, die sehr hohe Druckkraftschwellen beinhalteten: Druckkraftschwellen > 6 kN für Männer (FG 1 und 3), Druckkraftschwellen > 4 kN für Frauen (FG 2 und 4).

Diese durch gewichtete Mittelung gewonnenen, optimalen Schwellenwerte werden dann gleichzeitig eingesetzt, um so Kombinationsdosismodelle zu gewinnen, deren Werte als Referenzdosen (Bezugsabszissen) für alle weiteren Analysen dienen.

Die AIC-Werte der zu den Kombinationsdosismodellen gehörigen epidemiologischen Risikomodelle werden bestimmt und pro Fallgruppe verglichen, mit dem Ziel, diese auf wenige, möglichst ähnliche und möglichst geeignete finale Referenzdosen zu reduzieren.

Zusätzlich wird das sog. BSG-Dosis-Modell (Bundessozialgericht 2007) mit den abgeleiteten Konfidenzmengen in seiner Anpassungsgüte über AIC-Differenzen verglichen. Das auf Männer bezogene BSG-Dosis-Modell ist durch eine Druckkraftschwelle von 2,7 kN, eine Rumpfvorneigungsschwelle von 90°, einen Verzicht auf eine Tagesdosisschwelle und keine Berücksichtigung von Lastenhandhabungen zusätzlich zum Heben oder Tragen (z. B. Ziehen und Schieben) gekennzeichnet.

Schritt 2: Bestimmung des optimalen epidemiologischen Risikomodells

Durch die im Zuge der Schwellenwertvariation entstandene hohe Zahl untersuchter epidemiologischer Modelle ergibt sich die grundsätzliche Schwierigkeit, aus dieser Menge ein geeignetes Modell auswählen zu müssen. Voraussetzung für eine rein „statistische“ Bewertung des Unterschieds zwischen einzelnen Modellen (unter Verwendung des AIC-Kriteriums) ist, dass eine inhaltliche Differenzierung zwischen plausiblen und weniger plausiblen Modellen nicht möglich ist. Soweit diese Voraussetzung erfüllt ist, kann eine A-posteriori-Entscheidung für eines oder wenige dieser Modelle einen Informationsverlust bedeuten. Auch wenn das über der ermittelten Referenzdosis gefittete epidemiologische „Referenzdosismodell“ bereits eine gute Annäherung ergeben sollte, war davon auszugehen, dass sich neben diesem Referenzdosismodell auch eine Vielzahl weiterer – statistisch nichtunterscheidbarer – epidemiologischer Modelle in den jeweiligen FG-spezifischen 95 %-Modellkonfidenzmengen befinden würde. Um dieses Problem zu lösen und zur bestmöglichen Ausschöpfung der Information werden in der DWS-Richtwertestudie daher in einem 2. Schritt MMA ([5], S. 448 f.) zu stetigen Regressionsfunktionen durchgeführt. Dabei wird über den FG-spezifischen „finalen Referenzdosen“ – dies sind die Dosiswerte bei Anwendung des jeweiligen finalen Referenzdosismodells – die MMA der finalen Modellklasse pro FG durchgeführt.

Über dieser Referenzdosis einer jeden FG werden somit in einem 2. Schritt die kontinuierlichen Regressionskurven und deren Konfidenzbänder Akaike-gewichtet gemittelt (Mittelung der Modellprädiktoren für jedes Individuum) und auf ein OR = 1 bei einer Dosis = 0 Nh bezogen. Die so ermittelten OR-Schätzer werden mit FP 4. Grades geglättet, um finale stetige OR-Kurven über der Referenzdosis mit 95 %-Konfidenzintervallen zu erhalten.

Die Modellmittelung erfolgt getrennt für die 4 betrachteten FG und auch getrennt für die insgesamt 3 ModGr, die durch die Variation der Tagesdosis-, der Druckkraftschwelle und des Rumpfvorneigewinkels definiert sind.

Als Ausgangsmengen der Multimodellmittelung werden gleichzeitige 95 %-Konfidenzmengen aus FP 2. und 4. Grades jeweils zu den verschiedenen ModGr und pro FG identifiziert (einschließlich der Modelle, die eine AIC-Differenz zum Bestmodell von höchstens 2 zeigen). Diese Ausgangsmengen werden abschließend pro FG zu einer finalen Modellklasse, die die 95 %-Modellkonfidenzmengen der 3 ModGr umfasst, vereint.

Zur Mittelung der so erhaltenen finalen Modellklassen wird die Vorgehensweise nach Burnham u. Anderson ([5], S. 448 f.) gewählt.

Nach Burnham u. Anderson [5] erfolgt eine Mittelung der Expositionsmodellkoeffizienten und ihrer Varianzen mithilfe der Akaike-Gewichte. Bei Dosis-Risiko-Funktionen, die die Dosiskomponente nicht durch einen einzelnen Koeffizienten beschreiben, sondern durch mehrere (z. B. FP), wird der lineare Prädiktor des Modells anstelle des einzelnen Koeffizienten gemittelt. Dies stellt eine natürliche Verallgemeinerung der Koeffizientenmittelung dar. Die Kovariablen werden zuvor auf feste Werte gesetzt, sodass der lineare Prädiktor nicht mit den unterschiedlichen Kovariablenwerten der Studienteilnehmer variiert, sondern nur mit der Lebensdosis. Durch die Exponentialfunktion im Akaike-Gewicht wird – wie in Schritt 1 der MMA – sichergestellt, dass Modelle mit großem ΔAIC, d. h. einem großen Abstand zum „Bestmodell“, nur in vernachlässigbarer Weise in die Mittelung eingehen, was praktisch einem Ausschluss nahekommt.

Konkret erfolgt der 2. Schritt der MMA in 3 Teilschritten:

1. In einem ersten Teilschritt werden die linearen Prädiktoren aus den zu mittelnden Modellen und ihre Varianzen innerhalb jeder Stützstelle (Person) gemittelt. Denn an jeder Stützstelle ist die Transformation der Dosen aus unterschiedlichen Modellen eineindeutig. Deshalb können der mittlere lineare Prädiktor und seine Varianz eindeutig auf die Referenzdosis an der Stützstelle bezogen werden.

2. Zur Darstellung der Ergebnisse über der Referenzdosis werden in einem 2. Teilschritt die aus den Prädiktoren durch Exponenzieren abgeleiteten OR-Schätzungen auf den OR-Wert einer festen Referenzperson bezogen. Diese Referenzperson wird so gewählt, dass ihre Referenzdosis 0 ist. (Nach Möglichkeit sollte die Referenzperson in allen Dosisvariablen auf 0 stehen, zu denen die Mittelung erfolgt.) Somit ergibt sich für diese Person und in der Modellmittelung (und falls möglich, in allen zu mittelnden Modellen) ein OR = 1 bei einer Referenzdosis von 0.

3. Da die gemittelten OR-Schätzer zwischen verschiedenen Personen mit derselben Referenzdosis variieren können, werden in einem 3. Teilschritt die mittleren Prädiktoren und ihre zugehörigen Varianzen zusätzlich mit FP 4. Grades geglättet. Die Darstellung der Ergebnisse über der Referenzdosis wird wieder auf die festgelegte Referenzperson bezogen. Es ergeben sich finale Kurven (Multimodellmittelung-OR-Kurven über der Referenzdosis) zur Beschreibung des quantitativen Zusammenhangs von kumulativer Lebensdosis und Erkrankungsprävalenz. Neben diesen Punktschätzern werden Intervallschätzer erstellt (Kurven zur Beschreibung des 95 %-Konfidenzintervalls). Die Schätzung der Exponenten bleibt in der Ermittlung der Intervallschätzer unberücksichtigt. Die Intervalle sind daher tendenziell zu eng. (In Einzelfällen wird zur Abschätzung des Fehlers ein Bootstrap-Verfahren eingesetzt werden [20].)

Richtwertermittlung

Schritt 1: Bestimmung des Verdopplungsrisikos

Verdopplungsdosen sind die Lebensdosiswerte, die mit einer Verdopplung des Risikos einhergehen, d. h., es gilt: Verdopplung der Basisprävalenz p0 bei Dosis = 0 auf p1 = 2 • p0 bei Dosis = Verdopplungsdosis.

Im Folgenden wird die Punkt- und 95 %-Intervallschätzung der „Verdopplungsdosen“ Dkritp0 erläutert. Dkritp0 ist abhängig von der Referenzdosis D und Basisprävalenz p0 bei D = 0, der FG und zugehöriger FP4-geglätteter Multimodellmittelungskurve M mit 95 %-Konfidenzintervall-Schätzungen zur geglätteten Mittelungskurve (M95_lo, M95_hi).

Die Verdopplungsdosen werden in 3 Schritten bestimmt.

  1. 1.

    Wahl der Prävalenz p0 bei D = 0: vorgegebene Werte p0 = 0 und 0,05,

  2. 2.

    Bestimmung des kritischen OR: ORkrit’p0’, mit dem vorgegebenen Wert von p0 in % in den Namen eingesetzt.

Es gilt:

(Equ14)

Beweis:

(Equ15)

Anmerkung: Begriffe erfordern 0 < p0, p1 < 1, d. h., es gilt RR, OR > 0.

(Equ16)

Für RR = 2 folgt:

(Equ17)

z. B. ORkrit0 = 2, Orkrit2 = 2,67 (Abb. 4). Zu einer Anwendung im BK-Recht: Morfeld u. Piekarski [16], S. 100.

Abb. 4
figure 4

a Erläuterung zur Ermittlung des Verdopplungsrisikos – „odds ratio“ (OR) und relatives Risiko (RR) für eine eher hoch gewählte fiktive Basisprävalenz von 20 %, b Erläuterung zur Ermittlung des Verdopplungsrisikos – kritisches OR mit Risikoverdopplung

  1. 3.

    Ermittlung der Verdopplungsdosen Dkritp0

Suche Schnittpunkte der Parallelen OR = ORkritp0 mit der Kurve M. Starte diese Suche ab einer a priori definierten Mindestdosis von 0,5 MNh. Diese Mindestdosis schließt irreguläre Kurvenverläufe im Niedrigdosisbereich von der Analyse aus. Bestimme die niedrigsten Dosen Dkritp0, die zu diesen Schnittpunkten gehören.

Suche Schnittpunkte der Parallelen OR = ORkritp0 mit den Konfidenzkurven M95_hi und M95_lo. Starte diese Suche ab einer definierten Mindestdosis von 0,5 MNh. Bestimme die niedrigsten Dosen Dkritp0_95lo, Dkritp0_95hi bzw. die zu diesen Schnittpunkten gehören.

Es ergeben sich als Schätzwerte für die Verdopplungsdosen (Punkt- und Intervallschätzer) für die p0 nach 1): ORkritp0: Dkritp0, 0,95 %-Konfindenzintervall: Dkritp0_95lo, Dkritp0_95hi.

Konkrete finale Vorgehensweise:

Aus den in Schritt 2 der MMA gewonnenen Multimodellmittelungs-OR-Kurven werden durch Umkehrung bei OR = 2 die Verdopplungsdosis und ein zugehöriges Konfidenzintervall geschätzt. Dabei wird OR = 2 gewählt, da die Basisprävalenz als deutlich unter 5 % geschätzt wurde, und dann das OR dem RR sehr nahekommt (Abb. 4; zur Schätzung der Basisprävalenz: Bergmann et al. im vorliegenden Heft).

Schritt 2: Eingrenzung des Wertes mit externen Kriterien

Wenn eine genügend akkurate Ermittlung der Anerkennungsschwelle nicht gelingt, kann eine Orientierung der Anerkennungsschwelle an Außenkriterien erfolgen, z. B. an dem Anteil der Kontrollen, die nach der derzeitigen Beurteilungspraxis die arbeitstechnischen Voraussetzungen der BK Nr. 2108 erfüllen. Das Außenkriterium kann auch sozialpolitisch gesetzt werden, z. B. als prozentualer Anteil der Kontrollen, die einer „besonderen Einwirkung“ im Sinne des Siebten Buchs Sozialgesetzbuch (SGB VII) ausgesetzt sind.

Ergebnisse am Beispiel der Fallgruppe 1 (Männer mit Prolaps)

Multimodellanalyse

Schritt 1

Fallgruppe 1 (Männer mit Prolaps) besteht aus 286 Fällen und steht 453 männlichen Kontrollen gegenüber. Das Ergebnis des Schritts 1 der MMA zeigen Tab. 1 und Tab. 2. Das Ergebnis der Mittelung der Modelle im Konfidenzbereich beschreibt Tab. 1. Einen Überblick zu allen ModGr und den sich jeweils ergebenden Konfidenzmengen enthalten die Tab. 3, Tab. 4 und Tab. 5.

Tab. 1 Akaike-Informations-Kriterium(AIC)-gewichtete Mittelwerte der Schwellen in der 95 %-Modellkonfidenzmenge zu den 3 Modellgruppen für die Fallgruppe 1 (Multimodellanalyse, Schritt 1)

Für die FG 1 beschreibt Tab. 2 die folgenden Referenzdosisschwellen als optimal: Tagesdosisschwelle = 2,0 kNh, Druckkraftschwelle = 3,2 kN und Rumpfvorneigungsschwelle = 45°. Die beiden Kombinationsmodelle i_d_301k1 bzw. i_d_401k1, die sich daraus ableiten und danach unterscheiden, ob die Druckkraftberechnung via „Der Dortmunder“ [12] oder über „Bestimmungsgleichungen“ erfolgt, zeigt Tab. 2 (zur Unterscheidung dieser Berechnungsmethoden: Ditchen et al. im vorliegenden Heft, [7] und zur Übersicht zu Dosismodellen und anderen Bezeichnungen: Jäger et al. [11]).

Tab. 2 Finale Kombinationsdosismodelle für die Fallgruppe 1 (Multimodellanalyse, Schritt 1)

Die finale Modellmenge zu F G1 enthält Tab. 6, die durch Vereinigung der 3 95 %-Modellkonfidenzmengen aus Tab. 3, Tab. 4 und Tab. 5 entsteht. Die Spanne der AIC-Werte reicht in der finalen Modellmenge von 937,2–946,0. Die beiden zum BSG-Dosis-Modell gehörigen epidemiologischen Modelle erreichen nur AIC-Werte, die außerhalb dieses Intervalls liegen: 951,0 für FP 2 und 946,8 für FP 4 (s. auch die Resultate zu Modell „i_d_118k1“ in Tab. 5.1.3–4 in [21]). Insofern stellt das BSG-Modell sicherlich keine geeignete Grundlage zur Beschreibung der Belastung und Dosis-Wirkung-Beziehung für die FG 1 dar (Männer mit Prolaps).

Tab. 3 Fallgruppe 1 und Modellgruppe 1: Variation der Tagesdosisschwelle (Nh). Ranking der fraktionalen Polynome 2. und 4. Grades (FP 2 oder 4) nach Akaike-Informations-Kriterium (AIC)
Tab. 4 Fallgruppe 1 und Modellgruppe 2: Variation der Druckkraftschwelle (N). Ranking der fraktionalen Polynome 2. und 4. Grades (FP 2 oder 4) nach Akaike-Informations-Kriterium (AIC)
Tab. 5 Fallgruppe 1 und Modellgruppe 3: Variation des Rumpfvorneigewinkels (°). Ranking der fraktionalen Polynome 2. und 4. Grades (FP 2 oder 4) nach Akaike-Informations-Kriterium (AIC)
Tab. 6 Fallgruppe 1: finale Modellklasse, die die 95 %-Modellkonfidenzmengen der 3 Modellgruppen aus Tab. 3, Tab. 4 und Tab. 5 vereint. Ranking der fraktionalen Polynome 2. und 4. Grades (FP 2 oder 4) nach dem Akaike-Informations-Kriterium (AIC)

Eher geeignet erscheinen die epidemiologischen Risikomodelle, die zu den in Tab. 2 dargestellten kombinierten Dosismodellen i_d_301k1 und i_d_401k1 gehören. Die AIC-Werte für die beiden epidemiologischen Modelle zu i_d_301k1 betrugen 944,3 (FP 2) und 940,5 (FP 4) und für die Risikomodelle zu i_d_401k1 wurde 944,6 (FP 2) bzw. 942,2 (FP 4) ermittelt. Diese AIC-Werte liegen zwar im 95 %-Konfidenzbereich nach Tab. 6, aber auch die Kombinationsmodelle berücksichtigen per Konstruktion nicht alle Informationen der epidemiologischen Modelle in der finalen Modellmenge; deshalb wird der 2. Schritt der MMA notwendig (s. Abschn. „Schritt 2: Bestimmung des optimalen epidemiologischen Risikomodells“; Seidler et al. stellen im vorliegenden Heft die Ergebnisse der MMA, Schritt 1, zu allen FG dar.)

Schritt 2

Als Ergebnis einer MMA, Schritt 2, wird beispielhaft das geglättete OR-Mittel zu FG 1 (Männer mit Prolaps) über der Referenzdosis auf Basis der Bestimmungsgleichungen dargestellt (Abb. 5). Grundlage sind 29 Einzelmodelle (Tab. 6). Das Verfahren wird an der Konfidenzmenge zu ModGr 1 der FG 1 beispielhaft erläutert, die 10 zu mittelnde Modelle enthält (Abb. 7, Abb. 8, Abb. 9, Abb. 10, Abb. 11).

Abb. 5
figure 5

Akaike-Informations-Kriterium(AIC)-gewichtete mittlere „Odds-ratio“(OR)-Kurve zu Fallgruppe 1 (Männer mit Prolaps) über der Lebensreferenzdosis (Punktschätzung des OR mit 95 %-Konfidenzintervall)

Abb. 6
figure 6

Akaike-Informations-Kriterium(AIC)-gewichtete mittlere „Odds-ratio“(OR)-Kurve zu Fallgruppe 1 (Männer mit Prolaps) über der Lebensreferenzdosis (Punktschätzung des OR mit 0,95-Konfidenzintervall). Auszug für Dosiswerte bis 100 MNh. Abgetragen ist der durch Umkehrung gewonnene Punktschätzer zur Verdopplungsdosis (OR = 2) mit 95 %-Konfidenzintervall

Abb. 7
figure 7

Fraktionale Polynome 2. Grades (FP2) zu Dosismodell i_d_101_k1 (Grundmodell, identisch mit Dosismodell 5 der DWS 1)

Abb. 8
figure 8

Fraktionale Polynome 4. Grades (FP4) zu Dosismodell i_d_101_k1 (Grundmodell, identisch mit Dosismodell 5 der DWS 1)

Abb. 9
figure 9

Fraktionale Polynome 2. Grades (FP2)zu Dosismodell i_d_102_k1 (fungiert als Referenzdosismodell in dieser Beispielanalyse)

Abb. 10
figure 10

Fraktionale Polynome 4. Grades (FP4) zu Dosismodell i_d_102_k1 (fungiert als Referenzdosismodell in dieser Beispielanalyse)

Abb. 11
figure 11

Mittel und geglättete Mittel aus 10 Risikomodellen, Referenzdosis i_d_102_k1. FG Fallgruppe, FP fraktionale Polynome, ModGr Modellgruppe

Einen vergrößerten Ausschnitt aus Abb. 5 zeigt Abb. 6. Die Dosisachse ist in der Darstellung auf den Bereich bis 100 MNh beschränkt. Zu allen Fallgruppen werden die Ergebnisse der MMA, Schritt 2, in Bd 64, Ausgabe 4/2014 der Zeitschrift Zentralblatt für Arbeitsmedizin, Arbeitsschutz und Ergonomie im vorliegenden Heft von Seidler et al. dargestellt.

Richtwertermittlung: Bestimmung des Verdopplungsrisikos

Aus Abb. 6 ergibt sich der Punktschätzer für die Verdopplungsdosis bei etwa 7 MNh für FG 1. Das zugehörige Konfidenzintervall reicht weit von etwa 1–23 MNh. Unter den männlichen Kontrollen der Studie weisen 38 % eine Lebensdosis ≥ 7 MNh auf, sowohl wenn die Berechnung via „Der Dortmunder“ gewählt wird als auch bei Anwendung der „Bestimmungsgleichungen“ (s. den Abschlussbericht zum DWS2-Forschungsprojekt: [21], Tab. 7.1.4–1 und 7.1.4–2, S. 171, 172).

Wird stattdessen ein niedrigerer Überschreitungsanteil von ca. 20 % unter den Kontrollen der Studie angesetzt, z. B. als definierter Anteil der Kontrollen, die einer „besonderen Einwirkung“ im Sinne des SGB VII ausgesetzt sind, ergibt sich aus dem Referenzdosismodell für Männer ein Richtwert von etwa 20 MNh. Dies gilt sowohl für eine Berechnung via „Der Dortmunder“ als auch bei Anwendung der „Bestimmungsgleichungen“ (s. den Abschlussbericht zum DWS2-Forschungsprojekt: [21], Tab. 7.1.4–1 und 7.1.4–2, S. 171, 172). Entsprechend ergibt sich für Frauen nach Tab. 7.1.4–3 und 7.1.4–4 (Abschlussbericht zum DWS2-Forschungsprojekt: [21], S. 175 und 176) ein Richtwert von etwa 10 MNh. Derartig angepasste Richtwerte wären mit den Ergebnissen der Studie aufgrund der weiten Konfidenzintervalle zur Verdopplungsdosis verträglich. (Das sich aus Abb. 6 ergebende Konfidenzintervall von 1–23 MNh unterschätzt die Breite der Unsicherheit.)

Diskussion

Für die DWS2 konnte vorab kein abgeschlossener statistischer Analyseplan vorgelegt werden, da die dabei verwendeten Methoden innovativen Charakter zeigten und bisher in epidemiologischen sowie arbeitsmedizinischen oder toxikologischen Schwellenwertermittlungen nicht zur Anwendung kamen. Zudem wurden Änderungsvorschläge zum Auswerteplan durch den Projektbeirat eingebracht. Insofern bestand zu diesen Methoden innerhalb der Forschungsgruppe erheblicher Diskussionsbedarf, und die aus dieser Diskussion hervorgegangenen Methoden bedurften einer ausführlichen Dokumentation, damit die damit erzielten Ergebnisse wissenschaftlich reproduzierbar sind. Die wissenschaftliche „community“ ist ausdrücklich aufgefordert, diese Methoden auf ihre Anwendbarkeit zur Schwellenwertbestimmung in arbeitsmedizinisch-epidemiologischen Fragestellungen mit kumulativen Dosis-Wirkung-Beziehungen zu hinterfragen und zu prüfen.

Die innerhalb der Forschungsgruppe getroffenen Entscheidungen betreffen die Festlegung auf eine kontinuierliche Modellierung (Verwendung der kumulativen Dosis als Expositionsvariable) und dabei nach Prüfung von Alternativen die Festlegung auf eine Modellierung mit FP 2. und 4. Grades. Dies gibt der Modellierung mehr Flexibilität, ist allerdings als akzeptiertes Modell in der arbeitsmedizinisch-epidemiologischen Literatur bisher nicht belegt. Die Vorteile einer kontinuierlichen Modellierung der kumulativen Dosis liegen in der besseren Möglichkeit der statistischen Ausnutzung der in den Daten enthaltenen Informationen zu Gestalt und Form der Dosis-Wirkung-Beziehung [9, 10, 19] und damit einer bei Kenntnis des „wahren“ Verlaufs präziseren Schätzung der Parameter, einschließlich der daraus zu berechnenden Verdopplungsdosen. Ebenso ist die Argumentation für die Modellmittelung zu verstehen: Ohne geeignetes „Vorwissen“ liefert der Mittelwert aller nach Anpassungskriterien ausgewählten statistisch akzeptablen Modelle die beste Informationsausnutzung und damit die „beste“ Schätzung der gesuchten „kumulativen Dosis-Wirkung-Beziehung“. Dies wird auch in der angewendeten Literatur so gesehen [13].

Der Einsatz gewichteter Mittelungsverfahren (MMA) in der vorliegenden Studie ist als innovatives Verfahren anzusehen, das bei der „Übersetzung“ der Daten einer Primärstudie in einen Richtwert den Informationsverlust möglichst gering halten soll. Es handelt sich hierbei um ein statistisches Verfahren; inhaltliche Aspekte gehen in dieses Verfahren zunächst einmal nicht ein. Diesbezüglich ist darauf hinzuweisen, dass innerhalb des Forschungsverbunds unter Beteiligung des Forschungsbegleitkreises intensiv über die Frage diskutiert wurde, welche inhaltlichen Voraussetzungen als biologisch plausible Kriterien zu einer Eingrenzung der Modellvielfalt eingesetzt werden könnten oder sollten. Diese Diskussionen haben keinen Konsens erzielen können.

In der Forschungsgruppe ist ausführlich über inhaltlich (arbeitsmedizinisch, arbeitsepidemiologisch, arbeitsphysiologisch) begründbare „plausible“ Modellklassen und damit verbundene inhaltliche Kriterien der Modellwahl diskutiert worden. Letztlich kam die Gruppe zu der Ansicht, dass nicht ausreichend belastbare Arbeiten aus der wissenschaftlichen Literatur dazu vorliegen. Auch die im Ersatz angebotenen und in DWS1 angewendeten Plausibilitätskriterien (Einfachheit, Monotonie, Spezifität im hohen Dosisbereich, Modellähnlichkeit für Männer und Frauen) konnten wegen neuer Erkenntnisse (potenzieller W-Verlauf anstatt strenger Monotonie, Spezifitätsfrage nicht im hohen, sondern im niedrigen Dosisbereich) oder gleicher Modelle, wenn auch mit verschiedenen Schwellen (für Männer bzw. Frauen) nicht zur Modellauswahl herangezogen werden.

Die Entscheidung für die kontinuierliche Modellierung der kumulativen Dosis beruhte neben den informationstechnisch-statistischen Argumenten auf dem Praktikabilitätsargument, dass sich damit mit einer Rechenprozedur sogleich auch eine Verdopplungsdosis und über die Umkehrfunktion der bekannten punktweisen Konfidenzbänder für das OR an jeder Stelle der kumulativen Dosis auch ein Konfidenzintervall für die Verdopplungsdosis ermitteln lässt.

Die Ergebnisse der Berechnungen zur Verdopplungsdosis bauen aus epidemiologischer Sicht darauf auf, dass der gewählte Modellfindungsprozess in die statistische Nähe des unbekannten „wahren“ kumulativen Dosis-Wirkung-Modells kommt. Bekanntermaßen hängen Schätzungen (insbesondere von Dosis-Wirkung-Beziehungen) erheblich von der Datenqualität und deren bei epidemiologischen Felderhebungen innewohnenden Fehlerquellen ab, die sich mit den Begriffen Healthy-worker-Effekt, Selektionsbias, Informationbias und „confounding“ beschreiben lassen sowie bis auf wenige Basis-Confounder in der Modellierung mangels zusätzlicher Außeninformation nicht modelliert werden konnten.

Ein besonderes Problem stellt die durchaus begründete Hypothese dar, dass die Bezugspopulation deutsche Bevölkerung im Altersbereich von 25 bis 75 Jahren sich hinsichtlich der kumulativen Dosis-Wirkung-Beziehung in „unbekannte“ oder „unbeobachtete“ Subpopulationen unterschiedlicher Suszeptibilität und Verhaltensweise zergliedert. Hier wird deutlich weiterer Forschungsbedarf angezeigt.

Es bleibt der weiteren wissenschaftlich-inhaltlichen Diskussion überlassen, die gefundenen „kumulativen Dosis-Wirkung-Beziehungen“ auf ihre inhaltliche Validität hin zu prüfen.

Die MMA wird durch eine Orientierung an dem Überschreitungsprozentsatz der Verdopplungsdosis unter den Kontrollen der Studie ergänzt.

Das SGB VII [25] formuliert in § 9 (1): „Die Bundesregierung wird ermächtigt, in der Rechtsverordnung solche Krankheiten als Berufskrankheiten zu bezeichnen, die nach den Erkenntnissen der medizinischen Wissenschaft durch besondere Einwirkungen verursacht sind, denen bestimmte Personengruppen durch ihre versicherte Tätigkeit in erheblich höherem Grade als die übrige Bevölkerung ausgesetzt sind“. In FG 1 (Männer mit Prolaps), die in dieser Publikation beispielhaft zur Vorstellung und Diskussion der Methodik betrachtet wird, liegt der Anteil von Kontrollen mit Lebensdosen ≥ 7 MNh mit 38 % bereits so hoch, dass dies schwerlich mit der Formulierung „in erheblich höherem Grade“ verträglich erscheint (zu den Überschreitungsanteilen: [21], Tab. 7.1.4–1 und 7.1.4.2, S. 171, 172).

Zudem liegt in dem Dosisbereich bis 7 MNh eine qualitativ schlechtere Dosisermittlung vor. Für 228 der 739 Männer (Fälle und Kontrollen) der FG 1 wurde keine individuelle Belastungsermittlung durch den technischen Aufsichtsdienst (TAD) vorgenommen. Unter den 453 Kontrollen gilt dies für 167 Männer. Nur 7 von diesen 167 Kontrollen mit schwächerer Expositionserhöhung zeigen Lebensdosen höher als 7 MNh (mit einem Maximum bei 7,8 MNh). Nur 5 der 61 Fälle ohne individuelle Belastungsermittlung durch den TAD haben Lebensdosen oberhalb von 7 MNh (mit einem Maximum bei 7,4 MNh). Der Bereich der Studie bis hin zum Punktschätzer für den Verdopplungswert von 7 MNh umfasst also wesentlich Personen mit schlechterer Expositionserhebung. Auch dies motiviert zu einer zusätzlichen Orientierung an Außenkriterien, wie beispielsweise der Zahl der Kontrollen, die eine besondere Belastung im Sinne der Berufskrankheit Nr. 2108 BKV aufweisen. Unter Berücksichtigung des oben erläuterten Anteils von etwa 20% der Kontrollen, die eine entsprechende besondere Belastung erreichen, ergäbe sich für die FG 1 (Männer mit Prolaps) eine Lebensdosis von 20 MNh. Dieser Wert ist aufgrund der weiten Konfidenzintervallschätzung für die Verdopplungsdosis mit den Ergebnissen der DWS2-Studie verträglich.

Abschließend soll angemerkt sein, dass das Kriterium der Risikoverdopplung nicht äquivalent einer Verursachungswahrscheinlichkeit von 50 % ist, sondern eine Konvention darstellt, die mit dem Verursachungsanteil nur entfernt in Verbindung steht, der einer Exposition an dem Entstehen einer Erkrankung zuzurechnen ist [14, 17, 24].

Fazit

Bei fehlenden biologischen A-priori-Kriterien zur Spezifizierung des optimalen dosimetrischen oder epidemiologischen Modells stellt die MMA einen Lösungsweg dar.