banner
Heim / Nachricht / Bayesianisches Risikovorhersagemodell für die Mortalität bei Darmkrebs durch Integration klinisch-pathologischer und genomischer Daten
Nachricht

Bayesianisches Risikovorhersagemodell für die Mortalität bei Darmkrebs durch Integration klinisch-pathologischer und genomischer Daten

Jun 05, 2024Jun 05, 2024

npj Precision Oncology Band 7, Artikelnummer: 57 (2023) Diesen Artikel zitieren

1373 Zugriffe

3 Altmetrisch

Details zu den Metriken

Aufgrund der pathobiologischen Heterogenität des Tumors und der ungenauen Beurteilung der Tumorausbreitung ist das routinemäßige TNM-Stadium (Tumor-Node-Metastasierung) von Darmkrebs für die Vorhersage des Überlebens unvollkommen. Wir nutzten Bayesian Additive Regression Trees (BART), eine statistische Lerntechnik, um patientenspezifische Tumormerkmale umfassend zu analysieren und so die prognostische Vorhersage zu verbessern. Von 75 klinisch-pathologischen, immunologischen, mikrobiellen und genomischen Variablen bei 815 Patienten im Stadium II–III im Rahmen von zwei US-weiten prospektiven Kohortenstudien identifizierte das BART-Risikomodell sieben stabile Überlebensprädiktoren. Risikostratifizierungen (geringes Risiko, mittleres Risiko und hohes Risiko) basierend auf dem vom Modell vorhergesagten Überleben waren statistisch signifikant (Hazard Ratios 0,19–0,45 gegenüber höherem Risiko; P < 0,0001) und konnten mithilfe des Cancer Genome Atlas (TCGA) extern validiert werden ) Daten (P = 0,0004). BART zeigte Modellflexibilität, Interpretierbarkeit und eine vergleichbare oder bessere Leistung als andere Modelle für maschinelles Lernen. Integrierte bioinformatische Analysen unter Verwendung von BART mit tumorspezifischen Faktoren können Darmkrebspatienten zuverlässig in prognostische Gruppen einteilen und problemlos in der klinischen Onkologiepraxis angewendet werden.

Darmkrebs entsteht im Zusammenhang mit einem komplexen Zusammenspiel zwischen Wirt, Mikroben und neoplastischen Zellen in der lokalen Darmmikroumgebung1. Die Prognose des Überlebens, die ausschließlich auf der Stadieneinteilung der Tumorknotenmetastase (TNM) basiert, ist aufgrund der Heterogenität des Tumors sowie der ungenauen Beurteilung der Tumorausbreitung unvollständig. Bei Patienten im Stadium II/III hat die Risikobewertung entscheidende Auswirkungen auf den Einsatz einer adjuvanten Chemotherapie sowie auf die Behandlungsintensität und -dauer2,3. Daher sind groß angelegte multivariable Analysen von Faktoren, die zur Tumorprogression beitragen, erforderlich, um die Ergebnisse einzelner Patienten besser vorhersagen zu können. Immer mehr Hinweise deuten darauf hin, dass Faktoren wie der Tumor-Mikrosatelliten-Instabilitätsstatus (MSI), die BRAF-Mutation, die Menge an Fusobacterium nucleatum und T-Zell-Infiltrate relevante prognostische Biomarker bei Darmkrebs sind4,5,6. Unter Berücksichtigung dieser Ergebnisse stellten wir die Hypothese auf, dass die Integration von Tumor- und Immunmerkmalen in die TNM-Klassifizierung ein prognostisches Vorhersagemodell bei Darmkrebs verbessern könnte.

Um verfügbare klinisch-pathologische Variablen bei der Überlebensvorhersage zu nutzen, haben wir ein Ensemble-Summen-von-Bäume-Klassifizierungsmodell, Bayesianische additive Regressionsbäume (BART), implementiert. Ensemble-Methoden ermöglichen eine flexible Modellierung nichtlinearer und interaktiver Beziehungen zwischen Prädiktoren und Ergebnisvariablen bei gleichzeitiger Beibehaltung der Modellinterpretierbarkeit durch Messungen der variablen Wichtigkeit7 und haben vielversprechende Ergebnisse bei der Klassifizierung molekularer Tumorsubtypen, dem Therapieansprechen und der Überlebensvorhersage bei mehreren Krebsarten erbracht8,9,10. BART erweitert das klassische Ensemble-Baum-Paradigma, indem es eine zugrunde liegende Wahrscheinlichkeitsverteilung in ein Summe-von-Bäume-Modell einführt und so eine inhärente Regularisierung ermöglicht. BART hat im Vergleich zu anderen Methoden des maschinellen Lernens, einschließlich Random Forest (RF), Gradient Boosting (GB), Least Absolute Shrinkage and Selection Operator (LASSO), multivariate adaptive Regressions-Spline und künstliche neuronale Netze, eine günstige Leistung und überlegene Möglichkeiten zur Variablenauswahl gezeigt (ANN)11 und hat in früheren Studien in den Bereichen Proteomprofilierung, Genregulationsnetzwerkanalyse und nichtparametrische Überlebensanalyse vielversprechende Ergebnisse geliefert12,13,14.

In dieser Studie haben wir ein BART-Modell erstellt, das TNM-Stadiumskomponenten mit anderen Faktoren kombiniert, um die Mortalitätsrisikostratifizierung bei Patienten im Stadium II/III zu verbessern. Dabei nutzten wir eine Patientendatenbank mit Darmkrebs in zwei großen prospektiven Kohortenstudien, nämlich der Nurses' Health Study (NHS). ) und die Health Professionals Follow-up Study (HPFS). Wir haben eine gute Leistung des BART-Modells bestätigt, die durch die ROC-Kurve (Receiver Operating Characteristics) im Vergleich zu RF, GB und anderen statistischen Lernmethoden angezeigt und extern mithilfe des TCGA-Datensatzes (Tumor Genome Atlas) validiert wurde. Wir untersuchten Variablen, die zu den BART-Modellen beitragen, im Hinblick auf die Stabilität der Signifikanz durch Permutationstests über fünffache Kreuzvalidierung hinweg sowie auf die teilweise Abhängigkeit des Ergebnisses von wichtigen Variablen. Unsere Studie hat gezeigt, dass Bayes'sche Ensemble-Modelle eine Vielzahl tumor- und patientenspezifischer Faktoren integrieren können, um die Überlebensvorhersage zu verbessern, und als klinische Instrumente zur Beurteilung des individuellen Risikos für Krebssterblichkeit dienen können, wodurch die Präzision eines optimalen Patientenmanagements erhöht wird.

Um ein Bayesianisches additives Regressionsbaummodell (BART) zur Vorhersage des Mortalitätsrisikos zu erstellen, haben wir 815 Patienten mit kolorektalem Adenokarzinom im Stadium II–III einbezogen, die aus einer Datenbank der Nurses' Health Study (NHS) und der Health Professionals Follow-up Study (HPFS) stammen ) (Abb. 1). Tabelle 1 fasst die Patientenmerkmale zusammen. Ein Test der BART-Modellstabilität anhand der Anzahl der Bäume im Rahmen einer fünffachen Kreuzvalidierung zeigte, dass BART vor 500 Bäumen Leistungsstabilität erreichte (Abb. 2a). Daher wurde für den Rest der Studie eine Standardanzahl von 500 Bäumen festgelegt, um Stabilität und Konsistenz zwischen den Modellen sicherzustellen.

Die externe Validierung des BART-Modells wurde mit 106 von 371 Patienten im Stadium II–III im TCGA-Datensatz durchgeführt, da bei 265 Patienten Informationen zum 5-Jahres-Gesamtüberleben fehlten. Gesamtüberlebensanalysen wurden unter Verwendung aller 371 Patienten mit vorhergesagten Wahrscheinlichkeiten für den 5-Jahres-Überlebensstatus basierend auf den Kovariaten durchgeführt. Adaptives AdaBoost-Boosting, künstliches neuronales ANN-Netzwerk, BART Bayes'sche additive Regressionsbäume, COADREAD kolorektales Adenokarzinom, CV-Kreuzvalidierung, GB-Gradienten-Boosting, HPFS Health Professionals Follow-up-Studie, LASSO-Operator für kleinste absolute Schrumpfung und Selektion, NHS Nurses' Health Study, RF Random Forest, Betriebseigenschaften des ROC-Empfängers, SVM Support Vector Machine, TCGA The Cancer Genome Atlas.

a Modellleistungen in Bezug auf die C-Statistik der Receiver Operating Characteristics (ROC) für 5-Jahres-Überlebensmodelle der Stufe II–III über fünffache Kreuzvalidierung mit variablem Parameter „Anzahl der Bäume“. b Modellleistungen über 100 Zufallsdurchläufe in Bezug auf die Fläche unter der ROC-Kurve (AUC). Blaue Punkte stellen mittlere AUC-Werte über die Läufe nach Modelltyp dar. Graue Balken stellen die Standardabweichungen der AUC-Werte über die Läufe hinweg dar. c Variablenauswahl mittels BART bei einem Schwellenwert von P = 0,05. Die Abbildung zeigt, wie oft Variablen in zehn Zufallsdurchläufen als signifikant eingestuft wurden. Variablen, die durchschnittlich mindestens einmal pro fünffacher Kreuzvalidierung auftraten, wurden für die nachgelagerte Analyse verwendet. Künstliches neuronales ANN-Netzwerk, AUC-Fläche unter der ROC-Kurve, BART Bayes'sche additive Regressionsbäume, CRO Crohn-ähnliche Reaktion, GB-Gradientenverstärkung, LASSO-Operator für kleinste absolute Schrumpfung und Selektion, LNs-Lymphknoten, MSI-Mikrosatelliteninstabilität, periglanduläre PEN-Reaktion, peritumorales PET Reaktion, RF Random Forest, Betriebseigenschaften des ROC-Empfängers, SD-Standardabweichung, SVM-Unterstützungsvektormaschine, TIL-tumorinfiltrierende Lymphozyten.

Ein Vergleich des BART-Modells mit anderen maschinellen Lernalgorithmen, die mehrere Zufallsvalidierungen an einem Datensatz mit Imputation fehlender Werte verwenden, ergab, dass BART in den meisten 100 Zufallsdurchläufen ein wettbewerbsfähiges Modell war. Die BART-Leistung gehörte zu den beiden besten von acht getesteten Modellen in Bezug auf die mittlere AUC (Fläche unter der ROC-Kurve) über die Läufe hinweg [mittlere AUC 0,681, Standardabweichung (SD) 0,048], nach LASSO-Regression (mittlere AUC 0,693, SD 0,047) (Abb . 2b). Unter den Ensemble-Modellen zeigte BART die beste Leistung, gefolgt von Random Forest (mittlere AUC 0,673, SD 0,054).

Das BART-Überlebensvorhersagemodell im Stadium II–III ergab mehrere statistisch signifikante Variablen durch einen Permutationstest bei einem P-Wert-Schwellenwert von 0,05, der in diesem Auswahlverfahren verwendet wurde (Abb. 2c). Von den 75 untersuchten Variablen überschritten 7 Variablen die Signifikanzschwelle im Durchschnitt mindestens einmal innerhalb einer fünffachen Kreuzvalidierung über 10 Zufallsläufe (d. h. ≥10 von 50 Läufen). Am häufigsten wurden in absteigender Reihenfolge die Anzahl der positiven Lymphknoten, die Anzahl der negativen Lymphknoten, die Tiefe der Tumorinvasion (pT-Stadium), der MSI-Status, die Tumorstelle, das Ausmaß der extraglandulären Nekrose und das Alter beobachtet.

Das BART-Modell, das diese sieben signifikanten und stabilen Variablen verwendet, erreichte AUCs von 0,67–0,83 (Median 0,74) über fünffache Kreuzvalidierung (Abb. 3a). Die Mehrzahl der Falten (3/5) zeigte im Hosmer-Lemeshow-Test eine gute Anpassung. Partielle Abhängigkeitsdiagramme dieser Variablen zeigten, dass eine negative Lymphknotenzahl und ein MSI-Status positiv mit dem 5-Jahres-Überleben bei kolorektalem Krebs assoziiert waren, wohingegen eine positive Lymphknotenzahl, das pT-Stadium, das Alter, die extraglanduläre Nekrose und die proximalere Tumorstelle (geschätzte Entfernung) positiv waren vom Analrand) waren negativ mit dem Überleben verbunden (Abb. 3b, c).

Das BART-Vorhersagemodell wurde auf der Grundlage von sieben signifikanten und stabilen Variablen erstellt, nämlich positive und negative Lymphknotenzahlen, Tiefe der Tumorinvasion, Status der Mikrosatelliteninstabilität (MSI), Tumorlokalisation, extraglanduläre Nekrose und Alter. a ROC-Kurven und Hosmer-Lemeshow-P-Werte über fünf Kreuzvalidierungsstufen (CV). b Durchschnittliche Variablenbedeutung über fünf Kreuzvalidierungsstufen hinweg, angezeigt in der Reihenfolge der höchsten durchschnittlichen Wichtigkeit. Schwarze Balken stehen für Variablen mit positivem Überlebenstrend und weiße Balken für Variablen mit negativem Überlebenstrend. c Partielle Abhängigkeitsdiagramme signifikanter Variablen über Kreuzvalidierungsfalten hinweg. Jeder transparente Block stellt das 95 %-glaubwürdige Intervall einer Kreuzvalidierungsfalte basierend auf 1000 posterioren Proben dar. Teileffekte werden als Überlebenswahrscheinlichkeit auf der Probit-Skala aufgetragen. Dunklere Linien und Punkte stellen den erwarteten Wert der teilweisen Abhängigkeit für jede Variable über 1000 hintere Stichproben dar. Grüne vertikale Strichmarkierungen auf der X-Achse zeigen beobachtete Datenpunkte an, die zum Generieren des Modells verwendet wurden. AUC-Fläche unter der ROC-Kurve, BART-Bayes'sche additive Regressionsbäume, CV-Kreuzvalidierung, HL Hosmer-Lemeshow, LNs-Lymphknoten, MSI-Mikrosatelliteninstabilität, MSS-Mikrosatellitenstabilität, Betriebseigenschaften des ROC-Empfängers.

Das BART-Modell, das allein das Gesamtstadium, das pT-Stadium oder das pN-Stadium als Prädiktor verwendet, erzielte über fünf Kreuzvalidierungsschritte hinweg mittlere AUCs von 0,47–0,62, die durchweg niedriger waren als die mittlere AUC von 0,74 aus dem BART-Modell unter Verwendung von sieben signifikanten Variablen (Ergänzungstabelle 2).

Unter Verwendung der BART-Leave-One-Out-Analyse, wie unter „Methoden“ beschrieben, wurden Patienten mit Darmkrebs im Stadium II–III auf der Grundlage der vorhergesagten Wahrscheinlichkeiten des 5-Jahres-Überlebens in drei Risikoquantile eingeteilt (geringes Risiko bei ≥ 0,884, mittleres Risiko bei ≥ 0,758 und < 0,884, hohes Risiko, wenn <0,758). Die Überlebensanalyse mithilfe des Cox-Proportional-Hazards-Regressionsmodells zeigte signifikante Überlebensunterschiede zwischen den Risiko-Tertil-Kategorien, d. geringes Risiko vs. mittleres Risiko (HR 0,43, 95 %-KI 0,28–0,65, P-Wert < 0,0001) und mittleres Risiko vs. hohes Risiko (HR 0,45, 95 %-KI 0,34–0,61, P-Wert < 0,0001), mit Gesamt-Log-Rank Test-P-Wert von <0,0001 (Abb. 4a). Die Risikogruppen blieben in einem multivariaten Cox-Proportional-Hazards-Modell unter Anpassung an das Stadium (P-Wert < 0,0001, Tabelle 2) sowie in einem multivariaten Cox-Proportional-Hazards-Modell unter Anpassung aller im Modell enthaltenen unabhängigen Prädiktoren (P-Wert 0,0008, Tabelle 3) signifikant.

ein NHS/HPFS-Datensatz zum Überleben basierend auf Risikoquantilen. b Überleben des externen TCGA-Validierungsdatensatzes basierend auf Risikoquantilen. Die Tabellen zeigen Cox-Proportional-Hazards-Modelle unter Verwendung von Risikoquantilen und Gesamt-P-Werten anhand des Log-Rank-Tests. BART Bayesianische additive Regressionsbäume, CI-Konfidenzintervall, HR-Hazard-Ratio.

Explorative Analysen unter Verwendung einer Stratifizierung nach Risikoquantilen und Stadium zeigten eine abnehmende HR im Vergleich zum Hochrisikostadium III (Referenz) in der folgenden Reihenfolge: Hochrisikostadium II (P-Wert 0,26), mittleres Risikostadium III, mittleres Risikostadium II , Niedrigrisikostadium III und Niedrigrisikostadium II (P-Werte < 0,0001) (Ergänzende Abbildung 1). Stadiumsspezifische Analysen zeigten, dass die Mortalitätsrisikounterschiede bei Patienten im Stadium II für niedriges Risiko vs. hohes Risiko und niedriges Risiko vs. mittleres Risiko sowie für Patienten im Stadium III für niedriges Risiko vs. hohes Risiko und mittleres Risiko vs. hohes Risiko signifikant waren (P-Werte < 0,005). und deutet auf ein mittleres Risiko gegenüber einem hohen Risiko bei Patienten im Stadium II hin (P-Werte zwischen 0,005 und 0,05) (Abb. 5).

Für Patienten mit Darmkrebs im Stadium II (links) und III (rechts) werden Überlebensdiagramme angezeigt, die auf Risikoquantilen basieren, die aus vorhergesagten Wahrscheinlichkeiten des BART-Risikomodells abgeleitet wurden. Die Tabelle zeigt das Cox-Proportional-Hazards-Modell unter Verwendung von Risikoquantilen und dem Gesamt-P-Wert anhand des Log-Rank-Tests. BART Bayesianische additive Regressionsbäume, CI-Konfidenzintervall, HR-Hazard-Ratio.

Eine externe Validierung mit TCGA-Daten zeigte, dass das BART-Risikovorhersagemodell eine AUC von 0,68 erreichte, basierend auf 106 von 371 Patienten im Stadium II–III mit 5-Jahres-Gesamtüberlebensinformationen (d. h. Patienten, die innerhalb von 5 Jahren starben oder mindestens 5 Jahre überlebten). Jahre) (Ergänzende Abbildung 2). Das Fünf-Jahres-Gesamtüberleben wurde als Ersatzendpunkt verwendet und die Zensierung wurde auf 5 Jahre festgelegt (siehe „Methoden“), da keine Informationen zum kolorektalen Krebs-spezifischen Überleben verfügbar waren. Der vollständige TCGA-Datensatz von 371 Patienten mit Darmkrebs im Stadium II–III wurde auf der Grundlage der vorhergesagten Wahrscheinlichkeiten des 5-Jahres-Überlebensstatus in drei Risikoquantile unterteilt (geringes Risiko bei ≥ 0,662, mittleres Risiko bei ≥ 0,517 und < 0,662, hohes Risiko bei < 0,517). ) und in ein Cox-Proportional-Hazards-Modell integriert. Das Modell ergab einen signifikanten Unterschied zwischen Quantilen mit niedrigem und hohem Risiko (HR 0,26, 95 %-KI 0,12–0,53, P-Wert 0,0002) und Hinweise auf den Unterschied zwischen Quantilen mit niedrigem und mittlerem Risiko (HR 0,42, 95). % CI 0,20–0,89, P-Wert 0,02), mit einem Log-Rank-Test-P-Wert von 0,0004 über die Quantile (Abb. 4b). In einem multivariaten Cox-Proportional-Hazards-Modell mit Anpassung an das Stadium (P-Wert 0,005, Tabelle 2) und einem multivariaten Cox-Proportional-Hazards-Modell unter Anpassung aller im Modell enthaltenen unabhängigen Prädiktoren (P-Wert 0,03, Tisch 3).

Eine separate Analyse, die nur auf Daten zu Stadium II oder III basierte, zeigte, dass das 5-Jahres-Gesamtüberleben bei Patienten im Stadium III deutlich zwischen Niedrigrisiko- und Hochrisikogruppen unterschied (P-Wert 0,008); Sie zeigten jedoch keinerlei Signifikanz für Patienten im Stadium II (Abb. 6).

Im TCGA-Datensatz werden Überlebensdiagramme für Patienten mit Darmkrebs im Stadium II (links) und III (rechts) angezeigt, die auf Risikoquantilen basieren, die aus vorhergesagten Wahrscheinlichkeiten abgeleitet werden, die vom BART-Risikomodell generiert werden. Die Tabelle zeigt das Cox-Proportional-Hazards-Modell unter Verwendung von Risikoquantilen und dem Gesamt-P-Wert anhand des Log-Rank-Tests. BART Bayesianische additive Regressionsbäume, CI-Konfidenzintervall, HR-Hazard-Ratio.

In der ergänzenden Abbildung 3 ist eine Benutzeroberfläche für einen Risikovorhersagerechner dargestellt, die die sieben signifikanten und stabilen Variablen als Eingabe verwendet, fehlende Werte zulässt und jeweils die Überlebenswahrscheinlichkeit und die Risikogruppe (geringes Risiko, mittleres Risiko oder hohes Risiko) ausgibt betreffenden Patienten. Eine experimentelle Version des BART-Risikovorhersagemodells steht unter https://github.com/mm-zhao/BART zum Download bereit.

In dieser multivariablen Studie zur Vorhersage des Überlebens von Darmkrebs zeigte BART eine vergleichbare Modellleistung über mehrere Zufallsläufe hinweg im Vergleich zu anderen nichtlinearen Lernmodellen und der linearen LASSO-Regression. Innerhalb der BART-Modelle waren die stabilsten Prädiktoren für das kolorektale krebsspezifische 5-Jahres-Überleben im Stadium II–III die positive Lymphknotenzahl, die negative Lymphknotenzahl, die Tiefe der Tumorinvasion, der MSI-Status, die Tumorstelle, das Alter und das Ausmaß der extraglandulären Nekrose . Alle Variablen können bei der routinemäßigen klinischen Beurteilung von Darmkrebs verfügbar sein, wenn ein Pathologe (oder ein Algorithmus mit künstlicher Intelligenz/digitale Bildanalyse) das Ausmaß der extraglandulären Nekrose erfassen kann, die unter den sieben Variablen den geringsten Beitrag leistet. Ein auf diesen Variablen basierendes Risikovorhersagemodell wurde erstellt, um Patienten in Gruppen mit niedrigem, mittlerem und hohem Risiko einzuteilen.

Rasante Entwicklungen in der Darmkrebsforschung haben dazu geführt, dass molekulare Faktoren wie der MSI-Status und Mutationen in KRAS und BRAF als wichtige Merkmale für die Steuerung der Krebsbehandlung bei Patienten im Stadium II–IV in die neueste Ausgabe des AJCC (American Joint Committee) aufgenommen wurden on Cancer) Cancer Staging Manual15. Während die Stadieneinteilung bei Darmkrebs derzeit ausschließlich auf anatomischen Merkmalen basiert, haben sich alternative Klassifizierungsschemata wie der Immunoscore als nützlich erwiesen, um die Patientenprognose auf der Grundlage von T-Zell-Dichtequantilen zu klassifizieren16. Bei Darmkrebs im Stadium II und III, wo die Klassifizierung starke Auswirkungen auf die Behandlungsstrategien hat, ist die Stadieneinteilung eine entscheidende, aber auch herausfordernde Angelegenheit. Daher kann die Hinzufügung prognostischer Faktoren über die anatomische Tumorausbreitung hinaus in einem standardisierten Risikomodell dazu beitragen, die Diagnose zu verfeinern und zusätzliche patientenspezifische Überlebensinformationen für das klinische Management bereitzustellen.

Anwendungen statistischer Lernalgorithmen bei der Krebsklassifizierung und Prognosevorhersage haben im letzten Jahrzehnt aufgrund ihrer Fähigkeit, komplexe Zusammenhänge in einem hochdimensionalen Kontext zu modellieren, an Bedeutung gewonnen. Laut einer Literaturstudie von Kourou et al.17 haben KNN-basierte Algorithmen in der Krebsforschung, insbesondere in bildbasierten Studien, an Bedeutung gewonnen. Im Vergleich zu ANN-basierten Modellen haben Ensembleklassifizierungs- und Regressionsbäume, obwohl sie in der Krebsliteratur weniger verbreitet sind, besondere Vorteile als flexible Lernmodelle, die wenige Abstimmungsparameter erfordern und Modellinterpretationen auf variabler Ebene ermöglichen. Diese Algorithmen haben im Vergleich zu Deep-Learning-Methoden eine überlegene Leistung beim Umgang mit heterogenen Datensätzen gezeigt17, mit insgesamt besserer Leistung in einer systematischen Überprüfung aller Lernmodelle18. Wir haben die Leistung von BART anhand einer Reihe von Lernmodellen in unserem Studiendatensatz getestet. Wir fanden heraus, dass Ensemble-Methoden im Vergleich zu SVM und ANN mit einer einzelnen verborgenen Schicht hinsichtlich der ROC-Leistung günstiger waren und dass BART über 100 Zufallsdurchläufe hinweg die bevorzugte Ensemble-Methode war. Die lineare LASSO-Regression schnitt in allen Läufen in unserem Datensatz geringfügig besser ab als BART. Allerdings ist BART im Vergleich insgesamt ein flexibleres und anpassungsfähigeres Modell, da LASSO-Modelle von vornherein eine manuelle Hinzufügung von Interaktionen erfordern und nicht in der Lage sind, nichtlineare Beziehungen zu modellieren oder fehlende Werte zu verarbeiten.

Ensemble-Methoden gewährleisten die Interpretierbarkeit des Modells durch variable Wichtigkeit und partielle Abhängigkeitsmaße. Eine Erweiterung der Variablenwichtigkeitsmaße unter Verwendung des Permutationstests, von dem eine Form in dieser Studie verwendet wurde, hat eine Verringerung der Variablenselektionsverzerrung und der Robustheit bei Analysen hochdimensionaler Datensätze gezeigt19. Wir fanden heraus, dass BART verwendet werden kann, um einflussreiche Variablen für Vorhersagen zur Klassifizierung des Darmkrebsstadiums und zum kolorektalkrebsspezifischen Überleben auf robuste Weise zu identifizieren. Viele der ausgewählten Variablen sind in der Literatur als wichtige Prognosefaktoren bekannt, was zeigt, dass BART zuverlässig aussagekräftige Variablen für die Vorhersage des Überlebens auswählen kann. Aus einem Satz der 75 Kandidatenmerkmale, darunter klinische, epidemiologische, immunologische, mikrobielle und tumormolekulare Faktoren, isolierte das BART-Modell zuverlässig eine Untergruppe beitragender Variablen über fünffache Kreuzvalidierung und Zufallsläufe. Mithilfe einer posterioren Stichprobe auf der Grundlage des Bayes'schen Wahrscheinlichkeitsmodells von BART konnten wir glaubwürdige Intervalle des Einflusses einzelner Variablen auf das Ergebnis abschätzen, wie durch partielle Abhängigkeitsdiagramme veranschaulicht. Somit konnten wir sowohl den Trend des variablen Einflusses als auch den Grad der mit dem Einfluss verbundenen Sicherheit innerhalb der Modelle erfassen.

Unsere Analysen zeigten, dass die Gruppe mit mittlerem Risiko im Vergleich zu den Gruppen mit niedrigem und hohem Risiko im primären Datensatz statistisch signifikante Überlebenschancen hatte. Diese Bedeutung spiegelt sich jedoch nicht so deutlich in der externen Validierung mit TCGA-Daten wider, insbesondere bei Substage-Analysen. Die externen Validierungs- und Substage-Analysen sind möglicherweise nicht ausreichend aussagekräftig, obwohl der Trend vielversprechend ist und mit den Primärdaten übereinstimmt. Die Kategorie mit mittlerem Risiko erfordert möglicherweise ein aggressiveres klinisches Management als diejenigen aus der Kategorie mit niedrigem Risiko, obwohl dies im Hinblick auf die Auswirkungen auf die Behandlung im klinischen Umfeld noch weiter untersucht werden muss.

Partielle Abhängigkeitsdiagramme wichtiger Variablen in den BART-Modellen zeigten Beziehungen zwischen Prädiktorvariablen und Ergebnissen, die mit den zuvor in der Literatur berichteten übereinstimmen, einschließlich MSI-Status und negativer Lymphknotenzahl als günstige Prognosefaktoren und extraglanduläre Nekrose als ungünstige Prognosefaktoren bei Darmkrebs20,21, 22. Darüber hinaus verdeutlichen die partiellen Abhängigkeitsdiagramme die nichtlineare Natur der Beziehungen zwischen mehreren Variablen und dem Überleben, wie z. B. das schlechtere Überleben für Tumoren, die aus dem aufsteigenden Dickdarm entstehen, im Vergleich zu anderen Standorten.

Im Stadium II, in dem Hochrisikofaktoren und das Stadieneinteilung einen starken Einfluss auf die klinische Entscheidung für eine Chemotherapie haben23, bestätigen unsere Ergebnisse, dass Variablen, die nicht traditionell bei der TNM-Einstufung verwendet werden, im klinischen Umfeld zur Vorhersage und Verfeinerung der Prognose verwendet werden können. Mehrere vom National Comprehensive Cancer Network (NCCN) herausgegebene Leitlinien legen nahe, dass Tumoren im Stadium II mit Hochrisikomerkmalen wie lymphovaskulärer Invasion, perineuraler Invasion, weniger als 12 untersuchten Lymphknoten, positiven Operationsrändern und schlechter Tumordifferenzierung davon profitieren könnten adjuvante Chemotherapie24. Allerdings gibt es derzeit keinen klinischen Standard für die Identifizierung von Hochrisiko-Darmkrebs im Stadium II, ein Problem, das durch die Vielzahl von Variablen und deren Wechselbeziehungen, die das Überleben bei Darmkrebs beeinflussen können, noch verschärft wird. Eine Studie von Babcock et al. stellten fest, dass nicht alle Hochrisikomerkmale die gleichen negativen Auswirkungen auf das Überleben von Darmkrebs haben, wobei pT4-Tumoren in Kombination mit anderen Hochrisikomerkmalen den größten Überlebensvorteil einer adjuvanten Chemotherapie darstellen25. Durch variable Einschlussanteile und partielle Abhängigkeitsdiagramme in den BART-Modellen haben wir herausgefunden, dass ausgewählte Merkmale unterschiedliche Auswirkungen auf das Patientenüberleben haben. Beispielsweise haben Variablen wie die positive Lymphknotenzahl, die negative Lymphknotenzahl und die Tiefe der Tumorinvasion einen stabileren und robusteren Einfluss auf das Überleben als die Tumorstelle. Dennoch ist eindeutig ein größerer Datensatz erforderlich, um die prognostische Rolle der detaillierten Tumorlokalisation und die modifizierende Wirkung tumorpathologischer Merkmale besser bewerten zu können26, was in Zukunft weiter zu einer prognostischen Stratifizierung der Patienten beitragen könnte. Ein Vorhersagemodell mit intrinsischer Gewichtung von Schlüsselvariablen kann daher zur Standardisierung der Risikobewertung verwendet werden und als Risikorechner zur Führung klinischer Entscheidungen fungieren, ähnlich wie andere etablierte Modelle zur Risikovorhersage bei Darmkrebs27,28. Es muss noch ermittelt werden, wie verschiedene Behandlungsmodalitäten in robuste Modelle zur Vorhersage des Mortalitätsrisikos integriert werden können.

In den letzten Jahren hat der Einsatz statistischer Lernmodelle zur Stratifizierung von patientenrisikobasierten Pathologiedaten auf Folienebene durch Deep-Learning-Methoden oder die Aggregation mehrerer Einflussfaktoren Erfolg bei der Vorhersage von Prognosen mit einer Genauigkeit gezeigt, die über das hinausgeht, was zuvor mit einem einzelnen Schlüssel erreichbar war Variablen wie Tumortiefe, MSI-Status und Bewertung der tumorinfiltrierenden Lymphozyten. Beispielsweise wurde ein auf künstlicher Intelligenz (KI) basierender Immunscore aus einem Deep-Learning-Modell unter Verwendung von Hämatoxylin und Eosin (H&E) sowie immunhistochemischen Färbungen von Immunsubtypen von Patienten mit allen Stadien von Darmkrebs erstellt und in einem multivariaten Cox-Proportional-Hazards-Modell gefunden um Patienten signifikant in prognostische Gruppen einzuteilen29. Andere Methoden wie die Verwendung von Random Forest oder verallgemeinerten linearen Modellen zur Aggregation mehrerer klinischer Variablen und der Genexpression bei Darmkrebs zeigten eine AUC von etwa 0,7–0,8 bei der Vorhersage des Überlebens30. Während viele bestehende Modelle Patienten aller Stadien zusammenfassen, einschließlich lokaler Tumoren (Stadium I) und metastasierender Tumoren (Stadium IV), konzentriert sich unser BART-Risikomodell auf die Population von Patienten mit Darmkrebs im Stadium II/III, um aussagekräftige, fein abgestimmte Risiken bereitzustellen Stratifizierung für Patienten, bei denen die Behandlung mit adjuvanter Chemotherapie derzeit stark vom Vorhandensein von Lymphknotenmetastasen abhängt, die einem Stichprobenfehler unterliegen, und bei denen die Intensität und Dauer der Behandlung von der Risikobewertung abhängt, die derzeit nicht standardisiert ist3. Indem wir uns auf diese Patientengruppe konzentrierten, wollten wir ein Modell schaffen, das in der aktuellen Behandlungslandschaft für Darmkrebs einen klaren und unmittelbaren klinischen Nutzen hat. Darüber hinaus hat die alleinige Verwendung von folienbasierten Informationen unter Verwendung von Deep-Learning-Modellen oder eines Ensembles von Deep-Learning-Modellen die Fähigkeit gezeigt, Hochrisiko- und Niedrigrisikogruppen bei Patienten im Stadium II/III mit Darmkrebs zu unterscheiden31,32. Zukünftige Entwicklungen, einschließlich der Einbeziehung von Deep-Learning-Methoden zum Erlernen spezifischer folienbasierter Merkmale anstelle der manuellen Bewertung von Folienmerkmalen, wie z. B. dem Ausmaß der extraglandulären Nekrose, würden dazu beitragen, die Interpretierbarkeit des Modells zu bewahren und gleichzeitig die Effizienz und Konsistenz und damit den Nutzen von weiter zu erhöhen die aktuelle Version des in dieser Studie beschriebenen Risikomodells.

Die externe Validierung mithilfe des Datensatzes „The Cancer Genome Atlas“ (TCGA) zeigte, dass unser Bayes’sches Risikomodell möglicherweise auf andere Datensätze verallgemeinert werden kann, wobei der Nutzen erhalten bleibt und Patienten in statistisch signifikante Risikogruppen unterteilt werden können. Aufgrund fehlender Informationen zum kolorektalkrebsspezifischen Überleben und kürzeren Nachbeobachtungszeiten konnte der TCGA-Datensatz derzeit jedoch nicht optimal als Validierungssatz verwendet werden. In einem anderen bestehenden Datensatz, dem Surveillance, Epidemiology, and End Results (SEER)-Programm, fehlen detaillierte Informationen zu Tumoreigenschaften. Kontinuierliche Bemühungen zur Datenerfassung und Einbeziehung weiterer klinischer, epidemiologischer und molekularer Variablen in Krebsregister können dazu beitragen, wertvolle Validierungsdaten für zukünftige Studien bereitzustellen.

Zu den weiteren Einschränkungen dieser Studie gehört, dass unsere Studie zwar versucht hat, mehrere relevante und etablierte Hochrisikomerkmale für Stadium II, wie z. B. lymphovaskuläre Invasion und perineurale Invasion, einzubeziehen, der Grad des Fehlens und der Messunsicherheit bei der Erhebung dieser Daten jedoch möglicherweise einen Einfluss darauf gehabt haben könnte ihren messbaren Einfluss innerhalb unserer Modelle. Wenn mehr Daten verfügbar werden, wäre es von großem Interesse, diese Variablen zusammen mit den in dieser Studie als wichtig erachteten Merkmalen zu untersuchen. Da wir in unseren Kohortendatensätzen Immundichtemessungen und Whole-Exome-Sequencing (WES) auf eine Untergruppe von Darmkrebsarten angewendet haben, könnte es interessant sein, umfassendere Immun- und Mutationsprofile als Prädiktoren in zukünftige Modelle einzubeziehen. Obwohl sich die BART-Modelle in dieser Studie auf das kolorektalkrebsspezifische Überleben konzentrieren, um das mögliche Rauschen und Störfaktoren im Zusammenhang mit Messungen des Gesamtüberlebens zu reduzieren, können andere Modifikationen und Überlegungen hilfreich sein. Da für diese Studie beispielsweise keine Behandlungsinformationen verfügbar waren, hatten wir keine Möglichkeit, den Zusammenhang zwischen den erhaltenen Behandlungen auf der Grundlage von Stadieneinteilung und Überleben festzustellen. Daher konnten wir nicht feststellen, ob das Überleben im Stadium II durch die zusätzliche adjuvante Therapie beeinträchtigt worden sein könnte. Während das Ausmaß der extraglandulären Nekrose anhand von TCGA-H&E-Objektträgern beurteilt werden konnte, beschränkte sich die histopathologische Beurteilung jedes Falles im Allgemeinen auf einen Objektträger, oft mit kleinen Gewebemengen. Daher kann die Variabilität der Probenahme die Darstellung des Ausmaßes der Nekrose einschränken. Studien mit mehrdimensionalen Datensätzen, die die Auswertung von Behandlungsinformationen umfassen, würden dazu beitragen, den Zusammenhang zwischen Behandlung und Überleben im Kontext der Risikoklassifizierung bei Darmkrebs im Stadium II aufzuklären.

Unsere Studie weist bemerkenswerte Stärken auf. Erstens umfasst unsere Forschungsdatenbank zur molekularpathologischen Epidemiologie von Darmkrebspatienten viele mögliche Prognosefaktoren, die umfassende multivariable Bewertungen und Vergleiche ermöglichen33,34. Zweitens repräsentiert unsere Patientenpopulation Fälle von Darmkrebs, die in gut etablierten US-weiten prospektiven Kohortenstudien aufgetreten sind. Dementsprechend umfassten unsere Probanden Patienten, die sich einer Krebsresektion und -behandlung in verschiedenen Regionen und Arten von Krankenhäusern unterzogen hatten, ohne dass es Hinweise auf eine Selektionsverzerrung gab35, was die Generalisierbarkeit der Ergebnisse erhöht. Darüber hinaus haben wir umfassende und strenge Bewertungen der getesteten Modelle im Hinblick auf Vorhersageleistung und Interpretierbarkeit durchgeführt. Durch diese Studie haben wir die Fähigkeit von BART-Modellen veranschaulicht, durch den Einsatz von Bayes'schen Rahmenwerken innerhalb einer Ensemble-Summen-von-Bäume-Architektur Einblicke in den Grad der Sicherheit zu geben und die wichtigsten Variablen, die zum Überleben beitragen, aus einer umfassenden Liste von Potenzialen zuverlässig zu erkennen Variablen.

Zusammenfassend lässt sich sagen, dass statistische Lernmodelle, die gleichzeitig mehrere Variablen unter Berücksichtigung der Nichtlinearität integrieren, eine gute Leistung bei der Vorhersage des kolorektalkrebsspezifischen Überlebens gezeigt haben. Ensemble-Methoden wie BART ermöglichen Modellflexibilität und Interpretierbarkeit, um Variablen zu identifizieren, die zum Überleben des Patienten beitragen. Fokussierte Studien zu den identifizierten Variablen können dabei helfen, Mechanismen des Krankheitsverlaufs aufzuklären, und die Einbeziehung dieser Variablen in oder neben dem aktuell bestehenden Stadieneinteilungssystem kann zu einer präziseren prognostischen Stratifizierung führen, um die Behandlung von Patienten mit Darmkrebs zu leiten.

Die Studie wurde anhand zweier laufender prospektiver Kohortenstudien in den USA durchgeführt: der Nurses' Health Study (NHS), die 1976 ins Leben gerufen wurde und an der 121.701 registrierte Krankenschwestern im Alter von 30 bis 55 Jahren zu Studienbeginn teilnahmen, und der Health Professionals Follow-up Study (HPFS), das 1986 ins Leben gerufen wurde und an dem zu Studienbeginn 51.529 männliche Gesundheitsfachkräfte im Alter von 40–75 Jahren teilnahmen36. Für beide Kohorten wurden alle zwei Jahre Fragebögen verschickt, um demografische, Lebensstil-, medizinische und andere relevante Gesundheitsinformationen zu erfassen. Detaillierte Ernährungsdaten wurden alle 4 Jahre durch semiquantitative Fragebögen zur Nahrungsmittelhäufigkeit erhoben. Die Rücklaufquote betrug in beiden Kohortenstudien für jeden Folgefragebogenzyklus mehr als 90 %. Die Teilnehmer wurden gebeten, Informationen zu Ernährungs- und Lebensstilfaktoren wie Größe, Gewicht, Rauchen, Einnahme von Aspirin und anderen nichtsteroidalen entzündungshemmenden Medikamenten, Alkoholkonsum und Konsum von rotem Fleisch anzugeben. In beiden Studien wurde der National Death Index verwendet, um Todesfälle von Studienteilnehmern zu ermitteln und nicht gemeldete tödliche Fälle von Darmkrebs zu identifizieren.

Basierend auf dem kolorektalen Kontinuumsmodell37 wurden Teilnehmer, die während der Studienzeiträume entweder Dickdarm- oder Rektumadenokarzinome entwickelten, in diese Studie einbezogen. Von allen Studienteilnehmern wurde eine schriftliche Einverständniserklärung eingeholt. Die teilnehmenden Ärzte, denen die Expositionsdaten nicht bekannt waren, überprüften die Krankenakten der identifizierten Darmkrebsfälle, um die Krankheitsdiagnose (d. h. kolorektales Adenokarzinom) zu bestätigen und Daten zu klinisch-pathologischen Merkmalen zu sammeln, darunter Tumorgröße, anatomische Lage des Tumors, AJCC-TNM-Stadium und die Zahlen der Lymphknoten, die positiv und negativ für Tumormetastasen sind, und Todesursache (bei verstorbenen Patienten). Informationen zur Tumorstelle (Blinddarm, aufsteigender Dickdarm, Leberflexur, Querkolon, Milzflexur, absteigender Dickdarm, Sigma, Rektosigmoidübergang und Rektum) wurden auf der Grundlage veröffentlichter Daten zur computertomographischen Kolonographie in die durchschnittliche Entfernung vom Analrand übersetzt38,39 . Archiviertes, formalinfixiertes, in Paraffin eingebettetes (FFPE) Tumorgewebe für 1620 Teilnehmer, bei denen ein kolorektales Adenokarzinom diagnostiziert wurde, konnte von Einrichtungen erhalten werden, in denen Tumorresektionen durchgeführt wurden. In unsere aktuelle Analyse haben wir 815 Patienten mit Darmkrebs im Stadium II und III einbezogen (Abb. 1). Von allen Studienteilnehmern wurde eine schriftliche Einverständniserklärung eingeholt. Das Studienprotokoll wurde von den institutionellen Prüfungsausschüssen des Brigham and Women's Hospital und der Harvard TH Chan School of Public Health (Boston, MA, USA) sowie bei Bedarf von denen der teilnehmenden Register genehmigt.

Ein einzelner Pathologe (SO), der gegenüber anderen Daten blind war, führte eine gründliche pathologische Untersuchung der mit Hämatoxylin und Eosin gefärbten Gewebeschnitte aller kolorektalen Karzinomfälle durch und zeichnete die histopathologischen Merkmale auf, einschließlich Tumordifferenzierung, Muster und Ausmaß der lymphatischen Reaktionen, lymphovaskuläre Invasion, perineurale Invasion und das prozentuale Ausmaß (von 0 bis 100 %) der Siegelringzellkomponente, des extrazellulären Mucins und des extraglandulären nekrotischen Bereichs. Alle diese Merkmale wurden separat erfasst40. Die Anteile wurden weiter kategorisiert, basierend auf Quantilen für den Prozentsatz der Siegelringzellen und Ordnungsklassen (in Schritten von 10 %) für den schleimigen Prozentsatz (bis zu 100 %, 11 Kategorien) und den extraglandulären nekrotischen Bereich (bis zu 40 %, 6 Kategorien). Die Tumordifferenzierung wurde ebenfalls als mäßig (>50 % Drüsenfläche) oder schlecht (≤50 % Drüsenfläche) eingestuft. Vier Komponenten der histopathologischen lymphatischen Reaktion auf den Tumor, tumorinfiltrierende Lymphozyten (TIL), intratumorale periglanduläre Reaktion, peritumorale lymphatische Reaktion und Morbus Crohn-ähnliche lymphatische Reaktion, wurden wie zuvor beschrieben aufgezeichnet41. Kurz gesagt wurde TIL als Lymphozyten auf Tumorzellen definiert, intratumorale periglanduläre Reaktion als lymphoide Reaktion im Tumorstroma innerhalb der Tumormasse, peritumorale lymphatische Reaktion als diskrete lymphoide Reaktionen rund um den Tumor und Morbus Crohn-ähnliche Reaktion als transmurale lymphoide Reaktion Reaktion. Jede der vier Komponenten der lymphatischen Reaktion wurde mit 0 bis 3 bewertet (nicht vorhanden/minimal, leicht, mäßig und stark), und die Gesamtbewertung der lymphatischen Reaktion (0–12) war die Summe der Bewertungen für die oben genannten vier Reaktionskomponenten.

Genomische DNA wurde aus archivierten FFPE-Gewebeschnitten von kolorektalem Karzinom und normalem Gewebe mit dem QIAamp DNA FFPE Tissue Kit (Qiagen, Hilden, Deutschland) extrahiert. Der Tumor-MSI-Status wurde mithilfe der Polymerasekettenreaktion (PCR) von 10 Mikrosatellitenmarkern (D2S123, D5S346, D17S250, BAT25, BAT26, BAT40, D18S55, D18S56, D18S67 und D18S487) analysiert, und MSI-hoch wurde als Vorliegen einer Instabilität definiert ≥30 % der Marker37. Der Methylierungsstatus von acht für den CpG-Inselmethylator-Phänotyp (CIMP) spezifischen Promotoren (CACNA1G, CDKN2A, CRABP1, IGF2, MLH1, NEUROG1, RUNX3 und SOCS1) und dem lang eingestreuten Nukleotidelement-1 (LINE-1) wurde mithilfe von Bisulfit bestimmt. behandelte DNA37. CIMP-hoch wurde als ≥ 5 methylierte Promotoren von acht Promotoren definiert und CIMP-niedrig/negativ als 0–4 methylierte Promotoren. PCR und Pyrosequenzierung wurden für KRAS (Codons 12, 13, 61 und 146), BRAF (Codon 600) und PIK3CA (Exons 9 und 20)42 durchgeführt. Die PCR-Primer waren 5′-NNNGGCCTGCTGAAAATGACTGAA-3′ (für Vorwärtsprimer) und 5′-[Bio TEG]TTAGCTGTATCGTCAAGGCACTCT-3′ (für Rückwärtsprimer) zur Amplifikation der KRAS-Codons 12 und 13, 5′-Biotin-TGGAGAAACCTGTCTCTTGGATAT-3′ (für Vorwärtsprimer) und 5′-TACTGGTCCCTCATTGCACTGTA-3′ (für Rückwärtsprimer) zur Amplifikation des KRAS-Codons 61, 5′-ATGGAATTCCTTTTATTGAAACATC-3′ (für Vorwärtsprimer) und 5′-Biotin-TTGCAGAAAACAGATCTGTATTTAT-3′ (für Rückwärtsprimer). ) für KRAS-Codon 146, 5′-CAGTAAAAATAGGTGATTTTG-3′ (für Vorwärtsprimer) und 5′-Biotin-CAACTGTTCAAACTGATGGG-3′ (für Rückwärtsprimer) für BRAF-Codon 600, 5′-Biotin-AACAGCTCAAAGCAATTTCTACAC-3′ (für Vorwärtsprimer). Primer) und 5′-ACCTGTGACTCCATAGAAAATCTT-3′ (für Rückwärtsprimer) für PIK3CA-Exon 9 und 5′-Biotin-CAAGAGGCTTTGGAGTATTTCA-3′ (für Vorwärtsprimer) und 5′-CAATCCATTTTTGTTGTCCA-3′ (für Rückwärtsprimer) für PIK3CA Exon 20. Die Sequenzierungsprimer waren 5′-TGTGGTAGTTGGAGCTG-3′ (PF1), 5′-TGTGGTAGTTGGAGCT-3′ (PF2) und 5′-TGGTAGTTGGAGCTGGT-3′ (PF3) für die KRAS-Codons 12 und 13, 5′- TCATTGCACTGTACTCCTC-3′ für KRAS-Codon 61, 5′-AATTCCTTTTATTGAAACATCA-3′ für KRAS-Codon 146, 5′-TGATTTTGGTCTAGCTACA-3′ für BRAF-Codon 600, 5′-CCATAGAAAATCTTTCTCCT-3′ (RS1), 5′-TTCTCCTT/GCTT /CAGTGATTT-3‘ (RS2), 5‘-TAGAAAATCTTTCTCTCTGCT-3‘ (RS3) für PIK3CA-Exon 19 und 5‘-GTTGTCCAGCCACCA-3‘ für PIK3CA-Exon 20.

Darüber hinaus wurde für eine Untergruppe von 720 Fällen, wie zuvor beschrieben, ein Tumormutationsprofil aus der Sequenzierung des gesamten Exoms (WES) für interessierende Gene (115 Gene, Ergänzungstabelle 3) ohne Pyrosequenzierungsdaten ermittelt . Kurz gesagt, DNA aus Tumorbereichen von Tumor-FFPE-Blöcken wurde zusammen mit gepaarter normaler DNA aus tumorfreien Bereichen oder Resektionsrändern extrahiert und einer Hybriderfassung mit SureSelect v.2 Exome Bait (Agilent Technologies) und einer Sequenzierung mit Illumina HiSeq 2000-Instrumenten unterzogen. Die Häufigkeit einzelner Nukleotidvarianten wurde nach MSI-Status stratifiziert und Gene mit signifikanten Mutationen über das Hintergrundmutationsniveau hinaus wurden für die Analyse berücksichtigt. Gene mit einer Häufigkeit nicht stiller Mutationen im Datensatz von weniger als 5 % wurden von der Analyse ausgeschlossen (die vollständige Liste der in die Analyse einbezogenen Mutationen finden Sie in der Ergänzungstabelle 1).

Wir führten einen quantitativen PCR-Assay durch, um die Menge an DNA der Gattungen Fusobacterium nucleatum und Bifidobacterium im Tumorgewebe zu messen, wie zuvor beschrieben38,44. Die Menge an DNA der Gattungen Fusobacterium nucleatum und Bifidobacterium in jeder Tumorprobe wurde als relativer Wert berechnet, der auf die Werte des menschlichen Referenzgens SLCO2A1 unter Verwendung der 2−ΔCt-Methode normiert wurde45. Fälle mit nachweisbarer Bifidobacterium-DNA wurden basierend auf der mittleren Schnittpunktmenge an Bifidobacterium als niedrig vs. hoch kategorisiert, während Fälle ohne nachweisbares Bifidobacterium als negativ kategorisiert wurden. Aufgrund des größeren Anteils der Abwesenheit von F. nucleatum-DNA in den Proben wurde F. nucleatum basierend auf dem Nachweis von F. nucleatum-DNA als nicht vorhanden oder vorhanden kategorisiert.

Wir haben Gewebe-Mikroarrays konstruiert, die bis zu vier Kerne aus Darmkrebs und bis zu zwei Kerne aus normalen Gewebeblöcken enthielten, wie in Lit. beschrieben. 46. ​​Wir verwenden das standardisierte Nomenklatursystem für Proteine, wie es vom Expertengremium47 empfohlen wird.

Immunhistochemische Analysen von PTGS2 (HGNC:9605; Cyclooxygenase-2), nuklearem CTNNB1 (HGNC:2514; Beta-Catenin), CD274 (HGNC:17635; PD-L1), PDCD1 (HGNC:8760; PD-1) und PDCD1LG2 (HGNC:18731; PD-L2) wurden unter Verwendung eines Anti-PTGS2-Antikörpers (1:300-Verdünnung; Cayman Chemical, Ann Arbor, MI, USA) und eines Anti-CTNNB1-Antikörpers (1:400-Verdünnung; BD Transduction Laboratories, Franklin Lakes) durchgeführt , NJ, USA), Anti-CD274-Antikörper (1:50 Verdünnung; eBioscience, San Diego, CA), Anti-PDCD1-Antikörper (1:1000 Verdünnung; Klon EH33) und Anti-PDCD1LG2-Antikörper (1:6000 Verdünnung; Klon). 366C.9E5), bzw.46,48,49,50. Anti-PDCD1-Antikörper und Anti-PDCD1LG2-Antikörper wurden im Labor von GJ Freeman am Dana-Farber Cancer Institute51 erzeugt.

Multispektrale Immunfluoreszenz wurde, wie zuvor beschrieben, unter Verwendung entparaffinierter 4-µm-Schnitte aus Gewebe-Microarray-Blöcken durchgeführt, und Gewebe-Microarray-Kerne wurden aus verschiedenen Bereichen des Tumors (d. h. Zentrum und Peripherie) entnommen52. Von jedem Fall wurden bis zu vier Tumorkerne gesammelt. Viele Kerne enthalten auch mikroskopisch kleine invasive Kanten (z. B. Tumorknospen), und die Merkmale dieser mikroskopisch kleinen invasiven Kanten ähnelten denen in der Tumorperipherie53. Primärantikörper gegen CD3 (1:75-Verdünnung; Klon F7.2.38; Dako; Agilent Technologies, Carpenteria, CA, USA), CD4 (1:50-Verdünnung; Klon 4B12; Dako), CD8 (1:150-Verdünnung; Klon C8/ 144B; Dako), CD45RO-Isoform der PTPRC-Produkte (1:50-Verdünnung; Klon UCHL1; Dako), FOXP3 (1:100-Verdünnung; Klon 206D; Biolegend, San Diego, CA) und KRT (Keratine, Pan-Cytokeratine) (Kombination aus 1:40-Verdünnung; Klon AE1/AE3; Dako und 1:400-Verdünnung; Klon C11; Cell Signaling, Danvers, MA, USA) und DAPI (Katalognummer FP1490, Akoya Biosciences, Marlborough, MA, USA) wurden mithilfe einer Tyramid-Signalverstärkungsmethode und Opal-Fluoreszenzfarbstoffen (Akoya Biosciences) nachgewiesen. Die gefärbten Objektträger wurden mit der multispektralen Bildgebungsplattform (Vectra 3.0, Akoya Biosciences) bei 200-facher Vergrößerung abgebildet. Multispektrale Bilder jedes Kerns wurden einer ersten Gewebesegmentierung unterzogen, um Regionen des Tumorepithels und des Stromas auf der Grundlage der KRT-Expression zu charakterisieren. Dabei kamen überwachte Algorithmen für maschinelles Lernen in Inform 2.4.1 (Akoya Biosciences) zum Einsatz. Nach der Gewebesegmentierung wurde die Zellzählung und -segmentierung unter Verwendung des DAPI-Signals durchgeführt, um die Identifizierung von Zellkernen zu erleichtern. Jede Zelle wurde weiter in Kern-, Zytoplasma- und Membrankompartimente unterteilt. Ein separater überwachter Algorithmus für maschinelles Lernen wurde verwendet, um T-Zellen auf der Grundlage einer Kombination aus Zytomorphologie und Expressionsmustern von T-Zell-Markern zu identifizieren. Diese Einzelzelldaten wurden dann verwendet, um die T-Zell-Subpopulationsdichten innerhalb einzelner Regionen zu berechnen. Anschließend wurden die aggregierten Dichten auf Tumorebene bestimmt, indem die durchschnittliche Dichte (Zellen/mm2) für jede Untergruppe in allen Regionen jedes Patienten berechnet wurde.

BART, ein Ensemble-Summen-von-Bäume-Modell unter einem Bayes'schen Paradigma, ist eine Erweiterung der Konzepte der Gradientenverstärkung, wobei jeder Baum \(g\left({x;}{T}_{j}{M}_{ j}\right)\) innerhalb eines Ensembles stellt einen Teil des endgültigen vorhergesagten Ergebnisses Y dar:

Unter dem Bayes'schen Paradigma wird zunächst ein Satz vorheriger Verteilungen für die Baumstruktur (T), die Blattparameter der Baumstruktur (M|T) und die Fehlervarianz (σ2) bestimmt, wie in Lit. beschrieben. 11. Die vorherigen Verteilungen werden dann anhand der beobachteten Daten iterativ aktualisiert, indem die Markov-Ketten-Monte-Carlo-Methode (MCMC) verwendet wird, die Auszüge aus der hinteren Verteilung \(P({T}_{1}^{M},\ldots ,{ T}_{m}^{M},{\sigma }^{2}|y)\).

Durch das Festlegen eines einheitlichen Priors für Prädiktorvariablen sowie eines Priors, der sich auf flache Baumtiefen von 2–3 Ebenen konzentriert, erzwingt die BART-Methode bei jeder Iteration eine Regularisierung mit schwachen Lernenden. Durch jede Iteration von MCMC unter Verwendung der Gibbs-Stichprobe wächst oder schrumpft das BART-Modell oder behält die Baumstruktur bei, indem Variablen, Variablenaufteilungspunkte und Endbeiträge in Bezug auf eine Wahrscheinlichkeitsverteilung basierend auf der Restminimierung ausgewählt werden. Die hinteren Stichproben spiegeln die wahre zugrunde liegende hintere Wahrscheinlichkeitsverteilung wider. Anschließend können weitere zusammenfassende Statistiken durchgeführt werden, um die erwarteten Werte und glaubwürdigen Intervalle der interessierenden Parameter zu bestimmen.

Unter Verwendung der Daten von 815 Studienteilnehmern (Abb. 1) führten wir eine zufällige 80–20-Trainings- (n = 652) vs. Testaufteilung (n = 163) durch, um die 5-Jahres-Überlebensvorhersage vorherzusagen. Insgesamt wurden in den Modellen zunächst 75 Variablen als Prädiktoren berücksichtigt. Ergänzende Tabelle 1 zeigt eine vollständige Liste der in dieser Studie verwendeten Prädiktorvariablen.

Für alle kontinuierlichen Variablen wurde eine Vorverarbeitung durchgeführt. Da die T-Zelldichten im Tumor stark verzerrt waren, wurden sie mithilfe der Yeo-Johnson-Transformation auf Normalität transformiert54. Kontinuierliche Variablen und ordinale Variablen mit mehr als zwei Ebenen wurden dann zentriert und mit einem Mittelwert von 0 und einer Standardabweichung von 1 skaliert. Anschließend wurden BART, lineare LASSO-Regression, GB, RF, adaptives Boosting, Support Vector Machine (SVM) und ANN-Algorithmen verwendet Die Ergebnisse wurden an den Trainingssätzen mit Parametern innerhalb eines Standardabstimmungsgitters durchgeführt, das durch das R-Caret-Paket festgelegt und durch Kreuzvalidierung optimiert wurde, und die Vorhersageleistung an den Validierungssätzen wurde durch ROC-Konkordanzstatistiken (Fläche unter der ROC-Kurve, AUC) gemessen. Um die interne Stabilität der Prädiktoren und die Modellleistung im Hinblick auf die AUC zu beurteilen, führten wir eine fünffache Kreuzvalidierung mit 80–20 Trainings- und Validierungsaufteilungen für jede Falte durch.

Für die Primäranalyse mit BART-Modellen wurden alle Variablen berücksichtigt; Es wurde keine Imputation durchgeführt und das Fehlen wurde als Knotenaufteilungsoption einbezogen (siehe Abb. 1)55. Für Vergleiche zwischen Lernalgorithmen wurde für alle Variablen vor der nachgelagerten Analyse eine K-Nearest Neighbor-Imputation durchgeführt, da nicht alle Algorithmen fehlende Daten zulassen.

Wichtige Variablen wurden anhand des Einschlussanteils und der permutierten Signifikanz auf der Grundlage lokaler Prozedurpermutationsmethoden über 1000 Permutationen bestimmt13. In dieser explorativen Analyse wurden Variablen basierend auf der permutierten Signifikanz bei einem P-Wert = 0,05 (Grad der suggestiven Evidenz56) für ≥10 Mal über zehn Zufallsläufe (d. h. Durchschnitt von ≥1/5-facher Kreuzvalidierung) ausgewählt. Für wichtige Variablen wurden partielle Abhängigkeitsdiagramme erstellt, indem Ergebnisvorhersagen gegen variierende einzelne Prädiktorwerte aufgetragen wurden, während alle anderen Variablen im trainierten Modell konstant gehalten wurden. Glaubwürdige Intervalle wurden generiert, indem der Durchschnitt und die Standardabweichung von 1000 hinteren Proben des BART-Modells ermittelt wurden.

Unter Verwendung der ausgewählten Variablen wurde ein BART-Risikovorhersagemodell erstellt, wobei eine einmalige Trainings-/Testaufteilung verwendet wurde, um die vorhergesagten Überlebenswahrscheinlichkeiten für jeden Patienten mit Darmkrebs im Stadium II oder III abzuschätzen. Die vorhergesagten Überlebenswahrscheinlichkeiten wurden bei allen Patienten im Stadium II–III weiter in gleich große Risikoquantile (geringes Risiko, mittleres Risiko und hohes Risiko) eingeteilt. Die Überlebensanalyse der Risikoquantile wurde mittels Cox-Proportional-Hazards-Regression und Log-Rank-Test durchgeführt. Die Cox-Proportional-Hazards-Annahme wurde nicht erfüllt, und daher sollten die Hazards Ratios (HRs) als gewichtete durchschnittliche HRs über die Zeit interpretiert werden57. Die multivariate Cox-Proportional-Hazards-Regression wurde mit ordinalen Risikogruppen (geringes Risiko bis hohes Risiko) und dem TNM-Stadium sowie ordinalen Risikogruppen mit Prädiktorvariablen des BART-Risikomodells durchgeführt. Hazard Ratios stellen Hazard Ratios dar, die mit einem Anstieg um eine Einheit in jeder Prädiktorvariablen verbunden sind, sofern nicht wie oben beschrieben eine andere Codierung erfolgt. Unter Berücksichtigung inhärenter Mehrfachvergleiche verwendeten wir für die Signifikanz den Alpha-Wert von 0,005 mit einem P-Wert zwischen 0,005 und 0,05 für Anhaltspunkte, wie vom statistischen Expertengremium56 empfohlen. Alle P-Werte stellen zweiseitige Tests dar. Die Angemessenheit der Kalibrierung des Risikovorhersagemodells wurde durch den Hosmer-Lemeshow-Anpassungstest58 bewertet.

Alle Algorithmen für maschinelles Lernen wurden mit dem Caret-Paket in R59 ausgeführt, einer Wrapper-API für bestimmte Pakete für maschinelles Lernen: bartMachine60, randomForest, gbm, nnet und e1071. Partielle Abhängigkeitsdiagramme wurden mit dem bartMachine-Paket in R erstellt. ROC-Diagramme wurden mit dem pROC-Paket in R erstellt. Überlebensdiagramme wurden mit dem Survminer-Paket in R erstellt. Cox-Proportional-Hazards-Modelle wurden mit dem Survival-Paket in R erstellt. Die Modellkalibrierung erfolgte analysiert über die plotCalibration-Funktion im PredictABLE-Paket in R. Die Schnittstelle des Risikovorhersagemodells wurde mit Shiny in R entworfen. Alle statistischen Analysen wurden mit R 4.1.1 durchgeführt.

Die neuesten Daten des Cancer Genome Atlas (TCGA) (Veröffentlichungsdatum 28. Januar 2016) wurden aus dem COADREAD-Projektdatensatz (Colorectal Adenocarcinoma) mit dem R-Paket RTCGA extrahiert. Patienten (n = 371) mit Darmkrebs im Stadium II–III und Überlebensinformationen wurden in den Validierungssatz einbezogen. Verfügbare Variablen, einschließlich positiver und negativer Lymphknotenzahlen, Tiefe der Tumorinvasion, Alter, Tumorlokalisation und Mikrosatelliteninstabilitätsstatus, wurden vom Server abgerufen und bei Bedarf in die gleichen Einheiten umformatiert, die im NHS/HPFS-Datensatz enthalten sind. Ein einzelner Pathologe (MZ), der gegenüber anderen Daten blind war, führte eine pathologische Untersuchung digitaler TCGA-Hämatoxylin- und Eosin-gefärbter Gewebeschnitte aller verfügbaren Fälle durch und zeichnete das Ausmaß der extraglandulären Nekrose auf. Da in der TCGA keine kolorektalkrebsspezifischen Überlebensinformationen verfügbar waren, wurde das 5-Jahres-Gesamtüberleben als Ersatzergebnis verwendet. In Überlebensanalysen wurde die Zensierung auf 5 Jahre festgelegt, da die meisten kolorektalen krebsspezifischen Todesfälle innerhalb von 5 Jahren nach der Krankheitsdiagnose auftreten, wie in den NHS/HPFS-Kohorten beobachtet.

Weitere Informationen zum Forschungsdesign finden Sie in der mit diesem Artikel verlinkten Nature Research Reporting Summary.

Aus Gründen der Vertraulichkeit und des Datenschutzes der Teilnehmer sind die Daten auf begründete schriftliche Anfrage verfügbar. Weitere Informationen, einschließlich der Verfahren zum Erhalten und Zugreifen auf Daten aus den Nurses' Health Studies und Health Professionals Follow-up Study, finden Sie unter https://www.nurseshealthstudy.org/researchers (Kontakt-E-Mail: [email protected]) und https://sites.sph.harvard.edu/hpfs/for-collaborators/.

Der gesamte Code wurde in R 4.1.1 implementiert, wobei Caret als primäres Paket für maschinelles Lernen verwendet wurde. Alle Codes und Skripte zur Reproduktion der Experimente dieser Arbeit stehen auf begründete schriftliche Anfrage für nichtkommerzielle akademische Zwecke zur Verfügung. Gemäß dem Standardverfahren für kontrollierten Zugriff werden Anträge auf Nutzung von NHS-/NHSII-/HPFS-Ressourcen von unserem Ausschuss für externe Mitarbeiter geprüft. Eine experimentelle Version des BART-Risikovorhersagemodells steht öffentlich zum Download unter https://github.com/mm-zhao/BART zur Verfügung.

Inamura, K. et al. Krebs als Mikroumwelt-, System- und Umweltkrankheiten: Chance für die transdisziplinäre Mikrobiom-Wissenschaft. Gut 71, 2107–2122 (2022).

Artikel CAS Google Scholar

Marshall, JL et al. Adjuvante Therapie bei Dickdarmkrebs im Stadium II und III: Konsensbericht der International Society of Gastrointestinal Oncology. Magen-Darm-Test. Krebs Res. 1, 146–154 (2007).

PubMed PubMed Central Google Scholar

Taieb, J. & Gallois, C. Adjuvante Chemotherapie bei Dickdarmkrebs im Stadium III. Krebserkrankungen 12, 2679 (2020).

Artikel CAS PubMed PubMed Central Google Scholar

Bai, J., Chen, H. & Bai, X. Zusammenhang zwischen Mikrosatellitenstatus und Immunmikroumgebung von Darmkrebs und seine Anwendung auf Diagnose und Behandlung. J. Clin. Labor. Anal. 35, e23810 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Mima, K. et al. Fusobacterium nucleatum im kolorektalen Karzinomgewebe und Patientenprognose. Darm. 65, 1973–1980 (2016).

Artikel CAS PubMed Google Scholar

Borozan, I. et al. Molekulare und pathologische Merkmale kolorektaler Tumoren und Patientenergebnisse werden mit Fusobacterium nucleatum und seiner Unterart Animalis in Verbindung gebracht. Krebsepidemiol., Biomark. Vorher. 31, 210–220 (2022).

Artikel CAS Google Scholar

Degenhardt, F., Seifert, S. & Szymczak, S. Evaluierung von Variablenauswahlmethoden für Zufallswälder und Omics-Datensätze. Knapp. Bioinforma. 20, 492–503 (2019).

Artikel Google Scholar

Xu, G., Zhang, M., Zhu, H. & Xu, J. Eine 15-Gen-Signatur zur Vorhersage des Wiederauftretens von Darmkrebs und Prognose basierend auf SVM. Gen. 604, 33–40 (2017).

Artikel CAS PubMed Google Scholar

Birks, J., Bankhead, C., Holt, TA, Fuller, A. & Patnick, J. Evaluierung eines Vorhersagemodells für Darmkrebs: retrospektive Analyse von 2,5 Millionen Patientenakten. Krebsmed. 6, 2453–2460 (2017).

Artikel PubMed PubMed Central Google Scholar

Wang, J. et al. Vorhersage der langfristigen Todesursache mehrerer Kategorien bei Patienten mit Prostatakrebs: Zufallswald versus multinomiales Modell. Bin. J. Cancer Res. 10, 1344–1355 (2020).

PubMed PubMed Central Google Scholar

Chipman, HA, George, EI & McCulloch, RE BART: Bayesianische additive Regressionsbäume. Ann. Appl. Stat. 4, 266–298 (2010).

Artikel Google Scholar

He, S., Li, Proteomics 9, 4176–4191 (2009).

Artikel CAS PubMed Google Scholar

Bleich, J., Kapelner, A., George, EI & Jensen, ST Variablenauswahl für BART: eine Anwendung auf die Genregulation. Ann. Appl. Stat. 8, 1750–1781 (2014).

Artikel Google Scholar

Sparapani, R., Logan, BR, McCulloch, RE & Laud, PW Nichtparametrische Analyse konkurrierender Risiken unter Verwendung bayesianischer additiver Regressionsbäume. Stat. Methoden Med. Res. 29, 57–77 (2020).

Artikel PubMed Google Scholar

Amin, MB et al. Das AJCC-Krebsstadiumshandbuch in der achten Auflage: Weiterer Brückenschlag von einem bevölkerungsbasierten zu einem stärker „personalisierten“ Ansatz bei der Krebsstadiumsbestimmung. CA Cancer J. Clin. 67, 93–99 (2017).

Artikel PubMed Google Scholar

Pagès, F. et al. Internationale Validierung des Konsens-Immunoscores zur Klassifizierung von Dickdarmkrebs: eine Prognose- und Genauigkeitsstudie. Lancet 391, 2128–2139 (2018).

Artikel PubMed Google Scholar

Kourou, K. et al. Angewandtes maschinelles Lernen in der Krebsforschung: eine systematische Überprüfung der Patientendiagnose, -klassifizierung und -prognose. Berechnen. Struktur. Biotechnologie. J. 19, 5546–5555 (2021).

Artikel PubMed PubMed Central Google Scholar

Caruana, R. & Niculescu-Mizil, A. Ein empirischer Vergleich überwachter Lernalgorithmen. in Proceedings of the 23rd International Conference on Machine Learning 161–168 (ACM, 2006).

Altmann, A., Toloşi, L., Sander, O. & Lengauer, T. Permutationswichtigkeit: ein korrigiertes Merkmalswichtigkeitsmaß. Bioinformatik 26, 1340–1347 (2010).

Artikel CAS PubMed Google Scholar

Popat, S., Hubner, R. & Houlston, RS Systematische Überprüfung der Mikrosatelliteninstabilität und der Prognose von Darmkrebs. JCO 23, 609–618 (2005).

Artikel CAS Google Scholar

Ogino, S. et al. Eine negative Lymphknotenzahl ist mit dem Überleben von Darmkrebspatienten verbunden, unabhängig von molekularen Tumorveränderungen und lymphozytären Reaktionen. Bin. J. Gastroenterol. 105, 420–433 (2010).

Artikel PubMed Google Scholar

Väyrynen, SA et al. Klinische Auswirkungen und Netzwerk von Determinanten der Tumornekrose bei Darmkrebs. Br. J. Cancer 114, 1334–1342 (2016).

Artikel PubMed PubMed Central Google Scholar

Baxter, NN et al. Adjuvante Therapie bei Dickdarmkrebs im Stadium II: Aktualisierung der ASCO-Richtlinie. JCO 40, 892–910 (2022).

Artikel CAS Google Scholar

Benson, AB et al. Einblicke in die NCCN-Richtlinien: Darmkrebs, Version 2.2018. J. Natl Compr. Krebsnetz. 16, 359–369 (2018).

Artikel Google Scholar

Babcock, BD et al. Dickdarmkrebs im Stadium II mit hohem Risiko: Nicht alle Risiken sind gleich. Ann. Surg. Onkol. 25, 1980–1985 (2018).

Artikel PubMed Google Scholar

Ugai, T. et al. Prognostische Rolle der detaillierten kolorektalen Lokalisation und der molekularen Merkmale des Tumors: Analysen von 13.101 Patienten mit Darmkrebs, darunter 2994 Fälle mit frühem Ausbruch. J. Gastroenterol. 58, 229–245 (2023).

Artikel CAS PubMed Google Scholar

Chang, GJ, Hu, C.-Y., Eng, C., Skibber, JM & Rodriguez-Bigas, MA Praktische Anwendung eines Rechners für das bedingte Überleben bei Darmkrebs. J. Clin. Onkol. 27, 5938–5943 (2009).

Artikel PubMed PubMed Central Google Scholar

Weiser, MR et al. Ein auf molekularen und klinisch-pathologischen Merkmalen basierender klinischer Rechner sagt ein Wiederauftreten nach der Resektion von Dickdarmkrebs im Stadium I–III voraus. J. Clin. Onkol. 39, 911–919 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Foersch, S. et al. Multistain Deep Learning zur Vorhersage der Prognose und des Therapieansprechens bei Darmkrebs. Nat. Med. 29, 430–439 (2023).

Artikel CAS PubMed Google Scholar

Gründner, J. et al. Vorhersage klinischer Ergebnisse bei Darmkrebs mithilfe von maschinellem Lernen. Zucht. Gesundheitstechnologie. Inf. 247, 101–105 (2018).

Google Scholar

Wulczyn, E. et al. Interpretierbare Überlebensvorhersage für Darmkrebs mithilfe von Deep Learning. NPJ-Ziffer. Med. 4, 1–13 (2021).

Artikel Google Scholar

Skrede, O.-J. et al. Deep Learning zur Vorhersage des Verlaufs von Darmkrebs: eine Entdeckungs- und Validierungsstudie. Lancet 395, 350–360 (2020).

Artikel CAS PubMed Google Scholar

Ogino, S., Nowak, JA, Hamada, T., Milner, DA & Nishihara, R. Einblicke in pathogene Wechselwirkungen zwischen Umwelt, Wirt und Tumor an der Schnittstelle von molekularer Pathologie und Epidemiologie. Annu. Rev. Pathol.: Mechan. Dis. 14, 83–103 (2019).

Artikel CAS Google Scholar

Mima, K. et al. Das Mikrobiom, die Genetik und gastrointestinale Neoplasien: das sich entwickelnde Gebiet der molekularpathologischen Epidemiologie zur Analyse der Tumor-Immun-Mikrobiom-Interaktion. Summen. Genet. 140, 725–746 (2021).

Artikel PubMed Google Scholar

Liu, L. et al. Nutzen der inversen Wahrscheinlichkeitsgewichtung in der molekularpathologischen Epidemiologie. EUR. J. Epidemiol. 33, 381–392 (2018).

Artikel PubMed Google Scholar

Nishihara, R. et al. Langfristige Inzidenz und Mortalität von Darmkrebs nach unterer Endoskopie. N. engl. J. Med. 369, 1095–1105 (2013).

Artikel CAS PubMed Google Scholar

Yamauchi, M. et al. Die Beurteilung der molekularen Merkmale von Darmkrebs entlang der Darmabschnitte stellt die Vorstellung einer deutlichen Dichotomie von proximalem und distalem Kolorektum in Frage. Gut 61, 847–854 (2012).

Artikel CAS PubMed Google Scholar

Mima, K. et al. Fusobacterium nucleatum im kolorektalen Karzinomgewebe nach Tumorlokalisation. Klin. Übers. Gastroenterol. 7, e200 (2016).

Artikel CAS PubMed PubMed Central Google Scholar

Khashab, MA, Pickhardt, PJ, Kim, DH & Rex, DK Kolorektale Anatomie bei Erwachsenen bei der Computertomographie-Kolonographie: Normalverteilung und die Auswirkung von Alter, Geschlecht und Body-Mass-Index. Endoskopie 41, 674–678 (2009).

Artikel CAS PubMed Google Scholar

Inamura, K. et al. Prognostische Bedeutung und molekulare Merkmale von Siegelringzellen und Schleimkomponenten beim kolorektalen Karzinom. Ann. Surg. Onkol. 22, 1226–1235 (2015).

Artikel PubMed Google Scholar

Ogino, S. et al. Eine lymphatische Reaktion auf Darmkrebs ist unabhängig von der Lymphknotenzahl, der Mikrosatelliteninstabilität und dem CpG-Inselmethylator-Phänotyp mit einem längeren Überleben verbunden. Klin. Krebs Res. 15, 6412–6420 (2009).

Artikel CAS PubMed PubMed Central Google Scholar

Imamura, Y. et al. Analysen klinisch-pathologischer, molekularer und prognostischer Zusammenhänge von KRAS-Codon-61- und Codon-146-Mutationen bei Darmkrebs: Kohortenstudie und Literaturübersicht. Mol. Krebs 13, 135 (2014).

Artikel PubMed PubMed Central Google Scholar

Gurjao, C. et al. Entdeckung und Merkmale einer Alkylierungssignatur bei Darmkrebs. Krebsentdeckung. 11, 2446–2455 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Mima, K. et al. Fusobacterium nucleatum und T-Zellen beim kolorektalen Karzinom. JAMA Oncol. 1, 653–661 (2015).

Artikel PubMed PubMed Central Google Scholar

Schmittgen, TD & Livak, KJ Analyse von Echtzeit-PCR-Daten mit der vergleichenden C(T)-Methode. Nat. Protokoll. 3, 1101–1108 (2008).

Artikel CAS PubMed Google Scholar

Chan, AT, Ogino, S. & Fuchs, CS Aspirin und das Risiko von Darmkrebs in Bezug auf die Expression von COX-2. N. engl. J. Med. 356, 2131–2142 (2007).

Artikel CAS PubMed Google Scholar

Fujiyoshi, K. et al. Standardisierung der Genproduktnomenklatur – ein Aufruf zum Handeln. Proz. Natl Acad. Wissenschaft. USA 118, e2025207118 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Masugi, Y. et al. Tumor-CD274 (PD-L1)-Expression und T-Zellen bei Darmkrebs. Gut 66, 1463–1473 (2017).

Artikel CAS PubMed Google Scholar

Morikawa, T. et al. Zusammenhang zwischen CTNNB1 (Beta-Catenin)-Veränderungen, Body-Mass-Index und körperlicher Aktivität mit dem Überleben bei Patienten mit Darmkrebs. Marmelade. Med. Assoc. 305, 1685–1694 (2011).

Artikel CAS Google Scholar

Masugi, Y. et al. Tumor-PDCD1LG2 (PD-L2)-Expression und die lymphatische Reaktion auf Darmkrebs. Krebsimmunol. Res. 5, 1046–1055 (2017).

Artikel CAS PubMed PubMed Central Google Scholar

Ansell, SM et al. PD-1-Blockade mit Nivolumab bei rezidiviertem oder refraktärem Hodgkin-Lymphom. N. engl. J. Med. 372, 311–319 (2015).

Artikel PubMed Google Scholar

Borowsky, J. et al. Assoziation von Fusobacterium nucleatum mit spezifischen T-Zell-Untergruppen in der Mikroumgebung des kolorektalen Karzinoms. Klin. Krebs Res. 27, 2816–2826 (2021).

Artikel CAS PubMed PubMed Central Google Scholar

Fujiyoshi, K. et al. Tumorknospung, schlecht differenzierte Cluster und T-Zell-Reaktion bei Darmkrebs. EBioMedicine 57, 102860 (2020).

Artikel PubMed PubMed Central Google Scholar

Yeo, I.-K. & Johnson, RA Eine neue Familie von Potenztransformationen zur Verbesserung der Normalität oder Symmetrie. Biometrika 87, 954–959 (2000).

Artikel Google Scholar

Kapelner, A. & Bleich, J. Vorhersage mit fehlenden Daten über bayesianische additive Regressionsbäume. Dürfen. J. Stat. 43, 224–239 (2015).

Artikel Google Scholar

Benjamin, DJ et al. Statistische Signifikanz neu definieren. Nat. Summen. Verhalten. 2, 6–10 (2018).

Artikel PubMed Google Scholar

Stensrud, MJ & Hernán, MA Warum auf proportionale Gefahren testen? Marmelade. Med. Assoc. 323, 1401–1402 (2020).

Artikel Google Scholar

Hosmer, DW & Lemesbow, S. Anpassungstests für das multiple logistische Regressionsmodell. Komm. Stat. Theory Methods 9, 1043–1069 (1980).

Artikel Google Scholar

Kuhn, M. Erstellen von Vorhersagemodellen in R mithilfe des Caret-Pakets. J. Stat. Softw. 28, 1–26 (2008).

Artikel Google Scholar

Kapelner, A. & Bleich, J. bartMachine: Maschinelles Lernen mit bayesianischen additiven Regressionsbäumen. J. Stat. Softw. 70, 1–40 (2016).

Artikel Google Scholar

Referenzen herunterladen

Die Autoren möchten den Beitrag zu dieser Studie von zentralen Krebsregistern würdigen, die durch das National Program of Cancer Registries (NPCR) der Centers for Disease Control and Prevention und/oder das SEER-Programm (Surveillance, Epidemiology, and End Results) des National Cancer Institute unterstützt werden . Zentrale Register können auch von staatlichen Stellen, Universitäten und Krebszentren unterstützt werden. Zu den teilnehmenden zentralen Krebsregistern gehören die folgenden: Alabama, Alaska, Arizona, Arkansas, Kalifornien, Colorado, Connecticut, Delaware, Florida, Georgia, Hawaii, Idaho, Indiana, Iowa, Kentucky, Louisiana, Massachusetts, Maine, Maryland, Michigan, Mississippi, Montana, Nebraska, Nevada, New Hampshire, New Jersey, New Mexico, New York, North Carolina, North Dakota, Ohio, Oklahoma, Oregon, Pennsylvania, Puerto Rico, Rhode Island, Seattle SEER Registry, South Carolina, Tennessee, Texas, Utah , Virginia, West Virginia, Wyoming. Diese Arbeit wurde durch Zuschüsse der US National Institutes of Health (NIH) unterstützt (P01 CA87969; UM1 CA186107; P01 CA55075; UM1 CA167552; U01 CA167552; R01 CA137178 bis ATC; K24 DK098311 bis ATC; R35 CA197735 bis SO; R01 CA15199). 3 bis SO; R01 CA248857 bis SO; K07 CA188126 bis XZ; R21 CA252962 bis XZ; R37 CA225655 bis JKL; und R35 GM142879 bis K.-HY); vom Cancer Research UK Grand Challenge Award (UK C10674/A27140 an KN, MG und SO); durch Nodal Award (2016–02) vom Dana-Farber Harvard Cancer Center (an SO); durch den Stand Up to Cancer Colorectal Cancer Dream Team Translational Research Grant (SU2C-AACR-DT22–17 to CSF ​​and MG), verwaltet von der American Association for Cancer Research, einem wissenschaftlichen Partner von SU2C; und durch Zuschüsse des Project P Fund, des Crush Colon Cancer Fund, der Friends of the Dana-Farber Cancer Institute, des Bennett Family Fund und der Entertainment Industry Foundation durch die National Colorectal Cancer Research Alliance und SU2C. JB wurde durch ein Stipendium des Australia Awards-Endeavour Scholarships and Fellowships Program unterstützt. KH wurde durch Stipendien der Uehara Memorial Foundation und der Mitsukoshi Health and Welfare Foundation unterstützt. KF wurde durch ein Stipendium der Uehara Memorial Foundation unterstützt. KA wurde durch ein Stipendium des Overseas Research Fellowship (JP2018–60083) der Japan Society for the Promotion of Science unterstützt. Die TU wurde durch Zuschüsse der Prevent Cancer Foundation und des Harvey V. Fineberg Fellowship in Cancer Prevention unterstützt. SAV wurde von der Finnischen Kulturstiftung und der Orion Research Foundation unterstützt. MG wird durch einen Career Development Award der ASCO Conquer Cancer Foundation und eine High Pointe Investigatorship in Gastrointestinal Oncology unterstützt. ATC ist Stuart und Suzanne Steele MGH Research Scholar. Die JAM-Forschung wird vom Douglas Gray Woodruff Chair Fund, dem Guo Shu Shi Fund, dem Anonymous Family Fund for Innovations in Colorectal Cancer, dem P Fund und der George Stone Family Foundation unterstützt. Der Inhalt liegt ausschließlich in der Verantwortung der Autoren und gibt nicht unbedingt die offiziellen Ansichten des NIH wieder. Die Geldgeber hatten keinen Einfluss auf das Studiendesign, die Datenerhebung und -analyse, die Entscheidung zur Veröffentlichung oder die Erstellung des Manuskripts.

Diese Autoren haben gleichermaßen beigetragen: Jonathan A. Nowak, Kun-Hsing Yu, Tomotaka Ugai, Shuji Ogino.

Programm in MPE Molecular Pathological Epidemiology, Abteilung für Pathologie, Brigham and Women's Hospital und Harvard Medical School, Boston, MA, USA

Melissa Zhao, Mai Chan Lau, Koichiro Haruki, Juha P. Väyrynen, Carino Gurjao, Sara A. Väyrynen, Jennifer Borowsky, Kenji Fujiyoshi, Kota Arima, Tsuyoshi Hamada, Reiko Nishihara, Jonathan A. Nowak, Tomotaka Ugai und Shuji Ogino

Abteilung für Medizinische Onkologie, Dana-Farber Cancer Institute und Harvard Medical School, Boston, MA, USA

Juha P. Vayrynen, Sara A. Vayrynen, Andressa Dias Costa, Kimmie Ng, Jeffrey A. Meyerhardt und Marios Giannakis

Forschungseinheit für Krebs und translationale Medizin, Medizinisches Forschungszentrum Oulu, Universitätsklinikum Oulu und Universität Oulu, Oulu, Finnland

Juha P. Väyrynen

Broad Institute of MIT und Harvard, Cambridge, MA, USA

Carino Gurjao, Marios Giannakis und Shuji Ogino

Abteilung für Pathologie, Center for Integrated Diagnostics, Massachusetts General Hospital und Harvard Medical School, Boston, MA, USA

Jennifer Borowsky & Jochen K. Lennerz

Genentech/Roche, South San Francisco, CA, USA

Charles S. Fuchs

Abteilung für Epidemiologie, Harvard TH Chan School of Public Health, Boston, MA, USA

Reiko Nishihara, Molin Wang und Shuji Ogino

Abteilung für Ernährung, Harvard TH Chan School of Public Health, Boston, MA, USA

Reiko Nishihara & Mingyang Song

Abteilung für klinische und translationale Epidemiologie, Massachusetts General Hospital und Harvard Medical School, Boston, MA, USA

Andrew T. Chan & Mingyang Song

Abteilung für Gastroenterologie, Massachusetts General Hospital, Boston, MA, USA

Andrew T. Chan & Mingyang Song

Channing Division of Network Medicine, Abteilung für Medizin, Brigham and Women's Hospital und Harvard Medical School, Boston, MA, USA

Andrew T. Chan & Xuehong Zhang

Abteilung für Immunologie und Infektionskrankheiten, Harvard TH Chan School of Public Health, Boston, MA, USA

Andrew T. Chan

Abteilung für Biostatistik, Harvard TH Chan School of Public Health, Boston, MA, USA

Molin Wang

Medizinische Fakultät, Brigham and Women's Hospital und Harvard Medical School, Boston, MA, USA

Marios Giannakis

Abteilung für Biomedizinische Informatik, Harvard Medical School, Boston, MA, USA

Kun-Hsing Yu

Programme für Krebsimmunologie und Krebsepidemiologie, Dana-Farber Harvard Cancer Center, Boston, MA, USA

Shuji Ogino

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Dr. MZ, MG, JAN und SO konzipierten das ursprüngliche Studienkonzept und -design. Dr. MZ und SO haben die Analysen entworfen. Die statistischen Analysen wurden von Dr. MZ durchgeführt und von Dr. MCL Drs. überprüft. MZ, JAN, K.-HY, TU und SO wurden bei der Interpretation der Ergebnisse von Dr. unterstützt. MCL, KH, JPV und Herr CG Drs. MZ und SO haben das Manuskript entworfen und alle Autoren haben das Manuskript hinsichtlich wichtiger intellektueller Inhalte kritisch überarbeitet. Dr. JPV, Herr CG, Dr. SAV, ADC, JB, KF, KA, TH, JKL, CSF, RN, ATC, KN, JAM, MG, JAN, TU und SO trugen zur Erfassung der Studiendaten bei. Dr. MCL, CSF, MG, JKL, KN, SO, K.-HY und XZ erhielten finanzielle Unterstützung für dieses Manuskript. Die Studienbetreuung erfolgte durch Dr. JAN, K.-HY, TU und SO

Korrespondenz mit Melissa Zhao oder Shuji Ogino.

ATC war zuvor als Berater für Bayer Healthcare und Pfizer Inc. tätig. MG erhält Forschungsgelder von Bristol-Myers Squibb, Merck, Servier und Janssen. CSF ist derzeit bei Genentech/Roche angestellt und war zuvor als Berater für Agios, Bain Capital, Bayer, Celgene, Dicerna, Five Prime Therapeutics, Gilead Sciences, Eli Lilly, Entrinsic Health, Genentech, KEW, Merck, Merrimack Pharmaceuticals und Pfizer Inc. tätig , Sanofi, Taiho und Unum Therapeutics; CSF fungiert außerdem als Direktor für CytomX Therapeutics und besitzt nicht ausgeübte Aktienoptionen für CytomX und Entrinsic Health. RN ist derzeit bei Pfizer Inc. beschäftigt; Sie hat zu dieser Studie beigetragen, bevor sie Mitarbeiterin von Pfizer Inc. wurde. JAM hat institutionelle Forschungsgelder von Boston Biomedical erhalten, war als Beraterin/Consultant für Ignyta und COTA Healthcare tätig und war Mitglied eines Gremiums zur Prüfung von Zuschüssen für das National Comprehensive Cancer Network finanziert von Taiho Pharmaceutical. Diese Studie wurde von keiner dieser kommerziellen Einrichtungen finanziert. K.-HY ist ein Erfinder des US-Patents 10.832.406 (nicht im Zusammenhang mit dieser Studie). Diese Studie wurde von keinem dieser Unternehmen finanziert. CG ist seit November 2022 Postdoktorand an der Columbia University of New York City und Teilzeit-Bioinformatiker bei Watershed Informatics. Es bestehen keine weiteren Interessenkonflikte. Die übrigen Autoren erklären keine konkurrierenden Interessen.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Zhao, M., Lau, MC, Haruki, K. et al. Bayesianisches Risikovorhersagemodell für die Mortalität bei Darmkrebs durch Integration klinisch-pathologischer und genomischer Daten. npj Precis. Einmal. 7, 57 (2023). https://doi.org/10.1038/s41698-023-00406-8

Zitat herunterladen

Eingegangen: 25. Januar 2023

Angenommen: 25. Mai 2023

Veröffentlicht: 10. Juni 2023

DOI: https://doi.org/10.1038/s41698-023-00406-8

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein gemeinsam nutzbarer Link verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt