banner
Heim / Blog / Multi
Blog

Multi

Mar 11, 2024Mar 11, 2024

Wissenschaftliche Berichte Band 12, Artikelnummer: 10487 (2022) Diesen Artikel zitieren

1174 Zugriffe

3 Zitate

2 Altmetrisch

Details zu den Metriken

Dieser Artikel wurde aktualisiert

Protein-Protein-Wechselwirkungen (PPI) sind für die Proteinfunktion von entscheidender Bedeutung, dennoch bleibt die Vorhersage von Resten in PPI-Schnittstellen aus der Proteinsequenz ein herausforderndes Problem. Darüber hinaus sind strukturbasierte funktionale Annotationen wie die PPI-Schnittstellenannotationen rar: Nur für etwa ein Drittel aller Proteinstrukturen sind restbasierte PPI-Schnittstellenannotationen verfügbar. Wenn wir eine Deep-Learning-Strategie anwenden wollen, müssen wir das Problem der begrenzten Datenverfügbarkeit überwinden. Hier verwenden wir eine Multitasking-Lernstrategie, die mit fehlenden Daten umgehen kann. Wir beginnen mit der Multitask-Modellarchitektur und haben sie angepasst, um fehlende Daten in der Kostenfunktion sorgfältig zu behandeln. Als verwandte Lernaufgaben umfassen wir die Vorhersage der Sekundärstruktur, der Lösungsmittelzugänglichkeit und vergrabener Rückstände. Unsere Ergebnisse zeigen, dass die Multi-Task-Lernstrategie Einzelaufgaben-Ansätze deutlich übertrifft. Darüber hinaus ist nur die Multitasking-Strategie in der Lage, effektiv über einen mit Strukturmerkmalsdaten erweiterten Datensatz zu lernen, ohne zusätzliche PPI-Annotationen. Der Multitasking-Aufbau wird noch wichtiger, wenn der Anteil der PPI-Annotationen sehr klein wird: Der Multitasking-Lernende, der nur auf einem Achtel der PPI-Annotationen trainiert wird – mit Datenerweiterung – erreicht die gleichen Leistungen wie der Single-Task-Lernende auf allen PPI-Anmerkungen. Somit zeigen wir, dass die Multitasking-Lernstrategie für einen kleinen Trainingsdatensatz von Vorteil sein kann, bei dem die interessierenden funktionellen Eigenschaften des Proteins nur teilweise annotiert sind.

Proteinsequenzdatenbanken1 wachsen weiterhin rasant und Strukturinformationen werden immer leichter verfügbar2. Dennoch sind präzise funktionale Annotationen auf der Grundlage der Proteinstruktur, wie z. B. Proteinbindungsstellen3, immer noch rar und schwer vorherzusagen. Daher werden Computertechniken verwendet, um mehrere funktionelle Struktureigenschaften von Proteinen basierend auf der Proteinsequenz vorherzusagen. Eine dieser Eigenschaften ist die physikalische Interaktionsschnittstelle zwischen Proteinen, die für die Funktion eines Proteins entscheidend ist4. Die Interaktion zwischen Proteinen ist in vielen biologischen Prozessen erforderlich, wie z. B. DNA-Replikation, RNA-Transkription, Signaltransduktion, Kontrolle zellulärer Prozesse, Proteintransport und Stoffwechsel5,6,7,8,9. Darüber hinaus können viele Krankheiten mit der Verformung der Grenzfläche eines Proteins zusammenhängen10,11. Die Vorhersage der Menge an Resten in einem Protein, die mit anderen Proteinen interagieren, ist eine wichtige, aber immer noch anspruchsvolle Aufgabe12. Darüber hinaus sind Strukturinformationen zu Resten, aus denen die Grenzfläche besteht, rar. Die Größe der PPI-annotierten Datenbank beträgt nur einen kleinen Bruchteil der Größe der strukturell annotierten Datenbank. Die Größe der strukturell annotierten Datenbank wiederum beträgt einen kleinen Bruchteil der Größe der Proteinsequenzdatenbank (siehe Abb. 1). Darüber hinaus gibt es Probleme wie die Vorhersage von Epitopen (Antikörper-bindenden) Schnittstellen, für die noch weniger markierte Daten verfügbar sind13. Um tiefe neuronale Netze für die PPI-Schnittstellenvorhersage und andere Aufgaben mit geringer Verfügbarkeit von Anmerkungen effizient zu trainieren, müssen wir das Problem der begrenzten Größe des Trainingsdatensatzes überwinden.

Vergleich der Anzahl der in Datenbanken verfügbaren Einträge zu Proteinsequenz, Proteinstruktur und spezifischen strukturbasierten funktionellen Annotationen: Schnittstelle zur Protein-Protein-Interaktion (PPI). Diese Ergebnisse basieren jeweils auf den in der UniProtKB/TrEMBL-Datenbank verfügbaren Proteineinträgen, den in der Protein Data Bank (PDB) verfügbaren Proteineinträgen und den Proteineinträgen mit PPI-Schnittstellenanmerkungen. Beachten Sie, dass die y-Achse logarithmisch ist.

Aufgrund der Erfolge von Deep Learning in Bereichen wie der Verarbeitung natürlicher Sprache werden Deep-Learning-Ansätze zunehmend eingesetzt und haben große Erfolge bei der Vorhersage von Proteinstrukturmerkmalen gezeigt14,15,16,17. Beim Deep Learning sagen mehrere verbundene Schichten zusammen mit ihren Parametern die Ausgabe der entsprechenden Eingabemerkmale voraus18. Ansätze und Modelle wie Convolutional Neural Networks (CNN), Residual Neural Networks (ResNet), Recurrent Neural Networks (RNN), Long Short Term Memory Networks (LSTM), Transformers und Multi-Task-Learnings tauchen in neueren Methoden zur Strukturvorhersage auf15,16 ,19,20,21,22. Hanson et al.16 verwendeten unter anderem ultratiefe ResNets im SPOT-1D-Modell, die in der Lage waren, nicht-lokale Wechselwirkungen zwischen Resten zu erfassen, die nur in der Proteinstruktur und nicht in der Proteinsequenz nahe beieinander liegen16. Heffernan et al.21 verwendeten bidirektionale LSTM-RNNs und zeigten, dass diese Methode nützlich ist, um Wechselwirkungen über große Entfernungen zu erfassen, insbesondere für Reste mit einer großen Anzahl von Kontakten über große Entfernungen. Wir haben kürzlich die Verwendung verschiedener neuronaler Netzwerkarchitekturen für die Vorhersage von Proteinschnittstellen verglichen23. Darüber hinaus wurden Transformatoren erfolgreich in der Sprache der Proteine ​​eingesetzt24,25. In Transformern werden Informationen, die aus allgemeinen Domänendaten wie Proteinsequenzen gewonnen werden, in domänenspezifische Daten wie die Vorhersage der Sekundärstruktur übertragen. Eine weitere Strategie zur Informationsvermittlung ist das Multitasking-Lernen.

Im Gegensatz zum Single-Task-Lernen, bei dem das Ziel darin besteht, die Leistung einer bestimmten Vorhersageaufgabe zu verbessern, besteht das Ziel beim Multi-Task-Lernen26 darin, die Leistung mehrerer Lernaufgaben gleichzeitig zu verbessern. Das gleichzeitige Trainieren des Multitask-Modells für verschiedene Aufgaben ermöglicht es dem Modell, eine gemeinsame Darstellung zu lernen, was eine Möglichkeit bietet, gelernte Informationen zwischen bestimmten Aufgaben zu übertragen14,26. Multitasking-Lernen hängt mit induktivem Transferlernen zusammen27. Der Hauptunterschied besteht darin, dass das Ziel des induktiven Transferlernens darin besteht, nur für die Hauptaufgabe hohe Leistungen zu erbringen, während das Ziel des Multitask-Lernens darin besteht, sowohl die Hauptaufgaben als auch die damit verbundenen Aufgaben zu erlernen27. Die Multitask-Lernstrategie kann in der End-to-End-Lernarchitektur von Deep-Learning-Modellen implementiert werden. Um zu lernen, dass das Modell genaue Vorhersagen für alle Aufgaben trifft, sollte der Verlust der verschiedenen Aufgaben in der Verlustfunktion dargestellt werden, die beim Training des Multitask-Modells verwendet wird14. Diese Strategie wurde bereits zuvor auf die Domäne von Proteinen angewendet, indem beispielsweise mehrere Proteinstruktureigenschaften gleichzeitig vorhergesagt wurden15. Der Nutzen der Verwendung von Informationen zu Strukturanmerkungen als Eingabemerkmale unter Verwendung vorab trainierter Vorhersagemodelle wurde bereits für mehrere Lernende mit nur einer Aufgabe gezeigt7,28,29. Ein Vorteil der Multitasking-Strategie besteht darin, dass Eingabemerkmale nicht a priori generiert werden müssen, wenn das Modell auf eine neue Eingabe angewendet wird. Hier sind wir sowohl an der Lernfähigkeit der induktiven Übertragung des Multitask-Setups interessiert, um die Leistung der PPI-Schnittstellenvorhersage zu verbessern, als auch an den tatsächlichen Vorhersagen der damit verbundenen Aufgaben, wie z. B. der Oberflächenzugänglichkeit, da diese beispielsweise Folgendes liefern können: Einblick in die Natur der Bindungsstelle. Hier untersuchen wir, ob eine Multitasking-Lernstrategie geeignet sein könnte, PPI-Schnittstellenvorhersagemodelle zu trainieren.

Um zu prüfen, welche verwandten Arbeiten durchgeführt wurden, sollten wir zwei Arten von Problemen abdecken: (1) Vorhersage der Proteinstruktureigenschaften in einer Multitask-Umgebung und (2) Vorhersage der Proteinschnittstelle. Methoden zur Vorhersage struktureller Eigenschaften von Proteinen verwenden üblicherweise eine Multitasking-Lernstrategie. Beachten Sie, dass die Markierungen für viele Struktureigenschaften, wie z. B. Sekundärstruktur und Lösungsmittelzugänglichkeit, nur generiert werden können, wenn die dreidimensionale Struktur eines Proteins verfügbar ist. Klausen et al.15 entwickelten die sequenzbasierte Methode NetSurfP-2.0, um mithilfe einer Kombination aus CNNs und LSTMs die Lösungsmittelzugänglichkeit, die Sekundärstruktur, die strukturelle Unordnung und die Diederwinkel des Rückgrats vorherzusagen. Das Deep-Learning-Modell SPOT-1D basiert auf einem Ensemble von ResNets und CNNs, um Sekundärstruktur, Rückgratwinkel, Lösungsmittelzugänglichkeit und Kontaktnummer vorherzusagen16. Die Vorhersage der Sekundärstruktur durch SPOT-1D führte zu höheren Leistungen als durch NetSurfP-2.016. Im Jahr 2020 veröffentlichten Xu et al.17 ihre Methode OPUS-TASS. Dieser Multitasking-Lerner, der auf einer Kombination aus CNNs, Transformatoren und LSTMs basiert, konnte die Vorhersagen der Sekundärstruktur und der Rückgratwinkel noch weiter verbessern17. Xu et al.17 trainierten mehrere Modelle, darunter einen anderen Satz an Lernaufgaben: Sekundärstruktur in drei und acht Klassen, Rückgrat-Torsionswinkel, absolute Lösungsmittelzugänglichkeit, Seitenketten-Diederwinkel und den lokalen Rückgratstrukturdeskriptor CSF317. Die Multitask-Lernstrategie wurde unseres Wissens nach nicht für die PPI-Schnittstellenvorhersage verwendet.

PPI-Vorhersagemodelle wurden kürzlich in der Übersichtsarbeit von Savojardo et al.12 beschrieben. In dieser Arbeit wurden die verschiedenen Modelle in Methoden unterschieden, die die primäre Proteinsequenz als Eingabe verwenden, und Methoden, die die dreidimensionale Proteinstruktur als Eingabe für das Vorhersagemodell verwenden. Darüber hinaus können Methoden partnerunabhängig oder partnerabhängig sein12. In dieser Studie sagen wir PPI-Schnittstellenreste basierend auf der Primärsequenz auf partnerunspezifische Weise voraus. Die neuesten anderen sequenzbasierten, partnerunspezifischen Modelle sind SSWRF30, SeRenDIP7,31, SCRIBER9 und PIPENN23. Die SSWRF-Methode verwendet eine Ensemble-Support-Vektor-Maschine und einen stichprobengewichteten Zufallswald, um die PPI-Schnittstelle vorherzusagen30. SeRenDIP ist ein Zufallswaldmodell, das auf Datensätzen trainiert wird, die entweder nur homomere Wechselwirkungen, nur heteromere oder beide Arten von Wechselwirkungen enthalten7. SCRIBER ist ein Modell, das auf mehrstufiger logistischer Regression basiert und auf einem Datensatz trainiert wird, der mehrere Arten von Proteininteraktionen enthält.

Die meisten Schnittstellenvorhersagemethoden verwenden die folgenden Merkmale als Eingabe: Sequenzerhaltung (siehe unten)8,9,28,29, Oberflächenzugänglichkeit8,9,30,32,33,34, Backbone-Flexibilität35,36 oder eine Kombination davon7,31 Eingabefunktionen. Frühere Studien zeigten, dass es sich bei Resten, die gut durch Lösungsmittel zugänglich sind, eher um Grenzflächenreste handelt32,33,34. Die Trainings- und Testdaten zur Annotation von Proteinen mit echten Bindungsschnittstellen können aus der PDB abgerufen werden. Dies ist jedoch nicht ganz trivial, da man die Grenzfläche der Bindungsmoleküle definieren muss. Typischerweise wird ein bestimmter Schwellenwert verwendet, um Aminosäuren in unmittelbarer Nähe auszuwählen9,23. Einige größere veröffentlichte Datensätze sind verfügbar, insbesondere „ZK448“, ein Testsatz mit 448 Proteinen von Zhang und Kurgan9, „BioDL“, der insgesamt 4620 Proteine ​​mit PPI-Anmerkungen von Stringer et al.23 enthält, und „Homomeric & Heteromeric“ mit 546 Proteinen von Hou et al.7,31, die jeweils mit ihren Sätzen vorberechneter Merkmale geliefert werden. Allerdings enthalten nicht alle Datensätze alle Features und die Generierung fehlender Features kann eine zeitaufwändige Aufgabe sein. Die aktuellen Leistungen für die Vorhersage von Partner-unspezifischen PPI-Schnittstellen liegen zwischen 0,68 und 0,78 AUC ROC, abhängig vom genauen verwendeten Datensatz und Modell23. Einige Arten von PPIs sind schwieriger vorherzusagen als andere: Heteromere Schnittstellen sind tendenziell schwieriger als homomere Schnittstellen7. Auch die Leistungen unterscheiden sich typischerweise zwischen den Datensätzen, und von den oben genannten weist ZK448 insgesamt niedrigere Leistungsmetriken auf23. Wir verweisen auf Stringer et al.23, Zhang und Kurgan9 und Hou et al.31 für aktuelle Übersichten und Benchmarks dieser Methoden und werden in „Diskussion“ auf die Benchmark-Leistungen zurückkommen.

Konservierungsprofile von Proteinsequenzen liefern ein sehr starkes Signal für viele funktionelle und strukturelle Vorhersageaufgaben, da sie kodieren, welche Reste während der Evolution eingeschränkt wurden und daher wahrscheinlich eine wichtige funktionelle oder strukturelle Rolle spielen. Beachten Sie, dass die höchste Genauigkeit für Proteinstrukturvorhersageaufgaben nur erreicht werden kann, wenn die Konservierung als Eingabemerkmal verwendet wird37. Tatsächlich müssen sogar die modernsten Strukturvorhersagemodelle solche Profile als Eingabemerkmale verwenden2 und können keine durchgängige Problembeschreibung von Sequenz zu Struktur vollständig definieren, ohne explizit Erhaltungsprofile zu berechnen. Diese Konservierungsmuster werden typischerweise als Position Specific Scoring Matrix (PSSM) oder Hidden Markov Model (HMM)-Profile kodiert, die zusätzliche Merkmale für jeden Rest bereitstellen. Bestehende PPI-Schnittstellenvorhersagemethoden nutzen ebenfalls die Erhaltung als Eingabe7,8,9,30,38,39,40.

In dieser Arbeit verwenden wir sequenzabgeleitete Eigenschaften und Sequenzerhaltung als Eingabemerkmale, ähnlich wie bei OPUS-TASS17, verwenden jedoch keine vorhergesagten Struktureigenschaften wie Sekundärstruktur oder Oberflächenzugänglichkeit als Eingabemerkmale – wie es bei vielen PPI-Schnittstellenvorhersagen üblich ist Methoden. Stattdessen werden diese Struktureigenschaften als verwandte Lernaufgaben in unserem Multitask-Aufbau verwendet, wie schematisch in Abb. 2 dargestellt.

Visualisierung der möglichen Aufgaben zur Proteinstrukturvorhersage und Implementierung des Multitask-Aufbaus in die Kostenfunktion des Modells. Das Protein im Beispiel ist Pterin-4-alpha-Carbinolamin-Dehydratase 2, basierend auf der PDB-Struktur 4wil-Kette A. (a) Die Reste der Protein-Protein-Interaktionsschnittstelle sind für die Proteinkette A rot gefärbt, die anderen Reste der Kette A sind blau dargestellt. Diese Rückstände interagieren mit der olivfarbenen Proteinkette. (b) Vergrabene Rückstände werden grün angezeigt. (c) Die absolute Lösungsmittelzugänglichkeit wird in blauen Farben angezeigt. Je dunkler die Farbe der Rückstände ist, desto besser ist die Lösungsmittelzugänglichkeit. (d) Einteilung der Sekundärstrukturkomponenten in drei Klassen. (e) Die Spule ist grün, die \(\alpha\)-Helix gelb und der \(\beta\)-Strang rot. Einteilung der Sekundärstrukturkomponenten in acht Klassen. Die Spule ist grün, die starke Krümmung blau, die \(\beta\)-Wende dunkelgrün, die \(\alpha\)-Helix gelb, der \(\beta\)-Strang rot und die \(\beta\)-Brücke dunkel Rot. Beachten Sie, dass dieses Protein keine 3\(_{10}\)-Helix oder \(\pi\)-Helix hat. Der Verlust der einzelnen (möglichen) Vorhersageaufgaben wird in der Kostenfunktion summiert, die beim Training des Multitask-Modells verwendet wird.

Hier untersuchen wir, ob die PPI-Schnittstellenvorhersage – wenn die Größe des Trainingsdatensatzes der begrenzende Faktor für die Leistung ist – verbessert werden kann, indem die Aufgabe als Multitasking-Lernproblem definiert wird. Wir zeigen Modellleistungen für verschiedene Kombinationen der zugehörigen Lernaufgaben: Sekundärstruktur in drei und acht Klassen, absolute Lösungsmittelzugänglichkeit und vergrabene Rückstände. Mit diesen Aufgaben werden höhere Vorhersageleistungen im Vergleich zum Einzelaufgaben-Schnittstellen-Vorhersagemodell erreicht. Darüber hinaus bietet das Multi-Task-Setup die Möglichkeit, an einem teilweise annotierten Datensatz zu trainieren, indem das Lernen ausschließlich an den zugehörigen Aufgaben fortgesetzt wird. Der in dieser Studie verwendete Datensatz ist nur teilweise mit PPI-Schnittstellenbezeichnungen versehen. Der Vorteil des Multitasking-Aufbaus als Lösung für fehlende Daten wird hier genauer untersucht, indem PPI-Schnittstellenmarkierungen für einen Teil der Proteine ​​in unserem Datensatz maskiert werden. Wir zeigen, dass die Formulierung einer Prädikationsaufgabe als Multitasking-Lernproblem für Proteinstrukturvorhersageaufgaben von Vorteil sein kann, für die nur ein kleiner Satz annotierter Trainingsdaten verfügbar ist.

Als Grundlage für die in dieser Studie verwendeten Vorhersagemodelle dient das von Xu et al.17 beschriebene OPUS-TASS-Modell. Wir haben auch ihren veröffentlichten kommentierten Datensatz sowie ihre Trainings- und Validierungsverfahren verwendet.

Das kombinierte OPUS-TASS-Trainings- und Validierungsset besteht aus 11.007 Proteinen und umfasst die folgenden generierten Eingabemerkmale: HMM-Profile, PSSM-Profile, physikalisch-chemische Merkmale und das PSP19-Merkmal. Beachten Sie, dass die Erstellung von HMM- und PSSM-Profilen rechenintensiv ist. Die Proteine ​​in diesem Datensatz wurden von Hanson et al.41 ausgewählt und auch zum Training und zur Validierung von SPOT-1D16 verwendet. Die Proteine ​​wurden im Februar 2017 vom PISCES42-Server ausgewählt. Es wurden nur Strukturen ausgewählt, die durch Röntgenkristallographie mit einer Auflösung von besser als 2,5 Å erhalten wurden. Sequenzen mit einer Sequenzlänge von mehr als 700 Resten wurden entfernt und der Datensatz nach Sequenzidentität gefiltert, wobei ein Grenzwert von 25 % angewendet wurde. Für ein Drittel dieses Datensatzes (3551 Proteine) sind auf Rückständen basierende Annotationen für PPI-Schnittstellen verfügbar. Diese mit der PPI-Schnittstelle annotierten Daten sind eine Auswahl von PDB43-Strukturen, wie von Stringer et al.23 beschrieben. Kurz gesagt war das Verfahren wie folgt. Es wurden Proteine ​​ausgewählt, die aus 2–200 Ketten bestehen. Für einen Strukturkomplex wurde der interatomare Abstand zwischen allen Aminosäuren in einzelnen Ketten bestimmt. Die Aminosäuren wurden als Bindungsreste definiert, wenn der Abstand zwischen den Atomen einen bestimmten Schwellenwert unterschreitet. Dieser Schwellenwert wurde auf 0,5 Å zuzüglich der Van-der-Waals-Radien der beiden Atome festgelegt.

Es wurden zwei Datensätze erstellt, um zu sehen, ob wir das Multitask-Modell mithilfe begrenzter Daten effektiv trainieren können: (1) der „PPI-Datensatz“ enthält alle Proteine ​​im OPUS-TASS-Datensatz, für die PPI-Anmerkungen verfügbar waren; (2) Der erweiterte „PPI_extendedSFD-Datensatz“ enthält den PPI-Datensatz, der um Strukturmerkmalsdaten erweitert wurde, die in allen anderen Proteinen des OPUS-TASS-Datensatzes gespeichert sind (siehe ergänzende Abbildung 1). Der PPI_extendedSFD-Datensatz ist daher größer, aber nur teilweise mit PPI-Schnittstelleninformationen annotiert. Beide Datensätze wurden in einen Trainingssatz (80 %), einen Validierungssatz (10 %) und einen Testsatz (10 %) aufgeteilt. Für alle diese Sätze ist der PPI-Datensatz eine strikte Teilmenge des PPI_extendedSFD-Datensatzes und enthält daher dieselben PPI-Schnittstelleninformationen. Die Aufteilung der Daten in Trainings-, Validierungs- und Testsätze erfolgte nach dem Abgleich der Proteine ​​des OPUS-TASS-Datensatzes mit PPI-Annotationen basierend auf der PDB-ID und der Proteinkette. Die PPI-Anmerkungen für 64 Proteine ​​mussten entfernt werden, da die Proteinsequenzen zwischen den beiden Datenbanken nicht übereinstimmten.

Die sequenzbasierten Eingabemerkmale bestehen aus 20 Merkmalen, die aus der Position Specific Scoring Matrix (PSSM) erhalten wurden, 30 Merkmalen, die aus HMM-Profilen (Hidden Markov Model) erhalten wurden, sieben Merkmalen, die aus den physikalisch-chemischen Eigenschaften erhalten wurden, und 19 Merkmalen, die aus der PSP19-Klassifizierung erhalten wurden. Daher wird jedes Protein durch eine Matrix mit den folgenden Dimensionen dargestellt: die Anzahl der Proteinreste mal die 76 Eingabemerkmale (\(20+30+7+19\)). Die von Xu et al.17 erstellten PSSM-Profile basieren auf drei Iterationen von PSI-BLAST (v2.10.0+)44 unter Verwendung der UniRef90-Datenbank45. Die HMM-Profile werden mit HHBlits (v3.1.0)46 und der Uniclust30-Datenbank47 erstellt. HMMs erfassen für jede Aminosäure zusätzlich zur Konservierung positionsspezifische Informationen über Insertionen und Deletionen. Im PSSM37 wird nur die Konservierung pro Aminosäure erfasst. HHBlits ist ein schneller Sequenzsuchalgorithmus, der die HMM-HMM-Ausrichtung nach Anwendung einer Profil-Profil-Ausrichtung als Vorfilter verwendet48. Die sieben physikalisch-chemischen Eigenschaften sind die Aminosäureeigenschaften, wie sie von Meiler et al.49 beschrieben wurden. Die PSP19-Funktion erfasst die Flexibilität der Seitenkette und die Packungsorientierung50. Für dieses Merkmal wurden von Lu et al.50 19 Starrkörperblöcke in einer One-Hot-codierten Sequenz konstruiert, was auf die Existenz eines Blocks in einem Proteinrest hinweist. Sowohl die physikalisch-chemischen Eigenschaften als auch das PSP19-Merkmal sind proteinunabhängig und Aminosäure-spezifisch.

Während der Vorverarbeitung wurden die Vorhersageaufgabenbezeichnungen generiert. Für unsere Modelle haben wir drei von Xu et al.17 generierte Ausgabemarkierungen berücksichtigt: Sekundärstruktur in drei und acht Klassen (S3 und S8) und die Lösungsmittelzugänglichkeit von Resten (SA). Die drei Sekundärstrukturkomponenten sind Spule, \(\alpha\)-Helix und \(\beta\)-Strang. Diese drei Komponenten können weiter in acht Klassen unterschieden werden: Spule in Spule, hohe Krümmung und \(\beta\)-Windung; \(\alpha\)-Helix in \(\alpha\)-Helix, 310-Helix und \(\pi\)-Helix; und \(\beta\)-Strang in \(\beta\)-Strang und \(\beta\)-Brücke51. Die Bezeichnungen S3, S8 und SA sind von DSSP51 abgeleitet. Darüber hinaus haben wir zwei Klassifizierungsaufgaben hinzugefügt: Identifizierung vergrabener (BU) und PPI-Schnittstellenrückstände (IF). Rückstände wurden als vergraben gekennzeichnet, wenn der Anteil der absoluten Lösungsmittelzugänglichkeit gegenüber der maximalen Lösungsmittelzugänglichkeit weniger als 7 % beträgt (Ergänzungsalgorithmus 1)52. Reste mit unvollständigen Seitenketten wurden für die SA-Vorhersage maskiert. Für die PPI-Markierungen wurden alle Reste eines Proteins maskiert, wenn für das gesamte Protein keine PPI-Schnittstellenannotation verfügbar war. Maskierte Rückstände wurden bei der Verlustberechnung und den Leistungsmessungen nicht berücksichtigt. Die Vorhersageaufgaben S3, S8, SA und BU beziehen sich auf die PPI-Schnittstelle und werden daher in dieser Studie als mögliche zusätzliche Lernaufgaben für den Multitask-IF-Prädiktor verwendet.

Die Details der Deep-Learning-Modellarchitektur werden von Xu et al.17 in ihren „Methoden“ und Abb. 1 beschrieben. Das Modell wird in Python unter Verwendung der Keras-Bibliothek von Tensorflow53 implementiert. Ähnlich wie bei ihrem Modell führten wir eine Datenverbesserung durch und verwendeten die Architektur von 2 Transformatorschichten, 5 CNN-Schichten und 4 bidirektionalen LSTM-Schichten (siehe ergänzende Abbildung 2). Wir haben ihren Dropout von 0,25 und die Aktivierungsfunktion der gleichgerichteten linearen Einheit (ReLU) verwendet. Im Gegensatz zum OPUS-TASS-Modell sind die möglichen Ausgabebezeichnungen in unseren Modellen: Grenzflächenreste (IF), Sekundärstruktur basierend auf 3 Klassen (S3) und 8 Klassen (S8), absolute Lösungsmittelzugänglichkeit (SA) und vergrabene Rückstände (BU). Die Namen der untersuchten Modelle basieren auf den Abkürzungen der im Modell berücksichtigten Vorhersageaufgaben. Wir erstellen kein Ensemble dieser verschiedenen Modelle. Darüber hinaus haben wir die Möglichkeit hinzugefügt, einen Teil der PPI-Schnittstellendaten zu maskieren (siehe ergänzender Algorithmus 2), um die Wirkung teilweise annotierter Daten zu untersuchen.

Der Multitasking-Lernaufbau ist in der Kostenfunktion des Modells implementiert. Für jede Vorhersageaufgabe wird der individuelle Verlust durch die Kreuzentropie für Klassifizierungsaufgaben (S3, S8, BU, IF) und den mittleren quadratischen Fehler für die Regressionsaufgabe (SA) bestimmt. Die einzelnen Verluste werden summiert und bilden die Gesamtkostenfunktion, wie in Abb. 2 dargestellt und wie folgt definiert:

Dabei ist \(L_{IF}\) der Kreuzentropieverlust für die Schnittstellenvorhersagen, \(L_{S3}\) der Kreuzentropieverlust für die S3-Sekundärstrukturvorhersagen, \(L_{S8}\) der Kreuzentropieverlust für die S8-Sekundärstrukturvorhersagen, \(L_{SA}\) ist der mittlere quadratische Fehlerverlust für die Oberflächenzugänglichkeitsvorhersagen.

Auf diese Weise ist das Modell in der Lage, eine gemeinsame Darstellung für alle Vorhersageaufgaben zu lernen. Für die meisten Proteine ​​im PPI_extendedSFD-Datensatz sind keine PPI-Schnittstelleninformationen verfügbar. Für diese Proteine ​​setzt sich der Verlust ausschließlich aus den einzelnen Verlusten der zugehörigen Aufgaben zusammen. Wir haben die Auswirkung der relativen Gewichte für jede Aufgabe in der Kostenfunktion mithilfe von drei Ansätzen untersucht. Methode A: Die Gewichte der einzelnen Lernaufgabenverluste in der Gesamtkostenfunktion wurden gleichgesetzt, also \(\alpha = \beta = \gamma = \delta = \varepsilon\). Methode B: Ähnliche Vorhersageaufgaben wurden gruppiert (S3, S8 und BU, SA). Die Gewichte von Paaren ähnlicher Vorhersageaufgaben wurden halbiert, d. h. \(\alpha = (\beta + \gamma) = (\delta + \varepsilon\)) und \(\beta = \gamma\), \(\delta = \varepsilon\), wenn beide mit den summierten Parametern verbundenen Vorhersageaufgaben vorhanden wären. Methode C: Dem Schnittstellenverlust wurde ein Gewicht zugewiesen, sodass sein Anteil 50 % der Gesamtkostenfunktion beträgt, dh der PPI-Aufgabe wurde in diesem Ansatz mehr Gewicht gegeben. Das bedeutet, dass für Gl. (1) Es gilt \(\alpha = \beta + \gamma + \delta + \varepsilon\) und \(\beta = \gamma = \delta = \varepsilon\).

In Übereinstimmung mit Xu et al.17 wurde die Chargengröße auf 4 Proteine ​​festgelegt, die Anfangsgewichte wurden durch den Glorot Uniform Initializer festgelegt und der Adam-Optimierer wird während des Trainings verwendet54. Die Lernrate wird durch zwei geteilt, wenn die Validierungsleistung abnimmt, gemessen anhand der Fläche unter der Receiver-Operator-Characteristics-Kurve (AUC ROC) der PPI-Schnittstellenvorhersage.

Wir haben die für das OPUS-TASS-Modell17 definierten Frühstoppkriterien zur Vermeidung einer Überanpassung ausgewertet, indem wir mehrere Modelle für 50 Epochen trainiert haben. Xu et al. Definierte die Stoppkriterien für die Konvergenz, wenn der AUC-ROC-Score im Validierungssatz zum vierten Mal niedriger als der vorherige Score ist. Das weitere Training der Modelle nach Erreichen dieser Stoppkriterien zeigte keine Verbesserungen der Modellleistung. Wir haben uns daher entschieden, die gleichen Abbruchkriterien zu verwenden.

Der Einzelaufgaben-Lerner, das sogenannte IF-Modell, wird nur für die PPI-Schnittstellenvorhersageaufgabe trainiert. Dieses Modell war nicht in der Lage, Schnittstellenreste zu identifizieren, wenn eine anfängliche Lernrate von 1e−3 verwendet wurde, die anfängliche Lernrate, die zum Trainieren des OPUS-TASS-Modells verwendet wurde. Nach der Optimierung der Hyperparameter wurde die anfängliche Lernrate auf 2,5e−4 eingestellt. Zusätzlich wurde bei der Verlustberechnung eine Gewichtung auf die wahren Schnittstellenreste angewendet, um das Klassenungleichgewicht der PPI-Schnittstellenvorhersage auszugleichen. Dieses Gewicht wurde auf das Verhältnis der Nicht-Schnittstellen-Reste zu den Schnittstellen-Resten im Trainings- und Validierungssatz festgelegt. Daher wurde dieses Gewicht auf 6,37 festgelegt.

Das Training und die Bewertung des Modells werden auf einem Knoten durchgeführt, der eine Titan-X-GPU enthält. Modelle konvergieren nach etwa 10 Epochen. Im PPI_extendedSFD-Datensatz beträgt die Dauer einer Epoche etwa eine Stunde. Die Validierungsleistung des Modells bei allen Vorhersageaufgaben sowie die Trainingsleistungen wurden mit TensorBoard53 erfasst.

Um die Leistung der Vorhersagemodelle zu messen, wurden die Datensätze in einen Trainingssatz (80 %), einen Validierungssatz (10 %) und einen Testsatz (10 %) aufgeteilt (siehe ergänzende Abbildung 1). Wir verwenden den Validierungssatz zum Studium verschiedener Multitask-Lernmodelle, zur Modellauswahl und zum Studium der teilweise annotierten Datensätze. Das Testset wird nur verwendet, um die Leistung der besten Modelle zu bestätigen.

Wir vergleichen die Leistung des Einzeltask-IF-Modells mit verschiedenen Multitask-Modellen. Die Multitask-Modelle enthalten neben der Schnittstellenvorhersage verschiedene Kombinationen der zugehörigen Lernaufgaben als Vorhersageaufgaben. Nachdem die Modelle alle Trainingssequenzen in einer Epoche gesehen haben, werden die Modelle ausgewertet. Wir setzen das Training fort, bis das Kriterium für ein frühes Stoppen erreicht ist, das nur auf der Vorhersageleistung der PPI-Schnittstelle basiert. Anschließend gibt das Modell den höchsten erreichten AUC-ROC-Score für die PPI-Schnittstellenvorhersage sowie die entsprechenden Scores der zugehörigen Aufgaben im Validierungssatz aus.

Wir verwenden unterschiedliche Leistungsmaße für die verschiedenen Vorhersageaufgaben. Die Leistung der Hauptaufgabe, auf die wir uns in diesem Artikel konzentrieren – die Vorhersage der PPI-Schnittstelle – wird durch den AUC ROC bestimmt. Die ROC-Kurve stellt die Beziehung zwischen Sensitivität und Spezifität bei verschiedenen Klassifizierungsschwellen dar. Die Fläche unter dieser Kurve fasst die Kurve zusammen und stellt die Wahrscheinlichkeit dar, dass das Modell einen höheren Wert für einen Rest ergibt, der sich in der Grenzfläche befindet, als für einen Rest, der sich nicht in der Grenzfläche befindet55. Um einen zukünftigen Vergleich mit (neuartigen) PPI-Schnittstellenvorhersagemethoden zu ermöglichen, werden Genauigkeit, Präzision, Rückruf, Spezifität, Matthews-Korrelationskoeffizient (MCC) und F1-Score in der Ergänzungstabelle 1 bewertet. Die Sekundärstrukturvorhersage in 3 Klassen und 8 Klassen, und die Leistung der vergrabenen Vorhersage wird anhand der Genauigkeit (ACC) gemessen. Die Genauigkeit gibt die Wahrscheinlichkeit an, die Klassenbezeichnung korrekt vorherzusagen. Im Vergleich zur AUC ROC liegt der Klassifizierungsschwellenwert bei 0,556.

Die absolute Leistung bei der Zugänglichkeit von Lösungsmitteln wird durch den Pearson-Korrelationskoeffizienten (PCC) gemessen, der ein normalisiertes Maß für die Kovarianz im Bereich zwischen −1 und 157 ist.

Alle Modelle werden viermal trainiert, danach werden die mittlere Leistung und die Standardabweichung des Validierungssatzes bestimmt. Die verschiedenen Modelle werden anhand der PPI-AUC-ROC-Scores verglichen. Ein einseitiger Signifikanztest wird anhand der Differenz der beiden unabhängigen AUC-ROC-Scores58 durchgeführt, verfügbar unter http://vassarstats.net/roc_comp.html.

Wir führten eine Fehleranalyse der einzelnen Proteine ​​im Testsatz durch, um den Zusammenhang zwischen kleinen Schnittstellen und IF-Leistungswerten zu untersuchen. Darüber hinaus testen wir die Beziehung zwischen niedrigen IF-Vorhersagewerten und den anderen Vorhersagewerten für Strukturmerkmalsaufgaben, indem wir eine lineare Regression mit dem Modul scipy.stats (Version: 1.3.1, siehe https://docs.scipy.org/doc) durchführen /scipy/reference/stats.html).

Um zu testen, ob die PPI-Schnittstellenvorhersage verbessert werden könnte, wenn sie als Multitasking-Problem formuliert wird, haben wir zwei Datensätze mit Struktur- und PPI-Anmerkungen generiert: (1) einen PPI-Datensatz, der sowohl Struktur- als auch PPI-Anmerkungen für alle Proteine ​​enthält, und (2) ein PPI_extendedSFD-Datensatz, der Strukturanmerkungen für alle Proteine ​​und PPI-Anmerkungen nur für ein Drittel der Daten enthält. Daher ist der PPI-Datensatz (3551 Proteine) eine Teilmenge des PPI_extendedSFD-Datensatzes. Der PPI_extendedSFD-Datensatz (11.007 Proteine) wird durch die verbleibenden Proteinstrukturen im OPUS-TASS-Datensatz erweitert, für die Strukturinformationen – jedoch keine PPI-Annotationen – verfügbar sind (siehe auch Tabelle 1).

Wir haben den Aufbau des Multitask-Modells von Darüber hinaus wurde das Modell erweitert, um vergrabene und PPI-Schnittstellenrückstände zu identifizieren. Diese Aufgaben wurden auf die gleiche Weise umgesetzt wie die bestehenden Sekundärstrukturklassifizierungsaufgaben.

Die anfängliche Lernrate wurde auf den PPI-Datensatz abgestimmt, indem das IF-Modell auf dem Trainingssatz trainiert und das Modell auf dem Validierungssatz validiert wurde. Wir haben diesen Parameter optimiert, indem wir die Werte 1e−3, 5e−4, 2,5e−4, 1e−4, 7,5e−4, 5e−5 und 1e−5 berücksichtigt haben. Die Modellleistungen wurden anhand der AUC ROC, der Fläche unter der Precision-Recall-Kurve (AUC PR) und der Genauigkeit gemessen. Ein stabiles Optimum wird erreicht, indem das Modell mit der Lernrate von 2,5e−4 trainiert wird (siehe ergänzende Abbildung 3). Wir haben die Leistung des Modells anhand dieser Lernraten für die zugehörigen Aufgaben bewertet, indem wir das von Xu et al.17 vorgestellte Multitasking-Modell mit der besten Leistung trainiert haben. Die Ergebnisse zeigen im Einklang mit dem PPI-Schnittstellenleistungswert ein stabiles Optimum für eine Lernrate von 2,5e−4 (siehe ergänzende Abbildung 4).

Wir haben die Vorhersageaufgaben S3, S8, SA und BU als mögliche verwandte Lernaufgaben zur PPI-Schnittstellenvorhersageaufgabe verwendet. Mehrere Modelle wurden auf verschiedene Kombinationen dieser Aufgaben trainiert. Jedes Modell wurde viermal separat sowohl auf dem PPI- als auch auf dem PPI_extendedSFD-Datensatz trainiert. Anschließend wurden die mittleren AUC-ROC- und AUC-PR-Werte sowie deren Standardabweichung bestimmt. Die Ergebnisse der Validierungssätze sind in Tabelle 2 aufgeführt. Die Ergebnisse der anderen berücksichtigten Leistungskennzahlen sind in der Ergänzungstabelle 1 aufgeführt. Die Lernstrategie mit mehreren Aufgaben (P < 1e−3 für alle Modelle) übertrifft den Lernenden mit einer Aufgabe deutlich (P < 1e−3 für alle Modelle) AUC ROC: 73,17 ± 0,36) sowohl für den PPI- als auch für den PPI_extendedSFD-Datensatz. Das „IFBUS3SA“-Modell, trainiert auf dem PPI_extendedSFD-Datensatz unter Verwendung von Schnittstelle (IF), Sekundärstruktur in drei Klassen (S3), vergrabener (BU) und Lösungsmittelzugänglichkeit (SA), erreicht als Vorhersageaufgaben den höchsten AUC-ROC (76,32 ± 0,23). Dieses Multitask-Modell übertrifft das Single-Task-Modell (P < 1e−6) und das IFBU-Modell im PPI-Datensatz (P < 1e−3) deutlich. Darüber hinaus übertrifft es das IFBU-Modell im PPI_extendedSFD-Datensatz und das IFBUSA-Modell im PPI-Datensatz deutlich (P < 0,01). Das Einbeziehen der spezifischeren Sekundärstrukturklassifizierungsaufgabe S8 anstelle von S3 oder sowohl S3 als auch S8 führte zu keiner weiteren Verbesserung.

Die in AUC-PR-Scores ausgedrückten PPI-Schnittstellenvorhersageleistungen (siehe Tabelle 2) folgen ähnlichen Trends wie die AUC-ROC-Scores. Weitere Analysen zeigten, dass Einzelaufgaben-Lernende der zugehörigen Aufgaben, die für diese bestimmte Aufgabe optimiert wurden, ähnliche Vorhersageleistungen erzielen wie die Mehraufgaben-Lernenden, die für die PPI-Schnittstellenvorhersage optimiert wurden (siehe ergänzende Abbildung 5). Die PPI-Schnittstellenvorhersage-AUC-ROC-Werte, die durch zusätzliche Modelle erzielt wurden, die auf mehr Kombinationen der zugehörigen Aufgaben trainiert wurden, sind in der ergänzenden Abbildung 6 zu finden.

Wir haben versucht, die PPI-Schnittstellenvorhersagen zu verbessern, indem wir die Torsionswinkelvorhersage als zusätzliche verwandte Lernaufgabe einbezogen haben. Wir haben die Phi-Winkel- und Psi-Winkel-Vorhersage in alle in Tabelle 2 beschriebenen Modelle einbezogen. Die Leistung wurde anhand des mittleren absoluten Fehlers gemessen. Nach dem Hinzufügen dieser Aufgaben zeigte sich jedoch keine signifikante Verbesserung im Vergleich zum am besten vorgestellten Modell (IFBUS3SA), siehe auch Ergänzungstabelle 2).

Wir haben unsere Modelle auf dem unabhängigen Testset getestet. Die Ergebnisse sind in Abb. 3 dargestellt und veranschaulichen die ähnlichen Leistungen der PPI-Schnittstellenvorhersage, ausgedrückt in AUC-ROC-Scores. Ergänzende Tabelle 3) zeigt zusätzliche Leistungsmaße sowohl für die Test- als auch für die Validierungssätze. Diese Ergebnisse stützen die Schlussfolgerung, dass die Multitasking-Lernenden besser abschneiden als die Single-Task-Lernenden.

Vergleich des Single-Task-Modells und des Multi-Task-Modells basierend auf den AUC-ROC-Scores der PPI-Schnittstellenvorhersage bei der Validierung und einem unabhängigen Testsatz. Die Leistungen werden für den Validierungs- (dunkelblau) und Testsatz (blau) für Modelle angezeigt, die auf dem PPI-Datensatz trainiert wurden, sowie für den Validierungs- (dunkelrot) und Testsatz (rot) für Modelle, die auf dem PPI_extendedSFD-Datensatz trainiert wurden. Alle Modelle werden einmal am Trainingsset trainiert. Ähnliche Leistungen werden für den Validierungs- und Testsatz gezeigt. Die Multi-Task-Modelle übertreffen das Single-Task-Modell.

Wir haben untersucht, ob die Modellleistung verbessert werden kann, indem die Gewichtungen des Verlusts der einzelnen Aufgaben in der Gesamtkostenfunktion mithilfe von drei verschiedenen Methoden angepasst werden. Methode A, deren Ergebnisse oben beschrieben sind, gewichtet alle Aufgaben gleich. Methode B halbiert die Gewichte stark verwandter Lernaufgaben (weitere Einzelheiten finden Sie unter „Methoden“). Methode C hält den Beitrag des Vorhersageverlusts der PPI-Schnittstelle konstant bei 50 % der Summe der Gewichtungen über alle Vorhersageaufgaben, wodurch die IF-Aufgabe viel stärker gewichtet wird. Beide Methoden wurden während des Trainings der Modelle IFBUS3SA, IFBUS8SA und IFBUS3S8SA getestet (siehe ergänzende Abbildung 7A). Methode B wurde auch mit Modellen verglichen, die nur eine der ähnlichen Vorhersageaufgaben enthielten (siehe ergänzende Abbildung 7B). Die Ergebnisse deuten nicht auf eine Steigerung der Modellleistung hin. Daher scheint das Modell nicht sehr empfindlich auf die Gewichte der Kostenfunktion zu reagieren.

Beim Vergleich der Modellleistungen mit und ohne Datenerweiterung (in Tabelle 2 und Abb. 3) können wir eine leichte Leistungssteigerung für die Trainingsdatensätze beobachten, die mit Struktureigenschaftsinformationen erweitert wurden, jedoch ohne zusätzliche PPI-Schnittstellenanmerkungen. Diese Ergebnisse legen nahe, dass die Schnittstellenvorhersage nicht nur von der Multitask-Lernstrategie profitiert, indem die Proteinsequenzen im PPI-Datensatz mit den zugehörigen Aufgabeninformationen annotiert werden, sondern auch vom Training nur auf zusätzlichen Daten der zugehörigen Aufgaben, wie sie teilweise bereitgestellt werden kommentierter Datensatz.

Um diese Ergebnisse weiter zu untersuchen, haben wir die PPI-Schnittstellenanmerkungen in den Datensätzen verringert. Wir haben den Einzelaufgaben-Lerner und das leistungsstärkste Modell IFBUS3SA für beide Datensätze bewertet, in denen nur ein Teil der Daten berücksichtigt wird, siehe Abb. 4. Wir haben das Einzelaufgaben-Modell und das IFBUS3SA-Modell für einen Teil des PPI-Datensatzes trainiert . Als nächstes haben wir das IFBUS3SA-Modell auf dem PPI_extendedSFD-Datensatz trainiert, für den wir nur einen Teil der PPI-Anmerkungen eingebunden haben. Bei jedem Datenverringerungsschritt werden die drei Modelle mit denselben PPI-Schnittstelleninformationen trainiert und alle Modelle werden anhand des gesamten Validierungssatzes bewertet. Die Modellleistung wird anhand der AUC ROC für die PPI-IF-Vorhersage gemessen.

Die Bedeutung des Multitasking-Setups und der Datenerweiterung beim Training eines PPI-Schnittstellenvorhersagemodells, das auf begrenzten Daten trainiert wird. Verglichen werden das Single-Task-Modell IF (rosa) und das Multi-Task-Modell IFBUS3SA (rot und braun). Das rot dargestellte IF-Modell und das IFBUS3SA-Modell werden auf einem Teil des PPI-Datensatzes trainiert. Leistungsunterschiede zwischen den rosa und roten Balken stellen daher den Vorteil der Multitasking-Lernstrategie dar. Das IFBUS3SA-Modell in Braun wird auf dem PPI_extendedSFD-Datensatz trainiert, in dem nur ein Teil der PPI-Schnittstelleninformationen berücksichtigt wird. Alle braunen Balken werden somit auf die gleiche Anzahl von Sequenzen trainiert, für die die zugehörigen Aufgabeninformationen verfügbar sind. Leistungsunterschiede zwischen roten und braunen Balken weisen auf den Vorteil des Trainings des Modells auf dem erweiterten PPI_extendedSFD-Datensatz hin. Die Modellleistung wird durch den mittleren AUC-ROC (Balken) und die Standardabweichung (Whisker) der PPI-Schnittstellenvorhersage für den gesamten Validierungssatz angezeigt.

Abbildung 4 zeigt, dass weniger Trainingsdaten erwartungsgemäß bei allen Strategien generell zu einer schlechteren Leistung führen. Bei sehr kleinen Trainingsdatensätzen (z. B. einem Zwanzigstel der Gesamtdaten) übertrifft das Multitasking-Lernen (rote Balken) ohne Erweiterung der Daten die Einzeltask-Strategie (rosa Balken) nicht wesentlich (Abb. 4). Dies liegt wahrscheinlich auch daran, dass es an ausreichenden Informationen für das Training mangelt.

Abbildung 4 zeigt außerdem, dass der Leistungsunterschied zwischen der Einzelaufgabenstrategie (rosa Balken) und der Mehraufgabenstrategie mit Datenerweiterung (braune Balken) umso größer ist, je kleiner die Trainingsdatensätze sind. Daher verbessert sich die Leistung des Multitask-Modells stark, wenn der Trainingsdatensatz mit Proteinen erweitert wird, die nur strukturelle Annotationen enthalten, für die jedoch die PPI-Annotationen fehlen, d. h. wenn es auf dem PPI_extendedSFD-Datensatz trainiert wird (braun im Vergleich zu rot). Somit verbessern die durch die zugehörigen Lernaufgaben erfassten Informationen die PPI-Schnittstellenvorhersage, selbst wenn für die Mehrzahl der Proteine ​​im Trainingssatz keine PPI-Schnittstellenanmerkungen verfügbar sind. Ebenso wird die Datenerweiterung wichtiger, wenn annotierte PPI-Schnittstellendaten sehr knapp sind. Gleiche Leistungen werden für das IF-Modell erreicht, das auf den gesamten verfügbaren PPI-Schnittstelleninformationen trainiert wurde (rosafarbener Balken mit der Bezeichnung „alle“) und das IFBUS3SA-Modell, das auf dem PPI_extendedSFD-Datensatz trainiert wurde, der nur ein Achtel der verfügbaren PPI-Schnittstelleninformationen enthält (brauner Balken mit der Beschriftung „1/“). 8').

Um diese Ergebnisse zu bestätigen, haben wir die Modelle auch einschließlich aller, 1/2, 1/, 1/20 und 1/200 der Daten auf einem unabhängigen Testsatz getestet. Die Ergebnisse sind in der ergänzenden Abbildung 8 dargestellt und stimmen mit den oben beschriebenen Ergebnissen überein.

Nach dem Training des Multitask-Modells IFBUS3SA führten wir eine Fehleranalyse an einzelnen Proteinen im Testsatz durch, um biologische Einblicke in die von den Modellen generierten Vorhersagen zu gewinnen. Abbildung 5 zeigt die Receiver-Operator-Charakteristikkurve für vier einzelne beispielhafte Proteine. Ziel- und vorhergesagte Reste werden mit dem Strukturbetrachter UCSF ChimeraX59 angezeigt (siehe Abb. 5).

Die Proteine ​​mit hohen AUC-ROC-Werten weisen viele korrekt vorhergesagte Grenzflächenreste auf (in Abb. 5b – d gelb dargestellt). Falsch positive Rückstände, bei denen es sich um Rückstände handelt, die als Grenzflächenreste vorhergesagt, aber im Goldstandard nicht als solche angegeben sind (in Abb. 5b–e weiß dargestellt), liegen bei diesen typischerweise nahe an der tatsächlichen Grenzfläche (siehe Abb. 5b). Proteine, die niedrigeren AUC-ROC-Werten entsprechen, zeigen einige falsch-negative Ergebnisse, bei denen es sich um Grenzflächenreste handelt, die vom Modell nicht als Grenzflächenreste vorhergesagt werden (in Abb. 5c – e rot dargestellt), und viele falsch-positive Ergebnisse. Beachten Sie, dass in lokalisierten Bereichen der Struktur einige Fehlalarme auftreten, was möglicherweise auf einen echten PPI-Schnittstellenbereich hinweist, der im Datensatz nicht annotiert ist. Beispielsweise bilden in Abb. 5b die auf den \(\alpha\)-Helices lokalisierten Falschpositiven tatsächlich eine sekundäre Grenzfläche in der tetrameren Struktur. Für ein Protein mit einer sehr kleinen Grenzfläche wurden keine korrekt vorhergesagten Reste beobachtet (siehe Abb. 5d).

Analyse von vier Proteinen im Testsatz nach dem Training des Multitask-Modells IFBUS3SA auf dem PPI_extendedSFD-Datensatz. (a) Die Receiver-Operator-Characteristics-Kurve (ROC) der vier Proteine ​​(4wilA in Blau, 3rtlA in Orange, 1vkcA in Grün und 4a0eA in Rot) mit ihrer entsprechenden Fläche unter dem Kurvenscore (AUC ROC). (b–e) Visualisierte Proteinstrukturen, die den Proteinen in der ROC-Kurve entsprechen. Die Proteinketten, die die vorhergesagte Schnittstelle enthalten, sind dunkelblau dargestellt, die Bindungspartner grün. Korrekt vorhergesagte Rückstände werden gelb, falsch positive Rückstände weiß und falsch negative Rückstände rot gefärbt. (b) Proteinstruktur des Proteins 4wilA, entsprechend der hellblauen Linie in der ROC-Kurve. (c) Proteinstruktur des Proteins 3rtlA, entsprechend der orangefarbenen Linie in der ROC-Kurve. (d) Proteinstruktur des Proteins 1vkcA, entsprechend der grünen Linie in der ROC-Kurve. (e) Proteinstruktur des Proteins 4a0eA, entsprechend der roten Linie in der ROC-Kurve.

Um die Fehlertrends detaillierter zu analysieren, haben wir vier verschiedene Multitasking-Modelle mit unterschiedlichen Trainingsrunden trainiert und die mittlere Leistung pro Protein im Testsatz ermittelt. Abbildung 6a zeigt, dass Proteine ​​mit niedrigen (< 0,4) AUC-ROC-Werten für die PPI-Schnittstellenvorhersage alle Proteine ​​sind, die eine kleine annotierte Schnittstellenregion enthalten. Proteine ​​mit kleinen Schnittstellen führen jedoch nicht unbedingt zu niedrigen Vorhersagewerten. Darüber hinaus haben wir den Zusammenhang zwischen der PPI-Schnittstellenvorhersage und den damit verbundenen Aufgabenvorhersagen untersucht. Dies wurde durchgeführt, um zu testen, ob es sich bei Proteinen, die niedrigen AUC-ROC-Werten entsprechen, im Allgemeinen um Proteine ​​handelt, deren Strukturmerkmale schwer vorherzusagen sind. Das \({R}^2\) wurde bestimmt und ergab 0,010 für die vergrabenen Reste, 0,016 für die Sekundärstruktur in drei Klassen und 0,031 für die absolute Lösungsmittelzugänglichkeit. Daher wurde keine nennenswerte Korrelation zwischen dem AUC-ROC-Wert der PPI-Schnittstellenvorhersage und der zugehörigen Lernaufgabe für das IFBUS3SA-Modell gefunden (siehe Abb. 6b). Die gleiche Schlussfolgerung wurde gezogen, nachdem diese Analyse am IFBUS3SA-Modell durchgeführt wurde, das nur auf einem Zehntel der PPI-Schnittstelleninformationen trainiert wurde (siehe ergänzende Abbildung 9).

Fehleranalyse der einzelnen Proteine ​​im Testsatz nach dem Training des IFBUS3SA-Modells auf dem PPI_extendedSFD-Datensatz. (a) Der mittlere AUC ROC der Schnittstellenvorhersage wird gegen die Anzahl der Schnittstellenreste pro Protein aufgetragen. Niedrige AUC-ROC-Werte (< 0,4) werden nur beobachtet, wenn die Grenzflächenregion des Proteins klein ist (< 20 Reste). (b) Die mittlere Genauigkeit der vorhergesagten Strukturmerkmale (BU, S3 und SA) und der mittlere Pearson-Korrelationskoeffizient der absoluten Lösungsmittelzugänglichkeit werden gegen den mittleren AUC-ROC-Score der PPI-Schnittstellenvorhersage pro Protein aufgetragen. Es wurde eine lineare Regression durchgeführt, die zu einem R2 von 0,010 (BU), 0,016 (S3) und 0,031 (SA) führte.

Die Vorhersage der Protein-Protein-Interaktionsschnittstelle anhand der Sequenz ist eine schwierige Aufgabe und Anmerkungen zu Schnittstellenresten sind rar. Hier zeigen wir, wie man das Problem der begrenzten Größe der Datensätze überwinden kann, indem man ein tiefes neuronales Netzwerk trainiert, das PPI-Schnittstellenreste vorhersagt, und zwar mithilfe einer Multitask-Lernstrategie an einem teilweise annotierten Datensatz. Alle unsere Multitask-Modelle übertreffen das Single-Task-Modell deutlich (P < 0,001) in den PPI- und PPI_extendedSFD-Datensätzen. Das Einzelaufgabenmodell erreicht einen AUC-ROC von 73,2 % ± 0,4, während das Multitask-Modell mit der besten Leistung 76,3 % ± 0,2 erreicht; Dieses letztere Modell umfasst als verwandte Vorhersageaufgaben die Identifizierung vergrabener Reste, der Sekundärstruktur und der absoluten Lösungsmittelzugänglichkeit sowie die Vorhersage der PPI-Schnittstelle. Die Leistungen des unabhängigen Testsatzes stimmen mit den Ergebnissen des Validierungssatzes überein. Daher können die durch die zugehörigen strukturellen Annotationsaufgaben gelernten Darstellungen dem Modell tatsächlich bei der Klassifizierung von PPI-Schnittstellenresten helfen.

Wir zeigen, dass der zusätzliche Nutzen des Multitask-Setups weiter gesteigert werden kann, indem Anmerkungen nur für die zugehörigen Aufgaben hinzugefügt werden: Die PPI-Schnittstellenvorhersage verbesserte sich drastisch, als wir den begrenzten PPI-Trainingsdatensatz um zusätzliche Proben (Proteine) erweiterten, für die nur verwandte Strukturen relevant waren Anmerkungen waren verfügbar. Darüber hinaus wird das Multitasking-Setup noch wichtiger, wenn der Trainingssatz reduziert wird. Um die Stärke davon hervorzuheben, haben wir bis auf ein Acht alle PPI-Schnittstelleninformationen aus dem erweiterten Datensatz entfernt. In diesem Szenario erreicht das Multitask-Modell immer noch ähnliche Leistungswerte wie der Einzeltask-Lernende, wenn es auf allen PPI-Schnittstelleninformationen trainiert wird. Daher zeigen wir, dass die Formulierung einer Prädikationsaufgabe als Multitasking-Lernproblem für Proteinstruktur- (oder Funktions-)Vorhersageaufgaben, für die nur ein kleiner Satz annotierter Trainingsdaten verfügbar ist, äußerst wirkungsvoll sein kann.

Wir gehen davon aus, dass die gemeinsame Modelldarstellung es ermöglicht, grundlegende Eigenschaften der Proteinstruktur zu lernen. Lernbezogene Aufgaben – etwa welche Aminosäuren der Oberfläche ausgesetzt sind – machen die erlernte Darstellung relevanter. Insbesondere ist zu erwarten, dass Informationen zur Oberflächenzugänglichkeit entscheidend für die Entscheidung sein werden, ob es sich bei einem Rückstand um einen Grenzflächenrückstand handelt oder nicht. Darüber hinaus gibt es deutliche Unterschiede in der Aminosäurezusammensetzung von Oberflächen-, Grenzflächen- und Kernresten60. Klausen et al.15 und Xu et al.17 haben bereits gezeigt, dass das gemeinsame Lernen der Sekundärstruktur und der Oberflächenzugänglichkeit die Lernmodelle genauer machen kann. Hier zeigen wir zwei zusätzliche Punkte: (1) Funktionelle Anmerkungen zur Proteinstruktur profitieren ebenfalls von dieser gemeinsamen Darstellung und (2) die Multitasking-Einstellung wird besonders leistungsstark, wenn für eine der Aufgaben nur eine sehr begrenzte Datenmenge verfügbar ist.

Es ist wichtig zu erwähnen, dass in den aktuellen Strukturdatensätzen wahrscheinlich viele Reste der echten Protein-Protein-Interaktion (PPI)-Schnittstelle nicht als solche annotiert sind, einfach weil keine PDB-Strukturen der relevanten gebundenen Zustände verfügbar sind. Daher fehlen einige echte Protein-Protein-Bindungsschnittstellen in jedem Strukturdatensatz, der für das Training und die Leistungsbewertung einer PPI-Schnittstellenvorhersagemethode verwendet wird.

Der Zweck dieser Studie besteht darin, einen Grundsatzbeweis für den Einsatz von Multitask-Lernen zur Verbesserung der Vorhersageleistung für Proteinstrukturaufgaben mit wenigen funktionalen Annotationen, wie z. B. PPI-Schnittstellen, zu liefern. Unser Lernmodell ist vergleichbar mit dem in OPUS-TASS17 verwendeten Multitasking-Modell, mit der zusätzlichen Möglichkeit, auf teilweise annotierten Daten zu trainieren. Wir haben keine umfassende Optimierung der Architektur vorgenommen, um die höchstmögliche Genauigkeit der PPI-Schnittstellenvorhersage zu erreichen. Dennoch sind unsere resultierenden AUC-ROC-Scores mit veröffentlichten, hochmodernen Methoden zur PPI-Schnittstellenvorhersage vergleichbar. Beachten Sie, dass die Leistung dieser verschiedenen Methoden nicht direkt verglichen werden kann, da unterschiedliche Testsätze verwendet wurden. Wir werden jedoch eine Diskussion der gemessenen Leistung dieser Modelle einschließen, um einen Hintergrund zu liefern, vor dem wir unsere Ergebnisse besser interpretieren und vergleichen können, welche Funktionen einbezogen wurden und wie diese im Vorhersagemodell verwendet wurden. Einen aktuellen Überblick über hochmoderne PPI-Prädiktoren bieten Zhang & Kurgan9, den wir kürzlich um einen Vergleich mit einigen unserer eigenen Methoden23 erweitert haben. Diese Vergleiche wurden alle anhand ihres ZK448-Benchmark-Datensatzes14 unter Verwendung verschiedener Metriken durchgeführt. Nachfolgend listen wir ihre AUC-ROC-Werte auf (sofern nicht anders angegeben). SSWRF von Wei et al.30 erreichte einen AUC-ROC von 68,7 %; Es übertraf 2016 die modernsten Methoden. Ähnlich wie unser Multitask-Modell nutzte diese Methode Informationen über das PSSM und die Lösungsmittelzugänglichkeit. In SSWRF werden beide als Eingabemerkmale verwendet, während letzteres in unserem Modell als zugehörige Lernaufgabe verwendet wird. Ihr drittes Eingabemerkmal, die gemittelte kumulative Hydropathie, wurde für unsere Methode nicht berücksichtigt. SeRenDIP von Hou et al.7,31 erreichte später einen AUC-ROC-Score von 70,7 % auf einem Datensatz sowohl homomerer als auch heteromerer Proteinkomplexe (HHC). SeRenDIP wurde nicht direkt mit SSWRF verglichen, übertraf jedoch im HHC-Testsatz die älteren PPI-Vorhersagemodelle SPPIDER61 und PSIVER62. SeRenDIP nutzt Konservierung, Lösungsmittelzugänglichkeit und Sekundärstruktur als Eingabemerkmale, um die PPI-Schnittstellenvorhersagen zu generieren. Darüber hinaus berücksichtigt SeRenDIP die Backbone-Dynamik und die Sequenzlänge, die in unserem aktuellen Multitask-Modell nicht verwendet werden. SCRIBER erreicht einen AUC ROC von 71,5 % und übertrifft damit unter anderem SPPIDER (51,7 %), PSIVER (58,1 %) und SSWRF auf ihrem ZK448-Testset9. SCRIBER verwendet evolutionäre Konservierung, relative Lösungsmittelzugänglichkeit und Sekundärstrukturmerkmale als Eingabemerkmale. Darüber hinaus verwendet SCRIBER die physikalisch-chemischen Eigenschaften von Aminosäuren als Eingabe (Ladung, Hydrophobie, Polarität, Aliphatizität, Aromatizität, Säuregehalt und Größe) sowie die relative Neigung zu Aminosäureschnittstellen und Anmerkungen zu intrinsisch ungeordneten Regionen. Beachten Sie, dass zusätzliche Funktionen, wie sie beispielsweise in anderen Methoden verwendet werden, ebenfalls in unser Multitask-Modell einbezogen werden können, entweder als Eingabefunktionen oder als zugehörige Lernaufgabe. Beispielsweise haben wir zuvor gezeigt, dass die Einbeziehung von Sequenzlänge und Backbone-Flexibilität als Eingabemerkmale die Vorhersage von PPI7- und Epitopregionen verbessert13. Darüber hinaus könnten strukturbasierte Features wie (vorhergesagte) Restkontakte oder andere (vorhergesagte) 3D-Features als Eingabe oder als zugehörige Aufgabe hinzugefügt werden. Jüngste Fortschritte bei der 3D-Strukturvorhersage2 legen nahe, dass dies ein wahrscheinlicher Weg sein könnte, die PPI-Schnittstellenvorhersage weiter zu verbessern. Allerdings müsste die Architektur des Modells angepasst werden. Mehrere Studien präsentierten Modelle zur Vorhersage der Wechselwirkung zwischen Proteinen und anderen Molekülen wie Peptiden, kleinen Molekülen und Nukleinsäuren9,23,63. Diese Anmerkungen könnten möglicherweise als verwandte Aufgaben verwendet werden und die Modellleistung weiter verbessern.

Obwohl wir das Modell nicht umfassend optimiert haben, haben wir einige Parameter untersucht, die sich am wahrscheinlichsten auf das Mehrklassenlernen auswirken. Wir haben die Multitasking-Lernstrategie durch die kombinierte Verlustfunktion implementiert, die in allen Schichten des Modells (außer der Ausgabeschicht) verwendet wird. Diese Ebenen werden von allen enthaltenen Aufgaben gemeinsam genutzt. Wir haben versucht, die Gewichtungen der verschiedenen Aufgaben anzupassen, dies führte jedoch zu keiner Verbesserung der Leistung.

Wir haben außerdem versucht, die PPI-Schnittstellenvorhersagen zu verbessern, indem wir die Torsionswinkelvorhersage unter Verwendung der OPUS-TASS-Labels einbezogen haben. Für das in dieser Arbeit am besten vorgestellte Modell konnte jedoch keine signifikante Verbesserung festgestellt werden. In dieser Arbeit haben wir die anfängliche Lernrate angepasst, unsere eigenen zusätzlichen Ausgabebezeichnungen erstellt und Gewichtungen für die kombinierte Verlustfunktion und das Klassenungleichgewicht für die PPI-Schnittstellenvorhersage festgelegt. Wir gehen davon aus, dass durch die Vereinfachung der Modellarchitektur ähnliche PPI-Schnittstellenvorhersageleistungen erzielt werden könnten. Weitere Studien sollten ergeben, ob die Leistung durch die Feinabstimmung des Modells noch weiter verbessert werden könnte. Dennoch zeigen wir hier den erheblichen Nutzen der Multitasking-Lernstrategie für einen teilweise annotierten Datensatz zur Erzielung genauer Leistungen für die schwierige PPI-Schnittstellenvorhersageaufgabe. Daher hoffen wir, dass der Multitasking-Aufbau und die Datenerweiterung bei anderen Proteinstruktur- oder -funktionsvorhersageaufgaben, bei denen die Größe der annotierten Trainingssätze (extrem) begrenzt ist, von erheblichem Wert sein werden.

Der Code ist unter https://github.com/ibivu/multi-task-PPI verfügbar. Beachten Sie, dass alle in dieser Studie verwendeten experimentellen Proteinstrukturen im PDB43 hinterlegt wurden. Die PDB-Zugangscodes sowie die generierten Funktionen und Ausgabeetiketten, die für Training und Validierung verwendet werden, sind unter https://ibi.vu.nl/downloads/multi-task-PPI/ verfügbar.

Die ursprüngliche Online-Version dieses Artikels wurde überarbeitet: In der Originalversion dieses Artikels wurde die ORCID-ID für Henriette Capel, K. Anton Feenstra und Sanne Abeln weggelassen. Die ORCID-ID für Henriette Capel lautet 0000-0002-3757-5313, die ORCID-ID für K. Anton Feenstra lautet 0000-0001-6755-9667 und die ORCID-ID für Sanne Abeln lautet 0000-0002-2779-7174.

Konsortium, TU UniProt: Die universelle Protein-Wissensdatenbank im Jahr 2021. Nucl. Säuren Res. 49, D480–D489. https://doi.org/10.1093/nar/gkaa1100 (2020).

Artikel CAS Google Scholar

Jumper, J. et al. Hochpräzise Vorhersage der Proteinstruktur mit AlphaFold. Natur 596, 583–589 (2021).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Zhang, J. & Kurgan, L. Übersicht und vergleichende Bewertung sequenzbasierter Prädiktoren für Proteinbindungsreste. Knapp. Bioinform. 19, 821–837. https://doi.org/10.1093/bib/bbx022 (2018).

Artikel CAS PubMed Google Scholar

Uetz, P. et al. Eine umfassende Analyse der Protein-Protein-Wechselwirkungen in Saccharomyces cerevisiae. Natur 403, 623–627 (2000).

Artikel ADS CAS PubMed Google Scholar

Jones, S. & Thornton, JM Prinzipien der Protein-Protein-Wechselwirkungen. Proz. Natl. Acad. Wissenschaft. 93, 13–20 (1996).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Vinayagam, A. et al. Ein gerichtetes Proteininteraktionsnetzwerk zur Untersuchung der intrazellulären Signaltransduktion. Wissenschaft. Signal. 4, rs8 (2011).

Artikel PubMed Google Scholar

Hou, Q., Geest, P., Vranken, W. & Feenstra, KA Die Bäume durch den Wald sehen: Sequenzbasierte Vorhersage homo- und heteromerer Protein-Protein-Interaktionsstellen mithilfe von Random Forest. Bioinformatik 33, 1479–1487. https://doi.org/10.1093/bioinformatics/btx005 (2017).

Artikel CAS PubMed Google Scholar

Sanchez-Garcia, R., Sorzano, COS, Carazo, JM & Segura, J. BIPSPI: Eine Methode zur Vorhersage partnerspezifischer Protein-Protein-Schnittstellen. Bioinformatik 35, 470–477 (2019).

Artikel CAS PubMed Google Scholar

Zhang, J. & Kurgan, L. SCRIBER: Genaue und partnertypspezifische Vorhersage proteinbindender Reste aus Proteinsequenzen. Bioinformatik 35, i343–i353 (2019).

Artikel CAS PubMed PubMed Central Google Scholar

Shoemaker, BA & Panchenko, AR Entschlüsselung von Protein-Protein-Wechselwirkungen. Teil I. Experimentelle Techniken und Datenbanken. PLoS Comput. Biol. 3, 1–8. https://doi.org/10.1371/journal.pcbi.0030042 (2007).

Artikel ADS CAS Google Scholar

Kuzmanov, U. & Emili, A. Protein-Protein-Interaktionsnetzwerke: Untersuchung von Krankheitsmechanismen mithilfe von Modellsystemen. Genommed. 5, 1–12 (2013).

Artikel Google Scholar

Savojardo, C., Martelli, PL & Casadio, R. Protein-Protein-Interaktionsmethoden und Proteinphasentrennung. Ann. Rev. Biomed. Datenwissenschaft. 3, 89–112 (2020).

Artikel Google Scholar

Hou, Q. et al. SeRenDIP-CE: Sequenzbasierte Schnittstellenvorhersage für Konformationsepitope. Bioinformatik https://doi.org/10.1093/bioinformatics/btab321 (2021).

Artikel PubMed PubMed Central Google Scholar

Zhang, Y. & Yang, Q. Ein Überblick über das Lernen mit mehreren Aufgaben. Natl. Wissenschaft. Rev. 5, 30–43. https://doi.org/10.1093/nsr/nwx105 (2018).

Artikel ADS Google Scholar

Klausen, M. et al. NetSurfP-2.0: Verbesserte Vorhersage von Proteinstrukturmerkmalen durch integriertes Deep Learning. Proteinstruktur. Funktion. Bioinform. 87, 520–527. https://doi.org/10.1002/prot.25674 (2019).

Artikel CAS Google Scholar

Hanson, J., Paliwal, K., Litfin, T., Yang, Y. & Zhou, Y. Verbesserung der Vorhersage der Proteinsekundärstruktur, der Rückgratwinkel, der Lösungsmittelzugänglichkeit und der Kontaktzahlen durch Verwendung vorhergesagter Kontaktkarten und eines Ensembles wiederkehrender und verbleibende Faltungs-Neuronale Netze. Bioinformatik 35, 2403–2410. https://doi.org/10.1093/bioinformatics/bty1006 (2019).

Artikel CAS PubMed Google Scholar

Xu, G., Wang, Q. & Ma, J. OPUS-TASS: Ein Proteinrückgrat-Torsionswinkel- und Sekundärstruktur-Prädiktor basierend auf Ensemble-Neuronalnetzwerken. Bioinformatik 36, 5021–5026. https://doi.org/10.1093/bioinformatics/btaa629 (2020).

Artikel CAS PubMed Google Scholar

Goodfellow, I., Bengio, Y., Courville, A. & Bengio, Y. Deep Learning Vol. 1 (MIT Press, 2016).

MATH Google Scholar

Heffernan, R. et al. Verbesserung der Vorhersage der Sekundärstruktur, der lokalen Rückgratwinkel und der lösungsmittelzugänglichen Oberfläche von Proteinen durch iteratives Deep Learning. Wissenschaft. Rep. 5, 11476. https://doi.org/10.1038/srep11476 (2015).

Artikel ADS PubMed PubMed Central Google Scholar

Wang, S., Li, W., Liu, S. & Xu, J. RaptorX-property: Ein Webserver zur Vorhersage von Proteinstruktureigenschaften. Nukl. Säuren Res. 44, gkw306. https://doi.org/10.1093/nar/gkw306 (2016).

Artikel CAS Google Scholar

Heffernan, R., Yang, Y., Paliwal, K. & Zhou, Y. Erfassung nicht-lokaler Wechselwirkungen durch bidirektionale wiederkehrende neuronale Netze mit langem Kurzzeitgedächtnis zur Verbesserung der Vorhersage der Proteinsekundärstruktur, der Rückgratwinkel, der Kontaktzahlen und der Lösungsmittelzugänglichkeit . Bioinformatik 33, 2842–2849. https://doi.org/10.1093/bioinformatics/btx218 (2017).

Artikel CAS PubMed Google Scholar

Gao, Y., Wang, S., Deng, M. & Xu, J. Realwert- und Konfidenzvorhersage der Diederwinkel des Proteinrückgrats durch eine Hybridmethode aus Clustering und Deep Learning. BMC Bioinform. https://doi.org/10.1186/s12859-018-2065-x (2018).

Artikel Google Scholar

Stringer, B. et al. PIPENN: Proteinschnittstellenvorhersage mit einem Ensemble neuronaler Netze. Bioinformatik 38, 2111–2118. https://doi.org/10.1093/bioinformatics/btac071 (2022).

Artikel CAS PubMed Central Google Scholar

Rao, R. et al. Bewertung des Proteintransferlernens mit TAPE. Adv. Neuronale Inf. Verfahren. Syst. 32, 9689 (2019).

PubMed PubMed Central Google Scholar

Madani, A. et al. Progen: Sprachmodellierung für die Proteingenerierung. arXiv-Vorabdruck arXiv:2004.03497 (2020).

Caruana, R. Multitasking-Lernen. Mach. Lernen. 28, 41–75 (1997).

Artikel Google Scholar

Pan, SJ & Yang, Q. Eine Umfrage zum Transferlernen. IEEE Trans. Wissen. Daten-Ing. 22, 1345–1359 (2009).

Artikel Google Scholar

Ofran, Y. & Rost, B. ISIS: Interaktionsstellen anhand der Sequenz identifiziert. Bioinformatik 23, e13–e16 (2007).

Artikel CAS PubMed Google Scholar

Li, B.-Q., Feng, K.-Y., Chen, L., Huang, T. & Cai, Y.-D. Vorhersage von Protein-Protein-Interaktionsstellen durch einen Random-Forest-Algorithmus mit mRMR und IFS. PLoS ONE 7, e43927 (2012).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Wei, Z.-S., Han, K., Yang, J.-Y., Shen, H.-B. & Yu, D.-J. Vorhersage von Protein-Protein-Interaktionsstellen durch Kombination von SVM und stichprobengewichteten Zufallswäldern. Neurocomputing 193, 201–212 (2016).

Artikel Google Scholar

Hou, Q. et al. SeRenDIP: Sequentielles Remastering zur Ableitung von Profilen für schnelle und genaue Vorhersagen von PPI-Schnittstellenpositionen. Bioinformatik 35, 4794–4796. https://doi.org/10.1093/bioinformatics/btz428 (2019).

Artikel CAS PubMed Google Scholar

Chen, H. & Zhou, H.-X. Vorhersage von Grenzflächenresten in Protein-Protein-Komplexen durch eine Konsens-Neuronale-Netzwerk-Methode: Test anhand von NMR-Daten. Proteinstruktur. Funktion. Bioinform. 61, 21–35 (2005).

Artikel CAS Google Scholar

Hoskins, J., Lovell, S. & Blundell, TL Ein Algorithmus zur Vorhersage von Protein-Protein-Interaktionsstellen: Abnormal exponierte Aminosäurereste und Sekundärstrukturelemente. Proteinwissenschaft. 15, 1017–1029 (2006).

Artikel CAS PubMed PubMed Central Google Scholar

de Vries, SJ & Bonvin, AM Wie Proteine ​​in Kontakt kommen: Schnittstellenvorhersage bei der Untersuchung biomolekularer Komplexe. Curr. Protein-Peptid-Sci. 9, 394–406 (2008).

Artikel Google Scholar

Faber, H. & Matthews, B. Ein mutiertes t4-Lysozym zeigt fünf verschiedene Kristallkonformationen. Nature 348, 263–266 (1990).

Artikel ADS CAS PubMed Google Scholar

Wright, PE & Dyson, HJ Intrinsisch unstrukturierte Proteine: Neubewertung des Proteinstruktur-Funktions-Paradigmas. J. Mol. Biol. 293, 321–331 (1999).

Artikel CAS PubMed Google Scholar

Zvelebil, MJ & Baum, JO Understanding Bioinformatics (Garland Science, 2007).

Buchen Sie MATH Google Scholar

Ma, B., Elkayam, T., Wolfson, H. & Nussinov, R. Protein-Protein-Wechselwirkungen: Strukturell konservierte Reste unterscheiden zwischen Bindungsstellen und exponierten Proteinoberflächen. Proz. Natl. Acad. Wissenschaft. USA 100, 5772–5777. https://doi.org/10.1073/pnas.1030237100 (2003).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Carl, N., Konc, J. & Janezic, D. Proteinoberflächenkonservierung in Bindungsstellen. J. Chem. Inf. Modell. 48, 1279–86. https://doi.org/10.1021/ci8000315 (2008).

Artikel CAS PubMed Google Scholar

Choi, YS, Yang, J.-S., Choi, Y., Ryu, SH & Kim, S. Evolutionäre Konservierung in mehreren Facetten der Proteininteraktion. Proteine ​​77, 14–25. https://doi.org/10.1002/prot.22410 (2009).

Artikel CAS PubMed Google Scholar

Hanson, J., Paliwal, K., Litfin, T., Yang, Y. & Zhou, Y. Genaue Vorhersage von Proteinkontaktkarten durch Kopplung des restlichen zweidimensionalen bidirektionalen Lang-Kurzzeitgedächtnisses mit Faltungs-Neuronalen Netzen. Bioinformatik 34, 4039–4045 (2018).

CAS PubMed Google Scholar

Wang, G. & Dunbrack, RL Jr. PISCES: Ein Proteinsequenz-Culling-Server. Bioinformatik 19, 1589–1591 (2003).

Artikel CAS PubMed Google Scholar

Berman, HM et al. Die Proteindatenbank. Nukl. Säuren Res. 28, 235–242 (2000).

Artikel ADS CAS PubMed PubMed Central Google Scholar

Altschul, SF et al. Gapped BLAST und PSI-BLAST: Eine neue Generation von Proteindatenbank-Suchprogrammen. Nukl. Säuren Res. 25, 3389–3402 (1997).

Artikel CAS PubMed PubMed Central Google Scholar

Suzek, BE et al. UniRef-Cluster: Eine umfassende und skalierbare Alternative zur Verbesserung der Sequenzähnlichkeitssuche. Bioinformatik 31, 926–932 (2015).

Artikel CAS PubMed Google Scholar

Steinegger, M. et al. HH-suite3 für die schnelle Remote-Homologieerkennung und umfassende Proteinannotation. BMC Bioinform. 20, 1–15 (2019).

Artikel CAS Google Scholar

Mirdita, M. et al. Uniclust-Datenbanken mit geclusterten und ausführlich annotierten Proteinsequenzen und -Alignments. Nukl. Säuren Res. 45, D170–D176 (2017).

Artikel CAS PubMed Google Scholar

Remmert, M., Biegert, A., Hauser, A. & Söding, J. HHblits: Blitzschnelle iterative Proteinsequenzsuche durch HMM-HMM-Alignment. Nat. Methoden 9, 173–175 (2012).

Artikel CAS Google Scholar

Meiler, J., Müller, M., Zeidler, A. & Schmäschke, F. Generierung und Auswertung dimensionsreduzierter Aminosäureparameterdarstellungen durch künstliche neuronale Netze. Mol. Modell. Ann. 7, 360–369 (2001).

Artikel CAS Google Scholar

Lu, M., Dousis, AD & Ma, J. OPUS-PSP: Ein orientierungsabhängiges statistisches Allatompotential, abgeleitet aus der Seitenkettenpackung. J. Mol. Biol. 376, 288–301 (2008).

Artikel CAS PubMed Google Scholar

Kabsch, W. & Sander, C. Wörterbuch der Proteinsekundärstruktur: Mustererkennung von wasserstoffgebundenen und geometrischen Merkmalen. Biopolymere Original Res. Biomolecules 22, 2577–2637 (1983).

CAS Google Scholar

Hubbard, T. & Blundell, T. Vergleich lösungsmittelunzugänglicher Kerne homologer Proteine: Definitionen, die für die Proteinmodellierung nützlich sind. Protein Eng. Des. Wählen. 1, 159–171 (1987).

Artikel CAS Google Scholar

Abadi, M. et al. Tensorflow: Ein System für groß angelegtes maschinelles Lernen. Im 12. USENIX-Symposium zum Design und zur Implementierung von Betriebssystemen (OSDI 16), 265–283 (2016).

Kingma, DP & Ba, J. Adam: Eine Methode zur stochastischen Optimierung. arXiv-Vorabdruck arXiv:1412.6980 (2014).

Streiner, DL & Cairney, J. Was ist unter dem ROC? Eine Einführung in die Betriebskennlinien von Empfängern. Dürfen. J. Psychiatry 52, 121–128 (2007).

Artikel PubMed Google Scholar

Sokolova, M., Japkowicz, N. & Szpakowicz, S. Jenseits von Genauigkeit, F-Score und ROC: eine Familie von Diskriminanzmaßen zur Leistungsbewertung. In Australasian Joint Conference on Artificial Intelligence, 1015–1021 (Springer, 2006).

Benesty, J., Chen, J., Huang, Y. & Cohen, I. Pearson-Korrelationskoeffizient. In Noise Reduction in Speech Processing, 1–4 (Springer, 2009).

Hanley, JA & McNeil, BJ Die Bedeutung und Verwendung der Fläche unter einer ROC-Kurve (Receiver Operating Characteristic). Radiology 143, 29–36 (1982).

Artikel CAS PubMed Google Scholar

Pettersen, EF et al. UCSF ChimeraX: Strukturvisualisierung für Forscher, Pädagogen und Entwickler. Proteinwissenschaft. 30, 70–82 (2021).

Artikel CAS PubMed Google Scholar

Yan, C., Wu, F., Jernigan, RL, Dobbs, D. & Honavar, V. Charakterisierung von Protein-Protein-Grenzflächen. Protein J. 27, 59–70. https://doi.org/10.1007/S10930-007-9108-X (2008).

Artikel CAS PubMed PubMed Central Google Scholar

Porollo, A. & Meller, J. Vorhersagebasierte Fingerabdrücke von Protein-Protein-Wechselwirkungen. Proteinstruktur. Funktion. Bioinform. 66, 630–645 (2007).

Artikel CAS Google Scholar

Murakami, Y. & Mizuguchi, K. Anwendung des naiven Bayes-Klassifikators mit Kerndichteschätzung zur Vorhersage von Protein-Protein-Interaktionsstellen. Bioinformatik 26, 1841–1848 (2010).

Artikel CAS PubMed Google Scholar

Yan, J. & Kurgan, L. DRNApred, schnelle sequenzbasierte Methode, die DNA- und RNA-bindende Reste genau vorhersagt und unterscheidet. Nukl. Säuren Res. 45, e84 (2017).

PubMed PubMed Central Google Scholar

Bal, H. et al. Ein mittelgroßes verteiltes System für die Informatikforschung: Infrastruktur auf lange Sicht. Computer 49, 54–63. https://doi.org/10.1109/MC.2016.127 (2016).

Artikel Google Scholar

Referenzen herunterladen

Wir danken Peter Bloem für anregende Diskussionen und aufschlussreiche Ratschläge zum Lernaufbau. Wir bedanken uns für die Nutzung des Distributed ASCI Supercomputer DAS-5 an der VU University Amsterdam64.

Bioinformatik-Sektion VU, Vrije Universiteit Amsterdam, 1081HV, Amsterdam, Niederlande

Henriette Capel, K. Anton Feenstra & Sanne Abeln

Life Science and Health, CWI, Amsterdam, Niederlande

Wahrer Abeln

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

SA hat die Experimente entworfen. HC sammelte die Datensätze, implementierte die Methoden und führte die Experimente durch. HC, KAF und SA analysierten und interpretierten die Ergebnisse, verfassten und überarbeiteten den Artikeltext und genehmigten die endgültige Version zur Veröffentlichung.

Korrespondenz mit Sanne Abeln.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative-Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Capel, H., Feenstra, KA & Abeln, S. Multitasking-Lernen zur Nutzung teilweise annotierter Daten für die PPI-Schnittstellenvorhersage. Sci Rep 12, 10487 (2022). https://doi.org/10.1038/s41598-022-13951-2

Zitat herunterladen

Eingegangen: 17. Januar 2022

Angenommen: 31. Mai 2022

Veröffentlicht: 21. Juni 2022

DOI: https://doi.org/10.1038/s41598-022-13951-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

Nature Machine Intelligence (2023)

Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.