La biblioteca de péptidos cuantificables cierra la brecha para el descubrimiento y la validación de biomarcadores basados en la proteómica en el cáncer de mama

Scientific Reports volumen 13, Número de artículo: 8991 (2023) Citar este artículo

267 Accesos

3 Altmetric

Detalles de métricas

La proteómica basada en espectrometría de masas (MS) se usa ampliamente para el descubrimiento de biomarcadores. Sin embargo, a menudo, la mayoría de los biomarcadores candidatos del descubrimiento se descartan durante los procesos de validación. Estas discrepancias entre el descubrimiento y la validación de biomarcadores se deben a varios factores, principalmente debido a las diferencias en la metodología analítica y las condiciones experimentales. Aquí, generamos una biblioteca de péptidos que permite el descubrimiento de biomarcadores en la misma configuración que el proceso de validación, lo que hace que la transición del descubrimiento a la validación sea más sólida y eficiente. La biblioteca de péptidos se inició con una lista de 3393 proteínas detectables en la sangre de bases de datos públicas. Para cada proteína, se seleccionaron y sintetizaron péptidos sustitutos favorables para la detección en espectrometría de masas. Un total de 4683 péptidos sintetizados se agregaron a muestras de plasma y suero puro para verificar su cuantificabilidad en un tiempo de ejecución de cromatografía líquida-MS/MS de 10 minutos. Esto condujo a la biblioteca PepQuant, que se compone de 852 péptidos cuantificables que cubren 452 proteínas de la sangre humana. Utilizando la biblioteca PepQuant, descubrimos 30 biomarcadores candidatos para el cáncer de mama. Entre los 30 candidatos, se validaron nueve biomarcadores, FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, APOC1 y CHL1. Al combinar los valores de cuantificación de estos marcadores, generamos un modelo de aprendizaje automático que predice el cáncer de mama y muestra un área promedio bajo la curva de 0,9105 para la curva característica operativa del receptor.

Las proteínas sanguíneas son analitos valiosos para el diagnóstico y pronóstico de diversas enfermedades1. En particular, la aplicación de plataformas proteómicas a las proteínas sanguíneas ha recibido una atención cada vez mayor tanto por parte de los académicos como de las industrias clínicas2. Con el desarrollo tecnológico de la espectrometría de masas y los métodos de análisis de datos, las plataformas de proteómica basadas en MS han ganado más profundidad y fuerza cuantitativa para identificar y cuantificar proteínas3. En consecuencia, los estudios han empleado métodos basados en etiquetas de masa en tándem (TMT), métodos de cuantificación sin etiquetas y métodos de adquisición independiente de datos (DIA) para cuantificar una gran cantidad de proteínas de muestras complejas para identificar proteínas e isoformas expresadas diferencialmente como candidatos potenciales para nuevos biomarcadores3,4,5. Sin embargo, solo un pequeño porcentaje de los biomarcadores candidatos se identificó como efectivo durante la fase de validación1. Esto también se observó en el número de biomarcadores aprobados y utilizados clínicamente. En comparación con las más de 4300 proteínas plasmáticas identificadas, la FDA solo ha aprobado o aprobado unos 100 biomarcadores, a pesar de muchos estudios de descubrimiento2,6,7. La discrepancia entre las fases de descubrimiento y validación puede deberse a diferencias en el tamaño, tipo y número de la muestra, protocolo de preparación y equipo1,8. Entre los procesos entre las fases de descubrimiento y validación, el tamaño, el tipo y el número de muestras se pueden controlar mejor en la etapa de diseño experimental. Sin embargo, las diferencias en los métodos de preparación para diferentes equipos no pueden resolverse mediante un diseño experimental. Para un proceso de descubrimiento típico, se usa un enfoque proteómico de escopeta no dirigido que utiliza espectrometría de masas de alta resolución con agotamiento abundante de proteínas, fraccionamiento previo y un tiempo de ejecución de gradiente largo (1 a 3 h) para maximizar el número de proteínas perfiladas. Por el contrario, la línea de validación se basa en un enfoque específico en suero o plasma puro a través de cromatografía líquida-MS en tándem de triple cuadrupolo (LC-MS/MS), que se centra más en la medición cuantitativa9. Las diferencias entre los procesos de descubrimiento y validación aumentan el tiempo y los costos para el descubrimiento de biomarcadores clínicamente utilizables.

Para superar este problema, estudios previos sugirieron el uso de protocolos que permitieran el análisis reproducible en diferentes tipos de equipos, como nanoflow y microflow LC9,10. Estos estudios se centraron más en generar un candidato a biomarcador adecuado dentro de una configuración típica de descubrimiento utilizando un enfoque no dirigido. Esto puede acortar el tiempo de la fase de descubrimiento; sin embargo, no reduce la brecha entre el descubrimiento y la validación.

Para cerrar la brecha entre el descubrimiento y la validación, generamos una biblioteca PepQuant, que permite el descubrimiento de biomarcadores en el marco de un proceso de validación. Para construir esta biblioteca, primero se generó y seleccionó una lista de péptidos de las proteínas que se sabe que existen o se secretan a la sangre a partir de bases de datos y artículos públicos. Los péptidos que son ventajosos para ser detectados por MS/MS se seleccionaron, sintetizaron químicamente y cuantificaron en un gradiente de 10 min con modo de monitoreo de reacción múltiple (MRM) para suero o plasma puro (altamente abundante en proteína no empobrecida). Por lo tanto, esta biblioteca está compuesta por péptidos de la proteína de la sangre, que son detectables en un tiempo de gradiente muy corto con el modo MRM dirigido. A continuación, aplicamos la biblioteca PepQuant para el descubrimiento y la validación de biomarcadores de cáncer de mama, lo que dio como resultado nueve biomarcadores finales. Un algoritmo de aprendizaje automático (ML) entrenado con los biomarcadores candidatos identificados discriminó entre pacientes con cáncer de mama y controles sanos con un área media bajo la curva (AUC) para el valor de la curva característica operativa del receptor (ROC) de 0,9105.

Para generar la biblioteca PepQuant, primero seleccionamos proteínas que probablemente existan o se secreten en la sangre utilizando la base de datos del secretoma humano y Blood Atlas11,12. También agregamos 235 proteínas relacionadas con la enfermedad, lo que da como resultado un total de 3393 (Fig. 1a). Creamos una lista de péptidos trípticos para cada proteína de esta lista, en la que se usaron la longitud, la hidrofobicidad, las modificaciones y la carga del péptido para la selección (Fig. 1b). Los criterios de selección identificaron péptidos con mayor probabilidad de ser detectables en la sangre en las duras condiciones de un tiempo de gradiente corto y en condiciones puras, es decir, suero o plasma utilizados sin agotamiento de las proteínas de gran abundancia. Los candidatos de la biblioteca inicial constaban de 4683 péptidos que cubrían 3393 proteínas.

Generación de bibliotecas Pep-Quant. ( a ) Diagrama esquemático que muestra el proceso de generación de la biblioteca Pep-Quant. (b) Diagrama esquemático que muestra el proceso de generación de candidatos peptídicos in silico a partir de una lista de proteínas en la sangre. ( c ) Un diagrama de Venn que muestra el número de proteínas cuantificadas mediante la generación de bibliotecas Pep-Quant a partir de suero y plasma.

Para encontrar péptidos cuantificables entre los 4683 candidatos a péptidos, primero preparamos una mezcla de 40 muestras de cáncer de mama, 20 de páncreas, 20 de tiroides, 20 de ovario, 18 de pulmón y 20 colorrectal, junto con 30 muestras libres de enfermedad recolectadas de diferentes hospitales para aumentar la diversidad de la muestra de sangre. A continuación, analizamos el cromatograma de MS para cada péptido candidato, comparando el tiempo de retención (RT) del ion precursor y los tres picos principales del ion y del producto entre el péptido sintético estándar y el péptido endógeno en la mezcla. Entre los 4683 péptidos, 852 péptidos que cubren 452 proteínas fueron cuantificables con una relación señal/ruido (SNR) superior a 3, y el 95,60 % tenía una SNR superior a 10 (Datos complementarios 1). También encontramos que aproximadamente el 75,22 % de las proteínas eran cuantificables tanto en plasma como en suero, lo que indica que la biblioteca se puede aplicar tanto para suero como para plasma (Fig. 1c).

La biblioteca PepQuant se diseñó para contener péptidos de 6 a 16 aminoácidos de longitud, que son ventajosos para la detección durante las ejecuciones de LC-MS/MS (Fig. 2a,b)13. Solo 12 péptidos de la biblioteca tenían más de 16 o menos de seis aminoácidos de longitud, ya que otros péptidos dentro de la misma proteína no existían o no se detectaron en las ejecuciones de MRM. Analizamos las intensidades máximas tanto en plasma como en suero (Fig. 2c, d) para confirmar el rango dinámico de los péptidos seleccionados, que fue de aproximadamente 103 a 108 nm de intensidad (Fig. 2c, d). Luego comparamos los valores de intensidad de cada péptido con la concentración conocida de la proteína, que no mostró una alta correlación (Fig. 2e). Sin embargo, esto era de esperar porque la concentración de cada proteína en la mezcla de estudio difería de la del Blood Atlas. Además, tal diferencia puede ocurrir debido a diferentes proteoformas, modificaciones postraduccionales e isoformas14.

Características de la biblioteca Pep-Quant. Gráfico de barras que muestra la distribución de (a) la longitud del péptido y (b) la carga del péptido. Gráficos de puntos que muestran la intensidad de los péptidos en rango de abundancia para (c) suero y (d) plasma. ( e ) Gráfico de puntos que muestra la comparación entre la concentración de proteínas del atlas de sangre y su intensidad recíproca en el modo MRM. (f) Diagrama de Venn que muestra la cantidad de proteínas que se encuentran comúnmente en la biblioteca Pep-Quant, la ejecución del perfil DIA y la ejecución DDA de Geyer et al.17. ( g ) Red de enriquecimiento funcional GO de la biblioteca Pep-Quant que satisface una prueba hipergeométrica con corrección de tasa de descubrimiento falso de P <0.05. El color azul más oscuro indica un mayor enriquecimiento de proteínas para funcionar. Solo las funciones principales o los componentes celulares se muestran mediante siglas; los nombres completos de GO se muestran en la figura complementaria S1. CY citoplasmático, membrana MEM, Lum lumen, vesícula VS, gránulo GR, plasma PL, lipoproteína LP, ET extracelular.

Para verificar la cobertura de la biblioteca PepQuant, comparamos las proteínas con las identificadas a través del enfoque no dirigido por el método de adquisición independiente de datos (DIA) usando las mismas muestras inventadas que se usaron para generar la biblioteca PepQuant. Entre las 850–900 proteínas identificadas, 271 fueron cuantificables mediante análisis DIA; entre las cuales, también se encontraron 186 proteínas en la biblioteca PepQuant (Fig. 2f). Estos datos sugieren que la biblioteca PepQuant cubre un número similar de proteínas en la sangre humana, en comparación con el equipo de mayor resolución (orbitrap), que utiliza el método DIA. A continuación, comparamos las proteínas de la biblioteca PepQuant con las identificadas por Geyer et al.15, donde se utilizó un equipo de mayor resolución para cuantificar las muestras de sangre pura. Las proteínas en la biblioteca y el perfil de PepQuant también fueron similares a las encontradas por Geyer et al. a pesar de la diferencia en muestra, metodología y equipo15. Estos resultados indican que la biblioteca PepQuant permite la cuantificación de péptidos en la sangre con un nivel de rendimiento similar al del equipo de mayor resolución.

A continuación, investigamos el enriquecimiento funcional de la biblioteca PepQuant utilizando la ontología de genes (GO). Las proteínas de la biblioteca PepQuant se enriquecieron para el secretoma y las regiones extracelulares, como lo muestran las redes agrupadas que representan vesículas, gránulos, lipoproteínas y membranas (Fig. 2g y Fig. S1 complementaria). No encontramos enriquecimiento para ningún tipo de cáncer o enfermedad en particular, lo que se esperaba porque las proteínas en la biblioteca PepQuant tienen como objetivo detectar tantas proteínas cuantificables en la sangre como sea posible sin sesgo hacia una enfermedad específica.

Para confirmar que la biblioteca PepQuant permitía el descubrimiento rápido de biomarcadores, analizamos la biblioteca frente a 50 muestras de cáncer de mama y 50 muestras de suero normales. Esto dio como resultado 30 péptidos que mostraban al menos un cambio de 1,20 veces con un valor de P inferior a 0,05 (Fig. 3 y Tabla complementaria S1). Luego validamos los niveles de expresión de los 30 candidatos usando LC-MS/MS con una escala separada y más grande de otras 96 con cáncer de mama y 95 muestras normales. Dieciséis biomarcadores reprodujeron los límites de cambio de pliegue a mayor escala y, por lo tanto, se sometieron a más pruebas (Tabla complementaria S2). Para probar la usabilidad de los péptidos como biomarcadores en ensayos clínicos, se procedió a la evaluación del rendimiento analítico, comprobando su precisión, estabilidad y reproducibilidad en diferentes condiciones. Entre los 16 candidatos a péptidos, nueve mostraron resultados de cuantificación reproducibles para todas las pruebas realizadas (Tabla complementaria S3). El conjunto final de biomarcadores seleccionados incluyó FN1, VWF, PRG4, MMP9, CLU, PRDX6, PPBP, CHL1 y APOC1 (Tabla 1).

Análisis de la biblioteca PepQuant de muestras de cáncer de mama. Mapa de calor que muestra la puntuación z y los valores de cambio de veces de 30 péptidos que muestran un cambio de al menos 1,2 veces con un valor P de menos de 0,05 para la prueba de suma de rangos de Wilcoxon para 50 muestras de cáncer de mama y 50 muestras normales. Se muestran las tres primeras secuencias de aminoácidos de cada péptido.

A continuación, intentamos generar un modelo ML para la predicción del cáncer de mama utilizando los nueve biomarcadores descubiertos. Las muestras utilizadas para el entrenamiento comprendían 187 controles sanos y 215 muestras de cáncer de mama. Se utilizaron un total de 402 muestras para entrenar varios modelos de aprendizaje automático; El 70 % de las muestras agrupadas se utilizó para capacitación y el 30 % se reservó para su uso como datos de prueba. Para evitar sesgos, las muestras se midieron en barajas aleatorias con dos réplicas técnicas (Fig. S2 complementaria). Todos los algoritmos se entrenaron y evaluaron cinco veces utilizando el método de retención (Figura complementaria S3). Independientemente del tipo de algoritmo de ML, el valor AUC medio de la predicción superó los 0,88, superior a la precisión de las pruebas diagnósticas de base molecular de CA15-3 y del antígeno carcinoembrionario16. No hubo una diferencia significativa en el rendimiento entre los modelos ML, lo que indica que los biomarcadores discriminaron adecuadamente entre las muestras de cáncer de mama y de control sanas. Entre los modelos de ML, el modelo de aprendizaje profundo mostró un rendimiento ligeramente superior, con un AUC medio de 0,9000 (Figura complementaria S3).

Desarrollamos aún más el modelo de aprendizaje profundo agregando otras 98 muestras de cáncer a los datos originales de entrenamiento y prueba (Tabla complementaria S4). El valor medio de AUC del modelo entrenado para la detección del cáncer de mama fue de 0,9105, similar al del modelo entrenado sin otros datos sobre el cáncer (Fig. 4a). Estos datos sugieren que el modelo entrenado distingue entre controles normales y muestras de cáncer de mama de datos mezclados con otras muestras de cáncer. Para evaluar aún más el modelo, trazamos la distribución de la probabilidad prevista de los datos de la prueba para las diferentes etapas del cáncer de mama. El modelo predijo las primeras etapas del cáncer de mama con un patrón similar al de las últimas etapas (Fig. 4b). En general, estos datos indican que los biomarcadores descubiertos y el modelo entrenado mostraron un alto rendimiento para distinguir entre el cáncer de mama y las muestras de control normales.

Precisión en la predicción del cáncer de mama. (a) Gráfico de característica operativa del receptor (ROC) del área bajo la curva (AUC) para el aprendizaje profundo. (b) Diagrama de caja que muestra la distribución de probabilidad pronosticada de las muestras de cáncer de mama para cáncer normal, otro tipo de cáncer y cáncer de mama en diferentes etapas.

La biblioteca PepQuant se diseñó para impulsar el proceso de validación y aumentar el número de biomarcadores candidatos validados a partir del descubrimiento. Esto se logró mediante la generación de una biblioteca compuesta por péptidos que ya se ha confirmado que son cuantificables a partir de la sangre en un suero o plasma puro en una ejecución de 10 minutos en modo MRM. Por lo tanto, la biblioteca PepQuant permite el proceso de descubrimiento de biomarcadores en el mismo entorno experimental que la validación de biomarcadores, lo que reduce significativamente el tiempo y el costo necesarios para validar cada candidato a biomarcador del descubrimiento. En un estudio típico de descubrimiento y validación de biomarcadores, el número de candidatos a biomarcadores descubiertos puede llegar hasta 50–100. Primero, para validar estos candidatos, se requeriría la síntesis de estándares peptídicos y la optimización del método para al menos 50 a 100 candidatos, lo que puede demorar hasta seis meses (Fig. 5a)11. En segundo lugar, los péptidos detectables y cuantificables tendrían que cuantificarse nuevamente en una cohorte más grande para confirmar la reproducibilidad. Sin embargo, la biblioteca PepQuant permite omitir el primer paso ya que no se requiere la optimización del método y permite saltar directamente al paso de confirmación de reproducibilidad (Fig. 5b). Además, la lista de péptidos en la biblioteca de PepQuant puede beneficiar futuras investigaciones al proporcionar una lista de péptidos que son detectables en una condición de validación (Fig. 5c).

Diagrama esquemático que muestra el proceso de descubrimiento y validación de biomarcadores para (a) proceso típico y (b) usando la biblioteca PepQuant. ( c ) Diagrama esquemático que muestra el flujo de biomarcadores candidatos de experimentos y datos públicos filtrados por la biblioteca PepQuant.

En este estudio, se descubrieron nueve posibles biomarcadores de cáncer de mama utilizando la biblioteca PepQuant. Se sabe que los nueve biomarcadores candidatos (FN117, VWF18, PRG419, APOC120, CHL120, CLU21, PRDX622, PPBP23 y MMP924,25) están asociados con las células tumorales y sus cambios microambientales. MMP9 es una metaloproteinasa conocida por degradar las proteínas de la matriz extracelular, que también se sabe que es un paso para la invasión de células cancerosas. Se ha informado que está regulado al alza en las células tumorales y facilita la EMT (transición epitelial-mesenquimatosa) o la migración de células tumorales en la progresión del cáncer de mama26,27. La sobreexpresión de MMP9 también se encontró en cáncer de mama HER2 positivo, triple negativo y también en ganglios linfáticos metastásicos28. CLU es una glicoproteína que se encuentra abundantemente en el líquido extracelular. Tiene propiedades similares a las de una chaperona y participa en diversos procesos celulares, como la muerte celular, la inflamación y la remodelación de tejidos. Se realizó un estudio sobre la CLU secretora por sobreexpresión en la línea celular MCF-729. Los resultados de la sobreexpresión mostraron que el crecimiento de las células tumorales aumentó rápidamente y se metastatizó en los pulmones, lo que sugiere que el papel importante de CLU es el crecimiento tumoral29. Se prevé que el papel de VWF, PRG4 y PPBP en el cáncer de mama sea la progresión tumoral y la metástasis. Si bien estas tres proteínas tienen funciones diferentes, las tres interactúan con las integrinas, lo que conduce a la activación de las vías de señalización PI3K/AKT y MAPK que inducen la proliferación celular18,19,23,30,31,32. Alternativamente, PPBP, también conocido como ligando 7 de quimiocina (motivo CXC), actúa sobre la activación de FAK y la metaloproteinasa de matriz promoviendo la migración y la invasión23. Otro estudio también mostró que la expresión de PRG4 recombinante condujo a la supresión del tumor al inhibir el factor de crecimiento transformante beta (TGFβ), lo que condujo a la disminución del grupo de diferenciación 44 (CD44) de la superficie celular de hialuronano (HA)33. FN1 interactúa con diferentes receptores de factores de crecimiento, como los receptores de tirosina quinasas, y cuando se sobreexpresa, conduce a un pronóstico desfavorable para el cáncer de mama34. APOC1 y CHL1 se encontraron en un estudio anterior como biomarcadores para un cáncer de mama en suero que se correlaciona con el descubrimiento y la validación de biomarcadores de cáncer de mama de la biblioteca PepQuant20.

Se sabe que los nueve biomarcadores candidatos para el cáncer de mama están localizados en múltiples componentes celulares, incluida la región extracelular, como membranas, vesículas, gránulos y liposomas (Tabla complementaria S5). Se supone que se secretan a las regiones extracelulares por la vía de secreción canónica a través del retículo endoplásmico (RE)-Golgi. Dado que la localización y los roles funcionales de los nueve candidatos a biomarcadores ocurren en las regiones extracelulares, se detectan en el suero del grupo normal así como en el grupo de cáncer de mama, pero expresados diferencialmente. A pesar de la secreción estudiada y la localización de los candidatos a biomarcadores, solo se ha informado previamente que unos pocos marcadores son biomarcadores potenciales para el cáncer de mama detectable en condiciones de suero puro. Entre ellos, tres biomarcadores de cáncer de mama (APOC1, CA1 y CHL1) se encontraron en un estudio anterior y se utilizan como biomarcadores para un algoritmo de detección de cáncer de mama (Mastocheck®)20. El algoritmo Mastocheck funciona con una sensibilidad del 71,6 %, una especificidad del 85,3 % y un AUC de 0,832 en estudios de validación clínica (normal 122, cáncer 183)35. En contraste, el modelo ML desarrollado en este estudio mostró una sensibilidad promedio de 87,9%, especificidad de 80,7% y AUC de 0,9105 (Tabla 2). Este resultado muestra que el modelo ML desarrollado con nueve biomarcadores puede ser una alternativa eficaz o un análisis de sangre de asistencia para el sistema actual de detección de cáncer de mama. Si bien es eficaz, la detección actual del cáncer de mama depende en gran medida del sistema de imágenes, que es costoso, conlleva un riesgo de exposición a la radiación y es impreciso para los senos densos.

En conclusión, demostramos que la biblioteca PepQuant puede ser un método alternativo eficaz para el descubrimiento de biomarcadores de sangre humana sin espectrometría de masas de alta resolución. Al permitir el descubrimiento en una configuración de validación donde se utilizan máquinas de triple cuadrupolo dirigidas, proporciona más eficiencia y reproducibilidad durante la validación de biomarcadores. Con más investigación, se puede mejorar la cobertura de la biblioteca PepQuant para las proteínas y los péptidos sanguíneos. Si bien la biblioteca PepQuant generada utilizó bases de datos públicas sobre sangre y secretoma para la selección de proteínas, esto podría mejorarse aún más mediante el uso de más bases de datos MS/MS, como el atlas SRM para la selección de péptidos. Se podrían usar diferentes tipos de bases de datos de proteínas para proteínas de membrana o citoplasmáticas para expandir la biblioteca PepQuant. Se investigarán y agregarán a la biblioteca péptidos más adecuados para la configuración de validación, cuantificables en modo MRM, mayor estabilidad y mejor péptido representativo para una proteína. En general, planeamos expandir la biblioteca PepQuant continuamente, lo que sería útil para la investigación de validación y descubrimiento de biomarcadores.

Para cada proteína, se generó una lista de todos los péptidos trípticos posibles. Los péptidos trípticos incluían todos los que contenían R o K en ambos extremos, excepto las secuencias que contenían combinaciones de aminoácidos resistentes a la escisión de tripsina, como RR C-terminal (arginina-arginina), KK (lisina-lisina), RK, KR , KP y RP. De esta lista, se seleccionaron los péptidos con características favorables para la detección por MS/MS. Las características consideradas fueron longitud, oxidación, modificaciones postraduccionales e hidrofobicidad. Se dio mayor prioridad a los péptidos con longitudes entre seis y 16 aminoácidos, que se detectaron en porcentajes más altos en un resultado típico de MS/MS en comparación con otras longitudes. Los péptidos extremadamente hidrofílicos o hidrofóbicos fueron de menor prioridad debido a su menor reproducibilidad en términos de tiempo de retención. Los péptidos que contenían posibles modificaciones postraduccionales, como la glicosilación, y los aminoácidos inestables, como la cisteína (C), la metionina (M) o el triptófano N-terminal (W), recibieron menor prioridad. Para cada proteína, se seleccionó un péptido candidato para la síntesis. Los que tenían prioridades similares se seleccionaron aleatoriamente y, para algunas proteínas, se seleccionaron candidatos peptídicos con prioridades más bajas porque faltaban péptidos con prioridades más altas. Se han sintetizado múltiples péptidos para algunas proteínas de interés. Todos los péptidos se sintetizaron en las instalaciones de Good Manufacturing Practice para reactivos médicos (Bertis Inc., Corea). La biblioteca inicial de 4683 péptidos no estaba marcada y los 452 péptidos estaban marcados con isótopos en Lisina-13C6, 15N2 o Arginina 13C6, 15N4.

Para identificar candidatos a péptidos cuantificables de la sangre, agregamos los péptidos estándar sintéticos a las muestras de suero y plasma en una mezcla que contenía 138 muestras de sangre compuestas de seis tipos diferentes de cáncer (40 de mama, 20 de páncreas, 20 de tiroides, 20 de ovario, 18 de pulmón y 20 cáncer colorrectal) y 30 muestras de sangre sana. Los espectros del péptido diana de suero/plasma endógeno se compararon con los de los péptidos estándar sintéticos (sin marcar) para identificar el péptido cuantificable del suero/plasma. Para identificar el péptido objetivo dentro de la muestra, se comparó la proporción de los tres picos superiores del péptido objetivo para los estándares y las muestras (Fig. S4a,b complementaria). Además, se comparó el tiempo de retención del péptido objetivo en el estándar, la muestra y el estándar enriquecido en las muestras (Fig. S4c, d complementaria). Un péptido se consideró cuantificable cuando la relación señal/ruido (SNR) fue superior a tres dentro de un tiempo de retención de 10 min en una ejecución de LC.

Se recogieron un total de 500 muestras de suero de 12 hospitales coreanos para la detección del cáncer de mama. De estas, 215 muestras eran de pacientes con cáncer de mama y 187 de participantes sanas. Las 98 muestras restantes procedían de pacientes con cáncer del Hospital de la Universidad Nacional de Seúl, con cuatro tipos de cáncer: ovario (20), estómago (20), páncreas (20), pulmón (18) y colon (20). Las muestras sanas se enumeraron como categoría 2 (benignas) en BI-RADS (Sistema de datos e informes de imágenes mamarias). Todas las muestras procedían de pacientes a los que nunca se les había diagnosticado otro cáncer o que no habían experimentado una recurrencia en cinco años.

Las muestras se recolectaron entre agosto de 2019 y septiembre de 2020 para un ensayo clínico multicéntrico prospectivo registrado en el Servicio de Información de Investigación Clínica de Corea, miembro de la Plataforma de Registro Internacional de Ensayos Clínicos de la OMS (ICTRP). El número de identificación es KCT0004847. El número de muestras de cada hospital fue el siguiente: Hospital Universitario Nacional de Seúl (187), Hospital Bundang de la Universidad Nacional de Seúl (14), Hospital Universitario Dankook (27), Hospital Universitario Chung-Ang (26), Hospital del Sagrado Corazón de Gangnam de la Universidad Hallym (13), Centro Nacional del Cáncer (22), Hospital Myongji (25), Hospital Universitario de Hanyang (9), Universidad Católica de Corea, Seúl, Hospital St. Mary's (11), Hospital Anam de la Universidad de Corea (14), Universidad de Corea Hospital Guro (29) y Hospital Universitario Nacional de Gyeongsang (25). Otras muestras de suero de cáncer fueron aprobadas por la Junta de Revisión Institucional del Hospital de la Universidad Nacional de Seúl (IRB No. H-1911–085-1079) como investigación no clínica utilizando el Repositorio de Material Humano. Otras muestras de suero de cáncer fueron aprobadas por la Junta de Revisión Institucional del Hospital de la Universidad Nacional de Seúl (Aprobación No. H-1911-085-1079) como investigación no clínica utilizando el Repositorio de Material Humano. Se obtuvieron los consentimientos informados de todos los participantes. Este estudio se realizó de acuerdo con la Declaración de Helsinki.

La sangre entera se recogió mediante venopunción con una jeringa 23G y se transfirió a tubos de separación de suero "vacutainer" y tubos de recogida de sangre con EDTA (BD, EE. UU., NJ) para suero y plasma, respectivamente. Se centrifugaron a 2100 × g durante 20 min a 4 °C, y las capas sobrenadantes se transfirieron a tubos nuevos y se almacenaron a -80 °C. Antes del análisis de masas, las muestras congeladas se descongelaron completamente a 4 °C y se agitaron ligeramente.

Las muestras de suero puras se usaron directamente sin ningún agotamiento de proteínas muy abundantes. Se añadieron cinco µl de la muestra separada a una solución de urea 8 M que contenía ditiotreitol 18 mM (Sigma-Aldrich, EE. UU., MA) y se incubaron durante 90 min a 35 °C. La muestra se enfría a temperatura ambiente y se agrega yodoacetamida (Sigma-Aldrich, EE. UU., MA) a una concentración de 26 mM y se incuba a TA durante 30 min en la oscuridad. Se añadió bicarbonato de amonio (Sigma-Aldrich, EE. UU., MA) (concentración final: 100 mM) para diluir la concentración de urea a menos de 1 M. Se añadieron cinco µg de tripsina (grado de secuenciación, Promega, EE. UU., WI), seguido de incubación a 37 °C durante 16 h para la digestión de proteínas. Se añadió ácido trifluoroacético (Thermo Fisher Scientific, EE. UU., MA) a la solución para extinguir la actividad de tripsina (concentración final: 1%). Las muestras se limpiaron utilizando cartuchos C18 (Sep-pak C18, 100 mg, Waters) siguiendo las instrucciones del fabricante. Las muestras limpias se secaron por completo y se almacenaron a -80 °C hasta su uso. Antes del análisis MS/MS, las muestras secas se resuspendieron en ácido fórmico al 0,1 %.

El espectrómetro de masas utilizado fue un Qtrap5500 Plus (Sciex, EE. UU., MA). Para la separación por LC, se utilizó una columna de fase inversa C18 (0,5 mm × 150 mm, 3,5 μm, Agilent, EE. UU., CA) y el análisis se realizó en el modo MRM positivo. El caudal fue de 20 μL/min, la configuración de gradiente se fijó en 5–30 % durante 0–10 min (10 min de tiempo de gradiente). El valor del parámetro espectrométrico de masas Collision Energy (CE) para cada péptido ionizado se determinó utilizando el software SKYLINE (https://skyline.ms/project/home/begin.view). Los análisis de espectros de masas y cromatografía se realizaron mediante Analyst (1.7.2), y el programa de cuantificación utilizado fue Multiquant (3.0.2).

Los péptidos digeridos se analizaron usando un espectrómetro de masas Q Exactive Hf-x Orbitrap acoplado con un Ultimate 3000 UPLC (Thermo Fisher Scientific, EE. UU., MA). Para el análisis del proteoma DIA, el tiempo de ejecución se fijó en 130 min y el gradiente de UPLC se fijó de la siguiente manera (T min/% de disolvente B): 0/3, 5/3, 80/20, 105/40, 105,1 /80, 115/80, 115.1/3, 130/3. Los péptidos se ionizaron a través de una columna de pulverización EASY (50 cm × 75 μm ID) empaquetada con partículas C18 de 2 μm a un potencial eléctrico de 1,5 kV. El rango completo de exploración de MS se estableció en 300–1400 m/z y la resolución se estableció en 60 000 a m/z 200. El rango de exploración de MS2 se estableció en 300–1400 m/z, con 44 ventanas de 25 m/z. El valor objetivo del control de ganancia automatizado se estableció en 3,0 × 106 con un tiempo máximo de inyección de iones de 100 ms.

Para analizar los datos DIA, los archivos sin procesar primero se convirtieron a mzML y se importaron a DIA-NN36. La biblioteca espectral que comprende 12.046 proteínas se descargó de SWATHAtlas (www.swathatlas.org). Se realizó una búsqueda en la biblioteca de acuerdo con el manual DIA-NN como se describió previamente36. Brevemente, el rango m/z del ion precursor y del fragmento se estableció en 300–1400, y el rango de carga del precursor se estableció en 2–6. Solo se consideraron la escisión de metionina a corto plazo y la carbamidometilación de cisteína para la modificación de péptidos. Se permitieron hasta dos escisiones perdidas, y la tasa de descubrimiento falso de precursor se fijó en 1%. Se utilizó un parámetro predeterminado de 0,0 para la ventana de exploración y precisión de MS1.

Para identificar biomarcadores de cáncer de mama, todos los péptidos que componen la biblioteca PepQuant se analizaron frente a 50 muestras de pacientes sanas y 50 de pacientes con cáncer de mama seleccionadas al azar del total de muestras. Primero se seleccionaron los péptidos con una diferencia de cambio de veces de al menos 1,2. Los candidatos seleccionados se cuantificaron con 95 muestras adicionales de pacientes sanas y 96 de pacientes con cáncer de mama. Los péptidos que satisfacen una diferencia de cambio de al menos 1,2 veces entre el cáncer de mama y las muestras de control sanas se sometieron a una evaluación del rendimiento analítico.

La evaluación del rendimiento analítico de la cuantificación de marcadores proteicos por LC-MS/MS es un factor esencial para la aplicación clínica37. Los parámetros para el rendimiento analítico consisten principalmente en linealidad, exactitud, selectividad, precisión y estabilidad de la muestra9. La linealidad se comprobó derivando una ecuación lineal para al menos seis concentraciones diferentes de péptidos y calculando el coeficiente de determinación (R2) entre el valor cuantificado y el valor estimado obtenido a partir de la ecuación lineal. La precisión se obtuvo calculando la relación entre el valor estimado de la ecuación lineal y el valor cuantificado para cada punto de concentración. El péptido se consideró aceptable cuando al menos cinco de los seis puntos de concentración estaban dentro del ± 20 % del valor de precisión. La precisión intradiaria y la precisión interdiaria se probaron mediante la medición repetida de los péptidos a diferentes concentraciones de muestra en cinco réplicas técnicas, en un día y varios días, respectivamente. La estabilidad de los péptidos de muestra también se probó después de siete días de almacenamiento a 80 °C y 4 °C. Para todos los experimentos, se usaron péptidos sintéticos marcados con isótopos como estándares internos (IS). La proporción de analito (péptido) a IS se multiplicó por la cantidad específica de IS para determinar la concentración de analito (Tabla complementaria S3).

Se desarrolló un algoritmo de diagnóstico utilizando aprendizaje profundo, regresión logística, bosque aleatorio y un algoritmo de impulso de gradiente ligero. Los algoritmos de regresión logística y Random Forest se entrenaron con parámetros predeterminados usando 'Scikit learn v. 0.23.2'38. Para el algoritmo de aumento de gradiente, se utilizaron los módulos de Python 'Lightgbm v. 3.2.1'. Todos los modelos de aprendizaje automático se probaron de forma iterativa mediante el método de retención, en el que se utilizaron cinco estados aleatorios diferentes para entrenar y evaluar el algoritmo. El algoritmo de aprendizaje profundo se desarrolló utilizando Torch v. 1.7.1. A menos que se indique lo contrario, todos los algoritmos se desarrollaron utilizando el entorno Python v. 3.8.1339. La estructura del modelo de aprendizaje profundo se parecía a GrowNet, que se modificó brevemente para adaptarse al conjunto de datos actual40.

Los datos generados en este estudio están disponibles en Datos complementarios 2 y cargados en PASSEL (http://www.peptideatlas.org/passel/), ID de conjunto de datos PASS04818.

Rifai, N., Gillette, MA y Carr, SA Descubrimiento y validación de biomarcadores de proteínas: el largo e incierto camino hacia la utilidad clínica. Nat. Biotecnología. 24, 971–983. https://doi.org/10.1038/nbt1235 (2006).

Artículo CAS PubMed Google Académico

Anderson, NL El proteoma del plasma clínico: una encuesta de ensayos clínicos para proteínas en plasma y suero. clin. química 56, 177–185. https://doi.org/10.1373/clinchem.2009.126706 (2010).

Artículo CAS PubMed Google Académico

Tang, Y. et al. La proteómica cuantitativa reveló las características moleculares de distintos tipos de adenomas somatotróficos granulados. Endocrino 74, 375–386. https://doi.org/10.1007/s12020-021-02767-1 (2021).

Artículo CAS PubMed Google Académico

Li, N., Li, J., Desiderio, DM & Zhan, X. Análisis de proteómica cuantitativa SILAC del perfil proteómico relacionado con la ivermectina y alteraciones de la red molecular en células de cáncer de ovario humano. J. Espectro de masas. 56, e4659. https://doi.org/10.1002/jms.4659 (2021).

Artículo CAS PubMed Google Académico

Xia, Y. et al. El análisis proteómico cuantitativo basado en TMT revela el mecanismo molecular farmacológico panorámico de la inhibición del ácido beta-elemónico del cáncer colorrectal. Frente. Farmacol. 13, 830328. https://doi.org/10.3389/fphar.2022.830328 (2022).