Análisis de datos, ML, IA
Encontrado 11 habilidades
Esta habilidad se debe usar cuando se trabaja con matrices de datos anotados en Python, especialmente para análisis de genómica de células individuales, gestión de mediciones experimentales con metadatos o manejo de conjuntos de datos biológicos a gran escala. Usarla cuando las tareas involucren objetos AnnData, archivos h5ad, datos de RNA-seq de células individuales o integración con herramientas scanpy/scverse.
Cálculo paralelo/distribuido. Escalar pandas/NumPy más allá de la memoria, DataFrames/Arrays paralelos, procesamiento de múltiples archivos, grafos de tareas, para conjuntos de datos más grandes que la memoria RAM y flujos de trabajo paralelos.
Envoltura pythonica alrededor de RDKit con interfaz simplificada y valores predeterminados sensatos. Preferida para descubrimiento de fármacos estándar: análisis de SMILES, estandarización, descriptores, huellas digitales, agrupamiento, conformadores 3D, procesamiento paralelo. Devuelve objetos nativo rdkit.Chem.Mol. Para control avanzado o parámetros personalizados, use rdkit directamente.
Interfaz Python para OpenMS para análisis de datos de espectrometría de masas. Usar para flujos de trabajo de proteómica y metabolómica LC-MS/MS incluyendo manejo de archivos (mzML, mzXML, mzTab, FASTA, pepXML, protXML, mzIdentML), procesamiento de señales, detección de características, identificación de péptidos y análisis cuantitativo. Aplicar cuando se trabaje con datos de espectrometría de masas, se analicen experimentos de proteómica o se procesen conjuntos de datos de metabolómica.
Marco sistemático para evaluar trabajos académicos e investigativos basado en la metodología ScholarEval. Esta habilidad debe usarse al evaluar artículos de investigación, evaluar revisiones literarias, puntuar metodologías de investigación, analizar la calidad de la escritura científica o aplicar criterios de evaluación estructurados a trabajos académicos. Proporciona una evaluación integral en múltiples dimensiones que incluyen formulación del problema, revisión literaria, metodología, recolección de datos, análisis, interpretación de resultados y calidad de la escritura académica.
Escribir manuscritos científicos. Estructura IMRAD, citas (APA/AMA/Vancouver), figuras/tablas, directrices de informe (CONSORT/STROBE/PRISMA), resúmenes, para artículos de investigación y envíos a revistas.
Machine learning en Python con scikit-learn. Usar cuando se trabaje con aprendizaje supervisado (clasificación, regresión), aprendizaje no supervisado (agrupamiento, reducción de dimensionalidad), evaluación de modelos, ajuste de hiperparámetros, preprocesamiento o construcción de pipelines de ML. Proporciona documentación de referencia integral para algoritmos, técnicas de preprocesamiento, pipelines y buenas prácticas.
Esta habilidad debe utilizarse cuando se trabaja con análisis de datos de omica de célula única usando scvi-tools, incluyendo scRNA-seq, scATAC-seq, CITE-seq, transcriptómica espacial y otras modalidades de célula única. Utilice esta habilidad para modelado probabilístico, corrección de lotes, reducción de dimensionalidad, expresión diferencial, anotación de tipos celulares, integración multimodal y tareas de análisis espacial.
Redes Neuronales Gráficas (PyG). Clasificación de nodos/graficas, predicción de enlaces, GCN, GAT, GraphSAGE, graficas heterogéneas, predicción de propiedades moleculares, para aprendizaje profundo geométrico.
Reducción de dimensionalidad UMAP. Aprendizaje de variedades no lineales rápido para visualización 2D/3D, preprocesamiento de agrupamiento (HDBSCAN), UMAP supervisado/paramétrico, para datos de alta dimensión.
Utiliza esta habilidad para procesar y analizar grandes conjuntos de datos tabulares (mil millones de filas) que exceden la RAM disponible. Vaex destaca en operaciones de DataFrame out-of-core, evaluación diferida, agregaciones rápidas, visualización eficiente de big data y aprendizaje automático en grandes conjuntos de datos. Aplícala cuando los usuarios necesiten trabajar con archivos grandes CSV/HDF5/Arrow/Parquet, realizar estadísticas rápidas en conjuntos de datos masivos, crear visualizaciones de big data o construir pipelines de ML que no caben en la memoria.