Analyse de données, ML, IA
Trouvé 11 compétences
Cette compétence doit être utilisée lors du travail avec des matrices de données annotées en Python, en particulier pour l'analyse génomique à cellule unique, la gestion des mesures expérimentales avec des métadonnées, ou le traitement de jeux de données biologiques à grande échelle. Utilisez-la lors de tâches impliquant des objets AnnData, des fichiers h5ad, des données de RNA-seq à cellule unique ou une intégration avec les outils scanpy/scverse.
Calcul parallèle/distribué. Écaler pandas/NumPy au-delà de la mémoire, DataFrames/tableaux parallèles, traitement multi-fichiers, graphes de tâches, pour les jeux de données plus grands que la RAM et les flux de travail parallèles.
Wrapper Pythonique autour de RDKit avec une interface simplifiée et des valeurs par défaut judicieuses. Préféré pour la découverte de médicaments standard : analyse SMILES, normalisation, descripteurs, empreintes digitales, regroupement, conformères 3D, traitement parallèle. Retourne des objets rdkit.Chem.Mol natifs. Pour un contrôle avancé ou des paramètres personnalisés, utilisez directement rdkit.
Interface Python pour OpenMS destinée à l'analyse de données de spectrométrie de masse. Utilisez-la pour les flux de travail en protéomique et métabolomique LC-MS/MS, y compris la gestion des fichiers (mzML, mzXML, mzTab, FASTA, pepXML, protXML, mzIdentML), le traitement du signal, la détection de caractéristiques, l'identification des peptides et l'analyse quantitative. Appliquez-la lors du travail avec des données de spectrométrie de masse, de l'analyse d'expériences en protéomique ou du traitement de jeux de données en métabolomique.
Cadre systématique pour l'évaluation des travaux universitaires et de recherche basé sur la méthodologie ScholarEval. Cette compétence doit être utilisée lors de l'évaluation de papiers de recherche, de la notation des synthèses bibliographiques, de la notation des méthodologies de recherche, de l'analyse de la qualité de l'écriture scientifique ou de l'application de critères d'évaluation structurés aux travaux académiques. Fournit une évaluation complète sur plusieurs dimensions, notamment la formulation du problème, la synthèse bibliographique, la méthodologie, la collecte de données, l'analyse, l'interprétation des résultats et la qualité de l'écriture universitaire.
Rédiger des manuscrits scientifiques. Structure IMRAD, citations (APA/AMA/Vancouver), figures/tables, lignes directrices de rapport (CONSORT/STROBE/PRISMA), résumés, pour des articles de recherche et des soumissions à des revues.
Machine learning en Python avec scikit-learn. Utilisez-le lors du travail avec l'apprentissage supervisé (classification, régression), l'apprentissage non supervisé (clustering, réduction de dimension), l'évaluation de modèles, l'ajustement d'hyperparamètres, le prétraitement ou la construction de pipelines ML. Fournit une documentation de référence complète pour les algorithmes, les techniques de prétraitement, les pipelines et les bonnes pratiques.
Cette compétence doit être utilisée lors de l'analyse de données omique à cellule unique avec scvi-tools, y compris scRNA-seq, scATAC-seq, CITE-seq, transcriptomique spatiale et d'autres modalités à cellule unique. Utilisez cette compétence pour la modélisation probabiliste, la correction de lot, la réduction de dimension, l'expression différentielle, l'annotation des types de cellules, l'intégration multimodale et les tâches d'analyse spatiale.
Réseaux de neurones graphiques (PyG). Classification de nœuds/graphes, prédiction de liens, GCN, GAT, GraphSAGE, graphes hétérogènes, prédiction des propriétés moléculaires, pour l'apprentissage profond géométrique.
Réduction de dimensionnalité UMAP. Apprentissage rapide de variété non linéaire pour la visualisation 2D/3D, prétraitement pour le clustering (HDBSCAN), UMAP supervisé/paramétrique, pour les données de haute dimension.
Utilisez cette compétence pour traiter et analyser de grands ensembles de données tabulaires (bilions de lignes) qui dépassent la RAM disponible. Vaex excelle dans les opérations DataFrame hors cœur, l'évaluation paresseuse, les agrégations rapides, la visualisation efficace de grands ensembles de données et l'apprentissage automatique sur de grands ensembles de données. Appliquez-la lorsque les utilisateurs ont besoin de travailler avec de grands fichiers CSV/HDF5/Arrow/Parquet, d'effectuer des statistiques rapides sur des ensembles de données massifs, de créer des visualisations de grands ensembles de données ou de construire des pipelines de ML qui ne tiennent pas en mémoire.