数据分析、机器学习、AI
找到 11 个技能
这个技能应在使用Python处理带注释的数据矩阵时使用,尤其是在单细胞基因组学分析、使用元数据管理实验测量或处理大规模生物数据集时。当任务涉及AnnData对象、h5ad文件、单细胞RNA-seq数据或与scanpy/scverse工具集成时使用。
并行/分布式计算。将 pandas/NumPy 扩展到内存之外,支持并行 DataFrame/数组、多文件处理、任务图,适用于大于内存的数据集和并行工作流。
围绕RDKit的Python化包装器,具有简化的界面和合理的默认值。适用于标准药物发现:SMILES解析、标准化、描述符、指纹、聚类、3D构象、并行处理。返回原生rdkit.Chem.Mol对象。如需高级控制或自定义参数,请直接使用rdkit。
用于质谱数据分析的OpenMS的Python接口。用于LC-MS/MS蛋白质组学和代谢组学工作流,包括文件处理(mzML、mzXML、mzTab、FASTA、pepXML、protXML、mzIdentML)、信号处理、特征检测、肽段鉴定和定量分析。在处理质谱数据、分析蛋白质组学实验或处理代谢组学数据集时应用。
基于ScholarEval方法评估学术和研究工作的系统框架。在评估研究论文、评估文献综述、为研究方法评分、分析科学写作质量或对学术工作应用结构化评估标准时,应使用此技能。该框架从问题阐述、文献综述、研究方法、数据收集、分析、结果解释以及学术写作质量等多个维度提供全面评估。
撰写科学手稿。IMRAD结构、参考文献格式(APA/AMA/Vancouver)、图表、报告指南(CONSORT/STROBE/PRISMA)、摘要,适用于研究论文和期刊投稿。
使用scikit-learn的Python机器学习。在处理监督学习(分类、回归)、无监督学习(聚类、降维)、模型评估、超参数调优、预处理或构建机器学习管道时使用。提供算法、预处理技术、管道和最佳实践的综合参考文档。
在使用scvi-tools处理单细胞组学数据分析时应使用此技能,包括scRNA-seq、scATAC-seq、CITE-seq、空间转录组学和其他单细胞模态。可将此技能用于概率建模、批次校正、降维、差异表达、细胞类型注释、多模态整合和空间分析任务。
图神经网络(PyG)。节点/图分类、链路预测、GCN、GAT、GraphSAGE、异构图、分子性质预测,用于几何深度学习。
UMAP降维。针对高维数据的2D/3D可视化、聚类预处理(HDBSCAN)、有监督/参数化UMAP的快速非线性流形学习。
当要处理和分析超过可用RAM的大型表格数据集(数十亿行)时,请使用此技能。Vaex擅长核心外DataFrame操作、惰性计算、快速聚合、大数据的高效可视化以及大型数据集上的机器学习。当用户需要处理大型CSV/HDF5/Arrow/Parquet文件、对海量数据集执行快速统计、创建大数据可视化或构建内存中无法容纳的ML管道时,请应用此技能。