데이터 분석, ML, AI
발견됨 11 개 스킬
이 스킬은 Python에서 주석이 달린 데이터 행렬을 작업할 때 사용해야 합니다. 특히 단일 세포 유전체 분석, 메타데이터가 포함된 실험 측정 관리, 또는 대규모 생물학적 데이터 세트 처리에 사용합니다. AnnData 객체, h5ad 파일, 단일 세포 RNA-seq 데이터, 또는 scanpy/scverse 도구와의 통합이 포함된 작업에서 사용하세요.
병렬/분산 컴퓨팅. pandas/NumPy를 메모리 이상으로 확장, 병렬 DataFrames/Arrays, 다중 파일 처리, 작업 그래프, 메모리보다 큰 데이터셋 및 병렬 워크플로우용.
Pythonic wrapper around RDKit with simplified interface and sensible defaults. Preferred for standard drug discovery: SMILES parsing, standardization, descriptors, fingerprints, clustering, 3D conformers, parallel processing. Returns native rdkit.Chem.Mol objects. For advanced control or custom parameters, use rdkit directly. 한국어 번역: RDKit 주변에 단순화된 인터페이스와 합리적인 기본값을 가진 파이썬스러운 래퍼입니다. 표준 약물 발견에 선호되는 기능: SMILES 파싱, 표준화, 기술자, 지문, 클러스터링, 3D 구조체, 병렬 처리입니다. 기본 rdkit.Chem.Mol 객체를 반환합니다. 고급 제어나 사용자 정의 매개변수가 필요한 경우에는 직접 rdkit을 사용하세요.
질량 분석 데이터 분석용 OpenMS에 대한 Python 인터페이스. 파일 처리(mzML, mzXML, mzTab, FASTA, pepXML, protXML, mzIdentML), 신호 처리, 특징 검출, 펩티드 식별 및 정량 분석을 포함한 LC-MS/MS 단백질체학 및 대사체학 워크플로우에 사용하세요. 질량 분석 데이터 작업, 단백질체학 실험 분석 또는 대사체학 데이터셋 처리 시 적용하세요.
ScholarEval 방법론을 기반으로 학술 및 연구 작업을 평가하는 체계적인 프레임워크입니다. 이 기술은 연구 논문 평가, 문헌 고찰 평가, 연구 방법론 채점, 과학적 글쓰기 품질 분석 또는 학술 작업에 구조화된 평가 기준을 적용할 때 사용해야 합니다. 문제 공식화, 문헌 고찰, 방법론, 데이터 수집, 분석, 결과 해석 및 학술 글쓰기 품질을 포함한 여러 차원에 걸쳐 종합적인 평가를 제공합니다.
과학 논문 초안을 작성하세요. IMRAD 구조, 인용(APA/AMA/Vancouver), 그림/표, 보고 지침(CONSORT/STROBE/PRISMA), 초록 등 연구 논문 및 학술지 제출용 내용을 다룹니다.
scikit-learn을 활용한 Python 기계 학습. 지도 학습(분류, 회귀), 비지도 학습(클러스터링, 차원 축소), 모델 평가, 하이퍼파라미터 튜닝, 전처리 또는 ML 파이프라인 구축 시 사용합니다. 알고리즘, 전처리 기술, 파이프라인 및 모범 사례에 대한 종합 참고 문서를 제공합니다.
이 기술은 scRNA-seq, scATAC-seq, CITE-seq, 공간 전사체학 및 기타 단세포 모달리티를 포함한 scvi-tools를 사용한 단세포 오믹스 데이터 분석 시 사용되어야 합니다. 확률적 모델링, 배치 교정, 차원 축소, 차등 발현, 세포 유형 주석, 다중 모달 통합 및 공간 분석 작업에 이 기술을 사용하십시오.
그래프 신경망 (PyG). 기하학적 딥러닝을 위한 노드/그래프 분류, 링크 예측, GCN, GAT, GraphSAGE, 이종 그래프, 분자 속성 예측.
UMAP 차원 축소. 고차원 데이터에 대한 2D/3D 시각화, 클러스터링 전처리 (HDBSCAN), 지도/파라미터 UMAP용 고속 비선형 매니폴드 학습.
가용 RAM을 초과하는 대형 테이블 데이터 세트(수십억 개 행)를 처리하고 분석할 때 이 기능을 사용하세요. Vaex는 코어 외 DataFrame 연산, 지연 평가, 빠른 집계, 대형 데이터의 효율적인 시각화 및 대형 데이터 세트의 기계 학습에서 우수합니다. 사용자가 대형 CSV/HDF5/Arrow/Parquet 파일로 작업하거나, 대규모 데이터 세트에 대한 빠른 통계를 수행하거나, 대형 데이터의 시각화를 만들거나, 메모리에 맞지 않는 ML 파이프라인을 구축해야 할 때 적용하세요.