Claude Skill
GPTomics/bioSkills
A comprehensive SKILLS.md guide for bioinformatics analysis using Claude Skill. Covers data preprocessing, sequence alignment, variant detection, expression analysis, visualization, and best practi...
Overview
Repository
Install this Skill
pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata mygeneRegistry
pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata mygenegit clone git@github.com:GPTomics/bioSkills.git
Summary
A set of SKILLS.md documentation providing guidelines for performing bioinformatics analysis using Claude Skill. It covers a complete workflow from data preprocessing to advanced analysis, including sequence alignment, variant detection, expression analysis, and visualization.
# 生物信息学Claude Skill使用指南 ## 概述 本指南介绍如何利用Claude Skill进行生物信息学分析,涵盖从数据预处理到高级分析的完整工作流程。 ## 核心技能模块 ### 1. 数据预处理 - **文件格式转换**: FASTQ → FASTA, SAM → BAM, VCF标准化 - **质量控制**: FastQC报告解读,Trimmomatic/TrimGalore参数优化 - **数据清洗**: 去除接头序列,低质量碱基修剪,污染序列过滤 ### 2. 序列比对与分析 - **基因组比对**: BWA-MEM, Bowtie2, STAR参数配置 - **转录组分析**: HISAT2, TopHat2比对策略 - **变异检测**: GATK最佳实践流程,FreeBayes参数调整 ### 3. 表达量分析 - **计数矩阵生成**: featureCounts, HTSeq使用指南 - **差异表达分析**: DESeq2, edgeR, limma-voom流程 - **富集分析**: GO, KEGG, Reactome通路富集 ### 4. 变异注释与解读 - **VCF注释**: SnpEff, ANNOVAR注释字段说明 - **临床解读**: ClinVar数据库查询,ACMG分类指南 - **群体遗传**: gnomAD频率过滤,人群特异性变异识别 ### 5. 可视化技能 - **交互式图表**: Plotly, ggplot2生物信息学模板 - **基因组浏览器**: IGV会话文件生成,UCSC track配置 - **网络可视化**: Cytoscape网络图,STRING互作网络 ## 工作流示例 ### RNA-Seq分析流程 ``` 1. 原始数据质控 → 2. 序列修剪 → 3. 参考基因组比对 4. 基因表达定量 → 5. 差异表达分析 → 6. 通路富集 ``` ### WES/WGS分析流程 ``` 1. 原始数据质控 → 2. 比对与重复标记 → 3. 碱基质量重校准 4. 变异检测 → 5. 变异过滤 → 6. 注释与解读 ``` ## 最佳实践 ### 代码规范 ```bash # 使用标准化参数命名 bwa mem -t 8 -R '@RG\tID:sample\tSM:sample' \ reference.fasta sample_R1.fq sample_R2.fq ``` ### 结果文档化 - 记录软件版本和参数 - 保存中间文件校验和 - 生成可重复的分析报告 ### 性能优化 - 并行处理大型数据集 - 合理分配内存资源 - 使用临时文件管理 ## 故障排除 ### 常见问题 1. **内存不足**: 调整Java堆大小 `-Xmx` 2. **文件格式错误**: 验证FASTQ质量编码 3. **参考基因组不匹配**: 检查比对索引版本 ### 调试技巧 - 使用小数据集测试流程 - 逐步验证每个步骤输出 - 比对率统计和分布检查 ## 资源管理 ### 数据组织 ``` project/ ├── raw_data/ # 原始数据 ├── processed/ # 处理中间文件 ├── results/ # 最终结果 └── scripts/ # 分析脚本 ``` ### 版本控制 - 使用Git管理分析脚本 - 记录软件环境(conda/docker) - 保存分析参数配置文件 ## 伦理与合规 ### 数据安全 - 患者数据脱敏处理 - 遵守GDPR/HIPAA规定 - 安全存储敏感信息 ### 可重复性 - 提供完整分析代码 - 公开使用公共数据 - 记录随机种子参数 --- *注意:实际分析需根据具体研究设计和数据特性调整参数。建议在正式分析前使用测试数据集验证流程。*
Key features
- Comprehensive bioinformatics workflow guidance
- Covers data preprocessing, alignment, and variant calling
- Includes expression analysis and visualization techniques
- Provides best practices and troubleshooting tips
- Focuses on reproducible analysis and documentation
Use cases
- RNA-Seq differential expression analysis
- WES/WGS variant detection and annotation
- Sequence data quality control and preprocessing
- Genomic data visualization and interpretation
- Building reproducible bioinformatics pipelines
README excerpt
# bioSkills A collection of skills that guide AI coding agents (Claude Code, OpenAI Codex, Google Gemini, OpenCode, OpenClaw) through common bioinformatics tasks. ## Project Goal This repository provides AI agents with expert knowledge for bioinformatics workflows. Each skill contains code patterns, best practices, and examples that help agents generate correct, idiomatic code for common tasks. Target users range from undergrads learning computational biology to PhD researchers processing large-scale data. The skills cover the full spectrum from basic sequence manipulation to advanced analyses like single-cell RNA-seq and population genetics. ## Performance Evaluation summary report available at [bioskills_eval_20260328.pdf](resources/bioskills_eval_20260328.pdf). Evaluations were performed on the [Bio-Task Bench](https://github.com/GPTomics/bioTaskBench) dataset.  ## Requirements ### Python - Python 3.9+ - biopython, pysam, cyvcf2, pybedtools, pyBigWig, scikit-allel, anndata ```bash pip install biopython pysam cyvcf2 pybedtools pyBigWig scikit-allel anndata mygene ``` ### R/Bioconductor Required for differential expression, single-cell, pathway analysis, and methylation skills. ```r if (!require('BiocManager', quietly = TRUE)) install.packages('BiocManager') BiocManager::install(c('DESeq2', 'edgeR', 'Seurat', 'clusterProfiler', 'methylKit')) ``` ### CLI Tools ```bash # macOS brew install samtools bcftools blast minimap2 bedtools # Ubuntu/Debian sudo apt install samtools bcftools ncbi-blast+ minimap2 bedtools # conda conda install -c bioconda samtools bcftools blast minimap2 bedtools \ fastp kraken2 metaphlan sra-tools bwa-mem2 bowtie2 star hisat2 \ manta delly cnv
Topics
No topics yet.