Claude Skill
GPTomics/bioSkills
A comprehensive SKILLS.md guide for bioinformatics analysis using Claude Skill. Covers data preprocessing, sequence alignment, variant detection, expression analysis, visualization, and best practi...
Overview
Repository
Summary
A set of SKILLS.md documentation providing guidelines for performing bioinformatics analysis using Claude Skill. It covers a complete workflow from data preprocessing to advanced analysis, including sequence alignment, variant detection, expression analysis, and visualization.
# 生物信息学Claude Skill使用指南 ## 概述 本指南介绍如何利用Claude Skill进行生物信息学分析,涵盖从数据预处理到高级分析的完整工作流程。 ## 核心技能模块 ### 1. 数据预处理 - **文件格式转换**: FASTQ → FASTA, SAM → BAM, VCF标准化 - **质量控制**: FastQC报告解读,Trimmomatic/TrimGalore参数优化 - **数据清洗**: 去除接头序列,低质量碱基修剪,污染序列过滤 ### 2. 序列比对与分析 - **基因组比对**: BWA-MEM, Bowtie2, STAR参数配置 - **转录组分析**: HISAT2, TopHat2比对策略 - **变异检测**: GATK最佳实践流程,FreeBayes参数调整 ### 3. 表达量分析 - **计数矩阵生成**: featureCounts, HTSeq使用指南 - **差异表达分析**: DESeq2, edgeR, limma-voom流程 - **富集分析**: GO, KEGG, Reactome通路富集 ### 4. 变异注释与解读 - **VCF注释**: SnpEff, ANNOVAR注释字段说明 - **临床解读**: ClinVar数据库查询,ACMG分类指南 - **群体遗传**: gnomAD频率过滤,人群特异性变异识别 ### 5. 可视化技能 - **交互式图表**: Plotly, ggplot2生物信息学模板 - **基因组浏览器**: IGV会话文件生成,UCSC track配置 - **网络可视化**: Cytoscape网络图,STRING互作网络 ## 工作流示例 ### RNA-Seq分析流程 ``` 1. 原始数据质控 → 2. 序列修剪 → 3. 参考基因组比对 4. 基因表达定量 → 5. 差异表达分析 → 6. 通路富集 ``` ### WES/WGS分析流程 ``` 1. 原始数据质控 → 2. 比对与重复标记 → 3. 碱基质量重校准 4. 变异检测 → 5. 变异过滤 → 6. 注释与解读 ``` ## 最佳实践 ### 代码规范 ```bash # 使用标准化参数命名 bwa mem -t 8 -R '@RG\tID:sample\tSM:sample' \ reference.fasta sample_R1.fq sample_R2.fq ``` ### 结果文档化 - 记录软件版本和参数 - 保存中间文件校验和 - 生成可重复的分析报告 ### 性能优化 - 并行处理大型数据集 - 合理分配内存资源 - 使用临时文件管理 ## 故障排除 ### 常见问题 1. **内存不足**: 调整Java堆大小 `-Xmx` 2. **文件格式错误**: 验证FASTQ质量编码 3. **参考基因组不匹配**: 检查比对索引版本 ### 调试技巧 - 使用小数据集测试流程 - 逐步验证每个步骤输出 - 比对率统计和分布检查 ## 资源管理 ### 数据组织 ``` project/ ├── raw_data/ # 原始数据 ├── processed/ # 处理中间文件 ├── results/ # 最终结果 └── scripts/ # 分析脚本 ``` ### 版本控制 - 使用Git管理分析脚本 - 记录软件环境(conda/docker) - 保存分析参数配置文件 ## 伦理与合规 ### 数据安全 - 患者数据脱敏处理 - 遵守GDPR/HIPAA规定 - 安全存储敏感信息 ### 可重复性 - 提供完整分析代码 - 公开使用公共数据 - 记录随机种子参数 --- *注意:实际分析需根据具体研究设计和数据特性调整参数。建议在正式分析前使用测试数据集验证流程。*
Key features
- Comprehensive bioinformatics workflow guidance
- Covers data preprocessing, alignment, and variant calling
- Includes expression analysis and visualization techniques
- Provides best practices and troubleshooting tips
- Focuses on reproducible analysis and documentation
Use cases
- RNA-Seq differential expression analysis
- WES/WGS variant detection and annotation
- Sequence data quality control and preprocessing
- Genomic data visualization and interpretation
- Building reproducible bioinformatics pipelines
Topics
No topics yet.
Explore more
Data from GitHub. Synced on 2026-01-26