Claude Skill

GPTomics/bioSkills

A comprehensive SKILLS.md guide for bioinformatics analysis using Claude Skill. Covers data preprocessing, sequence alignment, variant detection, expression analysis, visualization, and best practi...

Language

Overview

Stars121

Forks19

LanguagePython

Last pushed2026-01-25

Last synced2026-01-26

View on GitHub

Repository

OwnerGPTomics

RepositorybioSkills

Full nameGPTomics/bioSkills

Repo ID1,134,675,966

GitHub URLhttps://github.com/GPTomics/bioSkills

Summary

A set of SKILLS.md documentation providing guidelines for performing bioinformatics analysis using Claude Skill. It covers a complete workflow from data preprocessing to advanced analysis, including sequence alignment, variant detection, expression analysis, and visualization.

Chinese description

# 生物信息学Claude Skill使用指南 ## 概述本指南介绍如何利用Claude Skill进行生物信息学分析，涵盖从数据预处理到高级分析的完整工作流程。 ## 核心技能模块 ### 1. 数据预处理 - **文件格式转换**: FASTQ → FASTA, SAM → BAM, VCF标准化 - **质量控制**: FastQC报告解读，Trimmomatic/TrimGalore参数优化 - **数据清洗**: 去除接头序列，低质量碱基修剪，污染序列过滤 ### 2. 序列比对与分析 - **基因组比对**: BWA-MEM, Bowtie2, STAR参数配置 - **转录组分析**: HISAT2, TopHat2比对策略 - **变异检测**: GATK最佳实践流程，FreeBayes参数调整 ### 3. 表达量分析 - **计数矩阵生成**: featureCounts, HTSeq使用指南 - **差异表达分析**: DESeq2, edgeR, limma-voom流程 - **富集分析**: GO, KEGG, Reactome通路富集 ### 4. 变异注释与解读 - **VCF注释**: SnpEff, ANNOVAR注释字段说明 - **临床解读**: ClinVar数据库查询，ACMG分类指南 - **群体遗传**: gnomAD频率过滤，人群特异性变异识别 ### 5. 可视化技能 - **交互式图表**: Plotly, ggplot2生物信息学模板 - **基因组浏览器**: IGV会话文件生成，UCSC track配置 - **网络可视化**: Cytoscape网络图，STRING互作网络 ## 工作流示例 ### RNA-Seq分析流程 ``` 1. 原始数据质控 → 2. 序列修剪 → 3. 参考基因组比对 4. 基因表达定量 → 5. 差异表达分析 → 6. 通路富集 ``` ### WES/WGS分析流程 ``` 1. 原始数据质控 → 2. 比对与重复标记 → 3. 碱基质量重校准 4. 变异检测 → 5. 变异过滤 → 6. 注释与解读 ``` ## 最佳实践 ### 代码规范 ```bash # 使用标准化参数命名 bwa mem -t 8 -R '@RG\tID:sample\tSM:sample' \ reference.fasta sample_R1.fq sample_R2.fq ``` ### 结果文档化 - 记录软件版本和参数 - 保存中间文件校验和 - 生成可重复的分析报告 ### 性能优化 - 并行处理大型数据集 - 合理分配内存资源 - 使用临时文件管理 ## 故障排除 ### 常见问题 1. **内存不足**: 调整Java堆大小 `-Xmx` 2. **文件格式错误**: 验证FASTQ质量编码 3. **参考基因组不匹配**: 检查比对索引版本 ### 调试技巧 - 使用小数据集测试流程 - 逐步验证每个步骤输出 - 比对率统计和分布检查 ## 资源管理 ### 数据组织 ``` project/ ├── raw_data/ # 原始数据 ├── processed/ # 处理中间文件 ├── results/ # 最终结果 └── scripts/ # 分析脚本 ``` ### 版本控制 - 使用Git管理分析脚本 - 记录软件环境（conda/docker） - 保存分析参数配置文件 ## 伦理与合规 ### 数据安全 - 患者数据脱敏处理 - 遵守GDPR/HIPAA规定 - 安全存储敏感信息 ### 可重复性 - 提供完整分析代码 - 公开使用公共数据 - 记录随机种子参数 --- *注意：实际分析需根据具体研究设计和数据特性调整参数。建议在正式分析前使用测试数据集验证流程。*

Key features

Comprehensive bioinformatics workflow guidance
Covers data preprocessing, alignment, and variant calling
Includes expression analysis and visualization techniques
Provides best practices and troubleshooting tips
Focuses on reproducible analysis and documentation

Use cases

RNA-Seq differential expression analysis
WES/WGS variant detection and annotation
Sequence data quality control and preprocessing
Genomic data visualization and interpretation
Building reproducible bioinformatics pipelines

Topics

No topics yet.

Explore more

Owner: GPTomics Language: Python

Data from GitHub. Synced on 2026-01-26