ATMKO_HSNpt_gwas_peaks.Rmd

---
title: "GWAS Peak Details"
author: "Daniel M. Gatti, Ph.D."
date: "9/6/2021"
output: html_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)

library(AnnotationHub)
library(SummarizedExperiment)
library(tidyverse)

base_dir    = '/media/dmgatti/data1/ColoState/ATM'
hap_dir     = file.path(base_dir, 'haplo_reconstr')
fig_dir     = file.path(base_dir, 'figures')
manu_dir    = file.path(base_dir, 'manuscript')
results_dir = file.path(base_dir, 'results')
perm_file   = file.path(results_dir, 'gwas_perms.rds')

muga_dir     = '/media/dmgatti/data0/MUGA/'
gm_wisc_file = file.path(muga_dir, 'gm_uwisc_v1.csv')
hs_snp_file  = file.path(muga_dir, 'atmkohsnpt_variants_129S1_SvImJ.sqlite')
gene_file    = file.path(muga_dir, 'mouse_genes_mgi.sqlite')

# EBI expression atlas
expr_base = '/media/dmgatti/slowdata0/data/ebi_expr_atlas'
bl6_9tissue = file.path(expr_base, 'bl6_9tissue', 'E-GEOD-74747-atlasExperimentSummary.Rdata')
dba_bl6_6tissue = file.path(expr_base, 'dba_bl6_6tissue', 'E-MTAB-599-atlasExperimentSummary.Rdata')

founder_names = c('A/J', 'AKR/J', 'BALB/cJ', 'C3H/HeJ', 'C57BL/6J', 'CBA/J', 'DBA/2J', 'LP/J', '129S6/SvEvTac-Atm/J')

csq2keep = c("3_prime_UTR_variant", "5_prime_UTR_variant", "coding_sequence_variant", "incomplete_terminal_codon_variant", "mature_miRNA_variant", "missense_variant", "splice_acceptor_variant", "splice_donor_variant", "splice_region_variant", "start_lost", "stop_gained", "stop_lost", "stop_retained_variant",  "synonymous_variant")

snp_func  = qtl2::create_variant_query_func(hs_snp_file)
gene_func = qtl2::create_gene_query_func(gene_file)

```

# Read in the EBI data.

```{r read_ebi}
load(bl6_9tissue)
expr1 = experimentSummary
load(dba_bl6_6tissue)
expr2 = experimentSummary

# Get counts  from: assays(experimentSummary$rnaseq)$counts
#    - Not sure about units. Probably TPM.
# Get genes   from: rowRanges(experimentSummary$rnaseq)
#    - No location info with genes!!
# Get samples from: colData(experimentSummary$rnaseq)

# Aggregate each dataset by tissue.
e1_design = colData(expr1$rnaseq)
e1_count  = log1p(assays(expr1$rnaseq)$counts)
# Taking geometric mean.
e1_data = aggregate(t(e1_count), by = list(e1_design$organism_part), FUN = mean, na.rm = TRUE)
rownames(e1_data) = e1_data$Group.1
e1_data = e1_data[,-1]
e1_data = t(e1_data)
e1_data = data.frame(gene_id = rownames(e1_data), e1_data)

e2_design = colData(expr2$rnaseq)
e2_count  = log1p(assays(expr2$rnaseq)$counts)
# Taking geometric mean.
e2_data = aggregate(t(e2_count), by = list(e2_design$organism_part), FUN = mean, na.rm = TRUE)
rownames(e2_data) = e2_data$Group.1
e2_data = e2_data[,-1]
e2_data = t(e2_data)
e2_data = data.frame(gene_id = rownames(e2_data), e2_data)
```

Get the Ensembl 97 GTF

```{r get_ensembl_gtf}
hub = AnnotationHub()
hub = query(hub, c('ensembl', 'gtf', 'mus musculus'))
ensembl = hub[[names(hub)[hub$title == 'Mus_musculus.GRCm38.78.gtf']]]
genes   = subset(ensembl, type == 'gene')
```

# Chromosome 2

```{r}
# Read in the top SNPs.
chr2_ts = read.csv(file.path(results_dir, 'rz_days_top_snps_chr2a.csv'))
```


```{r}
tbl = table(chr2_ts$ensembl_gene)
sum(tbl[grep('intron', names(tbl))])
sum(tbl[grep('intergenic_variant', names(tbl))])
```

Keep SNPs with RNA or protein changing consequences.

```{r}
chr2_ts = subset(chr2_ts, grepl(paste0(csq2keep, collapse = '|'), consequence))
chr2_ts = chr2_ts %>% 
            select(snp_id:alleles, ensembl_gene:X129S1_SvImJ, lod)
```

Deal with the consequence column.

```{r csq}
chr2_ts = chr2_ts %>% 
            separate(consequence, into = LETTERS[1:6], sep = ',') %>% 
            pivot_longer(cols = A:F, names_to = 'junk', values_to = 'csq') %>% 
            filter(!is.na(csq)) %>% 
            separate(csq, into = c('csq', 'gene_id'), sep = ':')
```

Join gene symbols with Ensembl IDs.

```{r add_symbols}
chr2_ts = chr2_ts %>% 
            left_join(data.frame(genes), by = 'gene_id') %>% 
            select(-ensembl_gene, -seqnames, -width, -(source:gene_version), -gene_source, -(transcript_id:protein_version))
```

Join expression levels from BL6 and DBA x BL6 cross.

```{r add_expr}
chr2_ts = chr2_ts %>% 
            left_join(e1_data, by = 'gene_id') %>% 
            left_join(e2_data, by = 'gene_id')
write.csv(chr2_ts, file = file.path(results_dir, 'rz_days_snps_expr_chr2.csv'),
          quote = FALSE, row.names = FALSE)
```

Number of genes under SNP interval.

```{r num_genes}
qtl_rng = GRanges(seqnames = 2, IRanges(start = min(chr2_ts$pos) * 1e6, end = max(chr2_ts$pos) * 1e6))
qtl_genes = subsetByOverlaps(genes, qtl_rng)
```

```{r chr2_expr}
chr2_expr = data.frame(qtl_genes) %>% 
              select(seqnames:strand, gene_id, gene_name) %>% 
              left_join(e1_data, by = 'gene_id') %>% 
              left_join(e2_data, by = 'gene_id') %>% 
              filter(thymus.x + thymus.y > 0)
```


# Chromosome 5

```{r}
# Read in the top SNPs.
chr5_ts = read.csv(file.path(results_dir, 'rz_days_top_snps_chr5.csv'))
```


```{r}
tbl = table(chr5_ts$ensembl_gene)
sum(tbl[grep('intron', names(tbl))])
sum(tbl[grep('intergenic_variant', names(tbl))])
```

Keep SNPs with RNA or protein changing consequences.

```{r}
chr5_ts = subset(chr5_ts, grepl(paste0(csq2keep, collapse = '|'), consequence))
chr5_ts = chr5_ts %>% 
            select(snp_id:alleles, ensembl_gene:X129S1_SvImJ, lod)
```

Deal with the consequence column.

```{r csq}
chr5_ts = chr5_ts %>% 
            separate(consequence, into = LETTERS[1:6], sep = ',') %>% 
            pivot_longer(cols = A:F, names_to = 'junk', values_to = 'csq') %>% 
            filter(!is.na(csq)) %>% 
            separate(csq, into = c('csq', 'gene_id'), sep = ':')
```

Join gene symbols with Ensembl IDs.

```{r add_symbols}
chr5_ts = chr5_ts %>% 
            left_join(data.frame(genes), by = 'gene_id') %>% 
            select(-ensembl_gene, -seqnames, -width, -(source:gene_version), -gene_source, -(transcript_id:protein_version))
```

Join expression levels from BL6 and DBA x BL6 cross.

```{r add_expr}
chr5_ts = chr5_ts %>% 
            left_join(e1_data, by = 'gene_id') %>% 
            left_join(e2_data, by = 'gene_id')
write.csv(chr5_ts, file = file.path(results_dir, 'rz_days_snps_expr_chr5.csv'),
          quote = FALSE, row.names = FALSE)
```

```{r num_genes}
qtl_rng = GRanges(seqnames = 5, IRanges(start = min(chr5_ts$pos) * 1e6, end = max(chr5_ts$pos) * 1e6))
qtl_genes = subsetByOverlaps(genes, qtl_rng)
length(qtl_genes)
```

```{r chr5_expr}
chr5_expr = data.frame(qtl_genes) %>% 
              select(seqnames:strand, gene_id, gene_name) %>% 
              left_join(e1_data, by = 'gene_id') %>% 
              left_join(e2_data, by = 'gene_id') %>% 
              filter(thymus.x + thymus.y > 0)
```