3.1.1_analyze_enpact_SPrediXcan_results

Author

Saideep Gona

Published

December 6, 2023

Code
import pandas as pd

Trim ensembl ids

Code
def trim_res(path):
    trimmed_table = pd.read_csv(path)
    print(trimmed_table)
    trimmed_ids = trimmed_table['gene'].str.split(".", expand=True)[0]
    print(trimmed_ids)
    trimmed_table['gene'] = trimmed_ids
    trimmed_table.to_csv(path.replace(".txt","_trimmed.txt"), index=False)
Code
files_to_be_trimmed = [
    "/beagle3/haky/users/saideep/projects/aracena_modeling/SPrediXcan/GTex_WB/AE_SPrediXcan_results_GTex_WB.txt",
    "/beagle3/haky/users/saideep/projects/aracena_modeling/SPrediXcan/GTex_WB/T2D_SPrediXcan_results_GTex_WB.txt"
]

for file in files_to_be_trimmed:
    trim_res(file)
                     gene     gene_name     zscore  effect_size        pvalue  \
0      ENSG00000174123.10         TLR10  11.924929     1.029376  8.775865e-33   
1      ENSG00000197712.11      FAM114A1 -11.442801    -0.371936  2.554997e-30   
2      ENSG00000142599.17          RERE   8.150775     0.233097  3.615995e-16   
3      ENSG00000073584.18       SMARCE1  -8.109270    -0.341719  5.092481e-16   
4       ENSG00000197728.9         RPS26   7.934350     0.042059  2.115998e-15   
...                   ...           ...        ...          ...           ...   
11724   ENSG00000272855.1  RP5-1102E8.3        NaN          NaN           NaN   
11725   ENSG00000273001.1  RP11-118K6.3        NaN          NaN           NaN   
11726   ENSG00000274419.6       TBC1D3D        NaN          NaN           NaN   
11727   ENSG00000275542.1  RP11-455O6.9        NaN          NaN           NaN   
11728   ENSG00000282936.1  CTC-281F24.5        NaN          NaN           NaN   

          var_g  pred_perf_r2  pred_perf_pval  pred_perf_qval  n_snps_used  \
0      0.002384           NaN             NaN             NaN            2   
1      0.017122           NaN             NaN             NaN            1   
2      0.021327           NaN             NaN             NaN            1   
3      0.009223           NaN             NaN             NaN            2   
4      0.564268           NaN             NaN             NaN            1   
...         ...           ...             ...             ...          ...   
11724  0.000000           NaN             NaN             NaN            1   
11725  0.000000           NaN             NaN             NaN            1   
11726  0.000000           NaN             NaN             NaN            1   
11727  0.000000           NaN             NaN             NaN            1   
11728  0.000000           NaN             NaN             NaN            1   

       n_snps_in_cov  n_snps_in_model  
0                  2                2  
1                  1                1  
2                  1                1  
3                  2                2  
4                  1                1  
...              ...              ...  
11724              1                1  
11725              1                1  
11726              3                3  
11727              1                1  
11728              1                1  

[11729 rows x 12 columns]
0        ENSG00000174123
1        ENSG00000197712
2        ENSG00000142599
3        ENSG00000073584
4        ENSG00000197728
              ...       
11724    ENSG00000272855
11725    ENSG00000273001
11726    ENSG00000274419
11727    ENSG00000275542
11728    ENSG00000282936
Name: 0, Length: 11729, dtype: object
                     gene     gene_name     zscore  effect_size        pvalue  \
0      ENSG00000183049.12        CAMK1D  17.497548     0.227352  1.495705e-68   
1       ENSG00000187486.5        KCNJ11  12.803166     0.476858  1.573999e-37   
2      ENSG00000109501.13          WFS1  12.264892     0.612237  1.397992e-34   
3      ENSG00000109670.13         FBXW7 -10.910586    -0.618344  1.025931e-27   
4      ENSG00000173517.10         PEAK1  10.661919     0.406150  1.533997e-26   
...                   ...           ...        ...          ...           ...   
11412   ENSG00000272855.1  RP5-1102E8.3        NaN          NaN           NaN   
11413   ENSG00000273001.1  RP11-118K6.3        NaN          NaN           NaN   
11414   ENSG00000274419.6       TBC1D3D        NaN          NaN           NaN   
11415   ENSG00000275542.1  RP11-455O6.9        NaN          NaN           NaN   
11416   ENSG00000282936.1  CTC-281F24.5        NaN          NaN           NaN   

          var_g  pred_perf_r2  pred_perf_pval  pred_perf_qval  n_snps_used  \
0      0.059839           NaN             NaN             NaN            2   
1      0.009284           NaN             NaN             NaN            1   
2      0.006153           NaN             NaN             NaN            1   
3      0.003702           NaN             NaN             NaN            2   
4      0.009023           NaN             NaN             NaN            1   
...         ...           ...             ...             ...          ...   
11412  0.000000           NaN             NaN             NaN            1   
11413  0.000000           NaN             NaN             NaN            1   
11414  0.000000           NaN             NaN             NaN            1   
11415  0.000000           NaN             NaN             NaN            1   
11416  0.000000           NaN             NaN             NaN            1   

       n_snps_in_cov  n_snps_in_model  
0                  2                2  
1                  1                1  
2                  2                2  
3                  2                2  
4                  1                1  
...              ...              ...  
11412              1                1  
11413              1                1  
11414              3                3  
11415              1                1  
11416              1                1  

[11417 rows x 12 columns]
0        ENSG00000183049
1        ENSG00000187486
2        ENSG00000109501
3        ENSG00000109670
4        ENSG00000173517
              ...       
11412    ENSG00000272855
11413    ENSG00000273001
11414    ENSG00000274419
11415    ENSG00000275542
11416    ENSG00000282936
Name: 0, Length: 11417, dtype: object