数据集对应文章:https://www.cell.com/cell/pdf/S0092-8674(16)31660-9.pdf
这是在进行UPR Unfold Protein Response实验所记录的数据。

一共是3个数据集。
应该分别对应了3种介质,IRE1(IREα), PERK, ATF6
数据集横向是cell barcode(CBC),不同barcode对应不同的1类细胞;纵向是gene symbol,类似于基因名字、基因ID。

整个matrix指的是在这种介质下,这些细胞rna的基因表达情况。
在这里插入图片描述
数据集是h5ad格式,用scanpy加载后是的adata。
adata是什么格式的?

此图为引用上述链接的图:
在这里插入图片描述
  • obs是observe,perturb之后观测的各种观察量的值
  • var是variable,变量 ,扰动的条件
  • uns是un structed data,其他的用字典来的额外数据。
  • X就是obs和var的一个表格
  • 总结一下:就是进行了var条件下的实验,观测obs的值,储存在X中,其他额外数据储存在uns.

此数据集有3份,分别叫AdamsonWeissman2016_GSM2406675_10X001

  • Obs值:
    adata.obs.columns.values

    ['perturbation', 'read count', 'UMI count', 'tissue_type',
       'cell_line', 'cancer', 'disease', 'perturbation_type', 'celltype',
       'organism', 'ncounts', 'ngenes', 'percent_mito', 'percent_ribo',
       'nperts']
  • var值:
    ['ensembl_id', 'ncounts', 'ncells'],基因id、做了多少次、多少细胞。去除一列查看adata.var['ncells']
  • uns是空的。

Yonggie
95 声望4 粉丝