数据集对应文章:https://www.cell.com/cell/pdf/S0092-8674(16)31660-9.pdf
这是在进行UPR Unfold Protein Response实验所记录的数据。
一共是3个数据集。
应该分别对应了3种介质,IRE1(IREα), PERK, ATF6
数据集横向是cell barcode(CBC),不同barcode对应不同的1类细胞;纵向是gene symbol,类似于基因名字、基因ID。
整个matrix指的是在这种介质下,这些细胞rna的基因表达情况。
数据集是h5ad格式,用scanpy加载后是的adata。
adata是什么格式的?
此图为引用上述链接的图:
- obs是observe,perturb之后观测的各种观察量的值
- var是variable,变量 ,扰动的条件
- uns是un structed data,其他的用字典来的额外数据。
- X就是obs和var的一个表格
- 总结一下:就是进行了
var
条件下的实验,观测obs
的值,储存在X
中,其他额外数据储存在uns
.
此数据集有3份,分别叫AdamsonWeissman2016_GSM2406675_10X001
。
Obs值:
adata.obs.columns.values
:['perturbation', 'read count', 'UMI count', 'tissue_type', 'cell_line', 'cancer', 'disease', 'perturbation_type', 'celltype', 'organism', 'ncounts', 'ngenes', 'percent_mito', 'percent_ribo', 'nperts']
- var值:
['ensembl_id', 'ncounts', 'ncells']
,基因id、做了多少次、多少细胞。去除一列查看adata.var['ncells']
uns
是空的。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。