不做实验,还可以挖掘数据库发文章

文 / 肿瘤时间
2018-03-24 22:16

之前给大家介绍过利用开放的临床大数据进行科研,今天再来分享几个利用常见的肿瘤数据库发表文章的案例。本文由小张老师授权转载,特此感谢。

今天小张先介绍去年发表的三篇文章的套路:不做实验,只挖掘数据库就发表文章

第一篇:影响因子 1.7 分

第一篇是 2017 年 5 月份发表的文章,杂志是 Pathol Oncol Res,影响因子 1.7分,研究团队是伊朗的科学家。

文章主要通过 cBioportal 对 TCGA 数据中肝癌的数据进行挖掘,结果找到了一条 lncRNA SNHG6 作为肝癌的分子标志物。结果如下:

感觉做了好多东西,其实就说了两件事:

  • lncRNA SNHG6等3条lncRNA在肝癌患者中基因组水平的改变和表达情况;
  • lncRNA SNHG6与患者预后相关;

关键是只用了一个 TCGA 使用工具:cBioportal,而这个工具使用起来也非常简单,就这么挖掘下数据库一篇 1.7 分的文章就发出来了。

第二篇:影响因子 3.2 分

这篇文章是国内团队 2017 年 3 月发的,杂志 International Journal of Molecular Sciences,影响因子 3.2,分数已经突破 3 分了,文章说的是通过生物信息学分析鉴定结直肠癌关键候选基因和信号通路。

下面我们看研究内容:

第一印象:图好漂亮,不过分析似乎有点太简单了吧。

第三篇:影响因子 5.1 分

2017 年 5 月 22 号发表,杂志是 Oncotarget,虽然 OT 被大家广为诟病,不过暂时影响因子还是保持住了 5 分大关。文章说的是通过 RNA 测序和芯片数据挖掘研究异常表达的 lncRNA 在肺鳞癌中的临床意义,我们看看这篇是不是让我们对 OT 另眼相看:

首先通过 R 语言分析 TCGA 数据库中的差异表达 lncRNA,并用火山图展示:

(横过来的火山图还是火山图)

接下来,分别通过箱式图、ROC 曲线、KM 生存分析和与基因 FGFR1 的共表达分析展示 10 条最显著 lncRNA 的结果,四张图就是 4 个 fig:

再往下是 lncRNA 表达在不同病理参数分组下的表达差异:

还有通过 WGCNA 筛选基于 lncRNA-mRNA 共表达网络建立的 CNC(Coding-Non-Coding)Network:

接下来是这 10 条 lncRNA 在 TCGA 中的基因组变异、表达以及与预后的关系,用的工具还是 cBioportal!

(B 图是不是跟文章1里面的很像?因为都是 cBioportal 做出来!)

到这里就结束了吗?并没有!

以上只是基于 TCGA 的结果,还要验证呢:

用 GEO 的数据进行验证

作者用了12 对肺鳞癌样本进行验证:表达差异、ROC 曲线和连线图

用GEPIA网站对9条lncRNA子在22个肿瘤和癌旁中的表达进行展示

好了,这篇 OT 的文章就算说完了,其中还有 7 个表我们没有没有放上来,不过总体来说,这篇 OT 用到了 TCGA 数据,GEO 以及自己验证的 12 对肺鳞癌样本,用到了 R 语言的 DESeq 包和 WGCNA 包,Cytoscape 软件以及cBioportal 和 GEPIA 网站,图和表不少,而且图都很漂亮。

总结一下

第一篇 1.7 分的文章只用了 cBioportal 网站分析 TCGA 数据;

第二篇 3.2 分的文章主要对四个 GEO 的数据进行分析;

第三篇 5.1 分的文章整合了 TCGA、GEO 和自己的工作(虽然验证数量只有 12 对且只有qPCR),用到的工具比较多分析的内容也多,更重要的是图很漂亮,图的排布也很整齐,要知道这是一个看脸的时代啊!

小张推荐

丁香公开课《实用数据库挖掘》系列课程,48 节视频教程,手把手教你用公开的数据发自己的文章。

课程里面依凡老师为大家介绍了上面文章里面用到的 TCGA 数据库数据的下载和分析,GEO 数据的挖掘等等。目前购买量已超 700人次。

课程简介

从实例出发,针对科研工作中最常用到的数据库,包括肿瘤数据库TCGA,cBioPortal,SRA,COSMIC;表达谱数据库GEO,Oncomine;基因组数据库UCSC,Ensembl;序列数据库GenBank,Uniprot等。

结合文献实例的学习和动手操作,循序渐进地带领大家一步步从数据挖掘的“门外汉”到自己动手整理出一篇可以发表的文章。

超值福利:

课程学习过程中有 VIP 群答疑,有不懂的问题直接和老师沟通。