有时候在GEO下载发表的基因表达矩阵的时候,经常遇到如下的基因名被EXCEL自动篡改。这里介绍一个R包:HGNChelper,可以自动识别这些基因,并进行修正。
EXCEL ERROR Corrected Gene Symbol 1-Sep SEPT1 10-Sep SEPT10 11-Sep SEPT11 12-Sep SEPT12
一个简单的例子
|
|
|
|
checkGeneSymbols
不光可以教程EXCEL造成的篡改,同样也可以将Alias转换成标准基因名。但是有一些错误是无法解决的,比如1-Mar
这样的错误,可能会对应多个Gene Symbol。这样的数据只能舍弃了。
一个典型的应用场景
|
|