生物信息数据分析常见问题及解决办法
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
常见问题解决办法
1 linux下jboss上传txt文件读取后乱码问题解决方案
linux默认编码是utf-8,windows是GB2312,所以如果linux下读写txt文件和window下是不一样的,必须统一编码。
如果linux下读取txt文件用utf-8那么很容易出现问题,因为客户端windows 的编码格式默认是GB2312.如何解决呢?
解决方案为:无论读取和写入都统一gbk编码。具体步骤为:
1.读取文件时,不论字节字符流读取txt文件都行.因为默认是GB231
2.
2.保存后取数据时,如果没有转码的字符串,用gbk进行转码。
2 windows 中文字拷到linux脚本中存在问题
因为MS-DOS及Windows是回车+换行来表示换行,因此在Linux下用Vim查看在Windows下用VC写的代码,行尾后的“^M”符号,表示的是符。
在Vim中解决这个问题,很简单,在Vim中利用替换功能就可以将“^M”都干掉,键入如下替换命令行:
1)vi -b setup.sh
2)在命令编辑行<就是:按ESC键然后shift+:冒号>输入:%s/^M//g
注意:上述命令行中的“^M”符,不是“^”再加上“M”,而是由“Ctrl+v”、“Ctrl+M”键生成的。
这样替换掉以后,保存就可以执行了。当然还有其他的替换方式比如:
a.一些linux版本有 dos2unix 程序,可以用来祛除^M。
b.cat filename1 | tr -d "/r" >newfile 去掉^M生成一个新文件,还有sed命令等,凡是可以替换的命令都是可以用来新生成一个文件的。
3perl中字符范围转义大小写转化函数
3.1 字符范围转义
3.2大小写转化函数
大写转化为小写:$a=lc($b);
小写转化为大写:$a=uc ($b)
4 Perl 哈希赋值
exists函数
要查看hash中是否存在某个key,可以使用exists函数,如果hash中存在此key,则返回true,与是否有对应的value无关。
my %hash = ("a"=>1, "b"=>2, "c"=>3, "d"=>4);
if(exists $hash{'a'})
{
print "true";
}
5 Hiseq数据所内传输
IT邮件:我考虑了一下,关于研究所内部数据传输,最简单的方法还是由你来统一copy .理由如下,如果按照上次philipp组xiongjieyi
的方式来进行权限设置,可能会出现问题,因为太多的帐号需要不同的设置,难免出错.如果由你来copy
则采用推送方式,出错机会小.为此,我们需要进行以下几步:
1.
在试验完成后,所有的数据都出来以后,你打电话告诉用户,请用户在组目录下建立一个接收数据的目录如/picb/clingenet/hiseq-data
, 注意告诉用户这个目录必须设置成组用户可读写!
2.
然后打电话告诉我,我会帮你暂时设置到那个组里,(因为相同的组可以写那个目录)
copy 结束后,会帮你取消掉.
3. 我给你做了个脚本,你可以用,用法如下,你登陆到liyang-svr1 :
~/rsync1.sh /picb/hiseq/data/Christine/20120608 /picb/clingenet/hiseq-data (~/rsync1.sh 源目录, 目标目录)
就可以把所有的数据copy 到那个接受目录下.
如果需要其他帮助,告诉我.
6 linux下查看某个文件夹大小的命令
df命令可以显示目前所有文件系统的可用空间及使用情形
df -h /picb/hiseq
du:查询文件或文件夹的磁盘使用空间
For example:
du -h --max-depth=1 /picb/hiseq/data/Jackie_Han/20120608
230M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D017
152M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D015
156M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D008
179M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D019
218M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D011
149M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D014
202M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D010
122M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D018
208M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D016
161M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D009
238M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D007
206M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D006
2.2G /picb/hiseq/data/Jackie_Han/20120608
7 Single-read、Paired-end和Mate-pair主要区别
Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。
单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。
Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。