生物信息数据分析常见问题及解决办法

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

常见问题解决办法

1 linux下jboss上传txt文件读取后乱码问题解决方案

linux默认编码是utf-8,windows是GB2312,所以如果linux下读写txt文件和window下是不一样的,必须统一编码。

如果linux下读取txt文件用utf-8那么很容易出现问题,因为客户端windows 的编码格式默认是GB2312.如何解决呢?

解决方案为:无论读取和写入都统一gbk编码。具体步骤为:

1.读取文件时,不论字节字符流读取txt文件都行.因为默认是GB231

2.

2.保存后取数据时,如果没有转码的字符串,用gbk进行转码。

2 windows 中文字拷到linux脚本中存在问题

因为MS-DOS及Windows是回车+换行来表示换行,因此在Linux下用Vim查看在Windows下用VC写的代码,行尾后的“^M”符号,表示的是符。

在Vim中解决这个问题,很简单,在Vim中利用替换功能就可以将“^M”都干掉,键入如下替换命令行:

1)vi -b setup.sh

2)在命令编辑行<就是:按ESC键然后shift+:冒号>输入:%s/^M//g

注意:上述命令行中的“^M”符,不是“^”再加上“M”,而是由“Ctrl+v”、“Ctrl+M”键生成的。

这样替换掉以后,保存就可以执行了。当然还有其他的替换方式比如:

a.一些linux版本有 dos2unix 程序,可以用来祛除^M。

b.cat filename1 | tr -d "/r" >newfile 去掉^M生成一个新文件,还有sed命令等,凡是可以替换的命令都是可以用来新生成一个文件的。

3perl中字符范围转义大小写转化函数

3.1 字符范围转义

3.2大小写转化函数

大写转化为小写:$a=lc($b);

小写转化为大写:$a=uc ($b)

4 Perl 哈希赋值

exists函数

要查看hash中是否存在某个key,可以使用exists函数,如果hash中存在此key,则返回true,与是否有对应的value无关。

my %hash = ("a"=>1, "b"=>2, "c"=>3, "d"=>4);

if(exists $hash{'a'})

{

print "true";

}

5 Hiseq数据所内传输

IT邮件:我考虑了一下,关于研究所内部数据传输,最简单的方法还是由你来统一copy .理由如下,如果按照上次philipp组xiongjieyi

的方式来进行权限设置,可能会出现问题,因为太多的帐号需要不同的设置,难免出错.如果由你来copy

则采用推送方式,出错机会小.为此,我们需要进行以下几步:

1.

在试验完成后,所有的数据都出来以后,你打电话告诉用户,请用户在组目录下建立一个接收数据的目录如/picb/clingenet/hiseq-data

, 注意告诉用户这个目录必须设置成组用户可读写!

2.

然后打电话告诉我,我会帮你暂时设置到那个组里,(因为相同的组可以写那个目录)

copy 结束后,会帮你取消掉.

3. 我给你做了个脚本,你可以用,用法如下,你登陆到liyang-svr1 :

~/rsync1.sh /picb/hiseq/data/Christine/20120608 /picb/clingenet/hiseq-data (~/rsync1.sh 源目录, 目标目录)

就可以把所有的数据copy 到那个接受目录下.

如果需要其他帮助,告诉我.

6 linux下查看某个文件夹大小的命令

df命令可以显示目前所有文件系统的可用空间及使用情形

df -h /picb/hiseq

du:查询文件或文件夹的磁盘使用空间

For example:

du -h --max-depth=1 /picb/hiseq/data/Jackie_Han/20120608

230M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D017

152M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D015

156M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D008

179M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D019

218M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D011

149M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D014

202M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D010

122M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D018

208M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D016

161M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D009

238M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D007

206M /picb/hiseq/data/Jackie_Han/20120608/Sample_P12D006

2.2G /picb/hiseq/data/Jackie_Han/20120608

7 Single-read、Paired-end和Mate-pair主要区别

Single-read、Paired-end和Mate-pair主要区别在测序文库的构建方法上。

单端测序(Single-read)首先将DNA样本进行片段化处理形成200-500bp的片段,引物序列连接到DNA片段的一端,然后末端加上接头,将片段固定在flow cell上生成DNA簇,上机测序单端读取序列(图1)。

Paired-end方法是指在构建待测DNA文库时在两端的接头上都加上测序引物结合位点,在第一轮测序完成后,去除第一轮测序的模板链,用对读测序模块(Paired-End Module)引导互补链在原位置再生和扩增,以达到第二轮测序所用的模板量,进行第二轮互补链的合成测序(图2)。

相关文档
最新文档