生物信息学基础教程第4讲正则表达式教程.ppt
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
[^] 匹个配 字不 符在指定范围内的一 ‘[^A-FH-Z]rep’匹配所有不在A-F和H-Z范围内字符后跟rep的行
\( \) 标记匹配字符
‘\(love\)’中可以匹配love,且love被标记为\1
\Leabharlann Baidu \>
分和别 结锚 束定一个单词的起始
‘\<grep’匹配以grep开始的单词 ‘grep\>’匹配以grep结束的单词
sed_script_file [option] input_file
2020-11-9
谢谢观赏
16
sed命令的选项
-n
Quiet, 不自动打印编辑
行,默认是打印的
-e
下一命令是编辑命令,
使用多项编辑时加入此
2020-11-9
谢谢观赏
15
sed用法
从文件的一个文本行或标准输入中读取 数据,并将其拷贝到一个编辑缓冲区
读取命令行或者脚本的第一条命令,并 用该命令查找模式或定位行号并编辑, 重复过程直到命令结束
sed [option] ‘sed_command’ input_file
sed [option] –f sed_script_file input_file
2020-11-9
谢谢观赏
3
VIM教程
——linux下最常用的文本编辑器
2020-11-9
谢谢观赏
4
VIM编辑器
三种模式:各种模式之间切换
从命令行模式到插入模式:按下i键
从命令行模式到附加模式:按下a键
返回命令行模式:按下ESC键
退出编辑
保存并退出:在命令行模式按下:wq
不保存退出:在命令行模式按下:q!
1. ls –l | grep ‘^a’ 2. grep ‘test’ d* 3. grep ‘test’ aa bb cc 4. grep ‘[a-z]\{5\}’ aa 5. grep ‘w\(es\)t.*\1’ aa 6. grep ‘^n’ datafile 7. grep ‘4$’ datafile 8. grep ‘5\..’ datafile 9. grep ‘\.5’ datafile 10. grep ‘^[wesn]’ datafile 11. grep ‘[A-Z][A-Z] [A-Z]’ datafile 12. grep ‘ss* ’ datafile 13. grep ‘[a-z]\{9\}’ datafile 14. grep ‘\<[a-z].*n\>’ datafile
x\{5\}, x\{5,\},x\{5,10\} \\wW==[[^AA--ZZaa--zz00--99]]
x间正的好行重复5次的行、至少重复5次的行、重复次数在5-10次之 匹配所有单个(非)字母和数字字符
\bgrep\b
只匹配单词grep,不匹配egrep等
2020-11-9
谢谢观赏
12
练习题:这些命令都能干啥?
2020-11-9
谢谢观赏
13
sed教程
——非交互性文本编辑
2020-11-9
谢谢观赏
14
sed简介
首先用which sed查看一下sed的位置
一个非交互性文本编辑器,编辑文件或 标准输入导出的文件拷贝
sed可以随意编辑小文件或者大文件
一次性处理所有改变,高效率
通过行号和正则表达式指定需要编辑的 行
保存:在命令行模式按下:w
另存为其他文件名:按下:w filename
2020-11-9
谢谢观赏
5
VIM编辑功能
光标跳到文件头:命令行模式下按2下g 光标跳到文件尾:按下:$ 光标跳到行首:按下^ 光标跳到行末:按下$ 跳到100行:按下100g
2020-11-9
谢谢观赏
6
VIM查找功能
-l
打印不匹配模式的文件清单
-n
--line-number,在匹配行前打印行 号
-s
--silent,不显示错误信息
-v
--revert-match,只显示不匹配的行
-w
--word-regexp,如果被\<和\>引用, 就把表达式作为一个单词搜索
2020-11-9
谢谢观赏
11
grep正则表达式元字符
底行模式下输入/pattern/回车,对应符合 pattern的文本就会显示为高亮
底行模式下输入:m,n/pattern/,就会在第 m行到第n行查找pattern并高亮显示
2020-11-9
谢谢观赏
7
grep教程
——正则表达式的应用
2020-11-9
谢谢观赏
8
grep简介
是Global search regular expression (RE) and Print out the line的缩写
-? -c -f file
?为数值,同时显示匹配行的前后? 行 --count,只打印匹配行的行数,而 不输出匹配行
从输入文件中提取模式
grep -2 ‘grep’ test.txt同时显示匹配行的 前后2行
-i
--ignore-case,忽略大小写
-q --quiet,取消显示
-l
仅打印匹配模式的文件清单
生物信息学基础教程
第4讲:正则表达式教程
——正则表达式与模式匹配
2020-11-9
谢谢观赏
1
本节内容
正则表达式
正则表达式的定义与表示方法 正则表达式中的元字符(metacharacter)
VIM编辑器 grep命令 sed编辑器 awk工具
2020-11-9
谢谢观赏
2
正则表达式
所谓正则表达式(regular expression, RE), 指的是符合某种模式的字串,常 用于从文件中或者字符串中查找和替换 某些符合某种规则的字串
强大的文本搜索工具,使用正则表达式搜索文 本,并打印匹配的行
在一个或者多个文件中搜索字符串模式,搜索 的结果输出到屏幕,不影响文件内容
2020-11-9
谢谢观赏
9
grep用法
grep [option] ‘pattern’ input_files
2020-11-9
谢谢观赏
10
常用grep命令选项
^
锚定行的开始
‘^grep’匹配所有以grep开始的行
$ 锚定行的结束
‘grep$’匹配所有以grep结束的行
.
匹字配 符一个非换行符的任意 ‘gr.p’匹配gr后跟一个任意字符,后为p的行
*
匹配0个或多个先前字符 ‘*grep’匹配所有0个或多个空格紧跟grep的行
[] 匹配一个指定范围的字符 ‘[Gg]rep’匹配包含Grep或grep的行