Python使用get_text()方法从大段html中提取文本的实例
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Python使⽤get_text()⽅法从⼤段html中提取⽂本的实例
如下所⽰:
<textarea rows="" cols="" name="id"><DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><?xml:namespace prefix = o <DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼀条 为促进微博客信息服务健康有序发展,保<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼆条 在中华⼈民共和国境内从事微博客信息服<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>本规定所称微博客,是指基于使⽤者关注机制,主<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者是指提供微博客平台服务的主体<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客信息服务是指提供微博客平台服务及使⽤微<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第三条 国家互联⽹信息办公室负责全国微博客信<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第四条 微博客服务提供者应当依法取得法律法规<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>向社会公众提供互联⽹新闻信息服务的,应当依法<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第五条 微博客服务提供者应当发挥促进经济发展<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第六条 微博客服务提供者应当落实信息内容安全<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当制定平台服务规则,与微博<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第七条 微博客服务提供者应当按照“后台实名、<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当保障微博客服务使⽤者的信<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼋条 微博客服务使⽤者申请前台实名认证账号<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境内具有组织机构特征的微博客服务使⽤者申请前<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>境外组织和机构申请前台实名认证账号的,应当提<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第九条 微博客服务提供者应当按照分级分类管理<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗条 微博客服务提供者应当对申请前台实名认<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>各级党政机关、企事业单位、⼈民团体和新闻媒体<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗⼀条 微博客服务提供者应当建⽴健全辟谣机<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗⼆条 微博客服务提供者和微博客服务使⽤者<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者发现微博客服务使⽤者发布、传<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗三条 微博客服务提供者应⽤新技术、调整增<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗四条 微博客服务提供者应当⾃觉接受社会监<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗五条 国家⿎励和指导互联⽹⾏业组织建⽴健<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗六条 微博客服务提供者应当遵守国家相关法<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>微博客服务提供者应当记录微博客服务使⽤者⽇志<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗七条 微博客服务提供者违反本规定的,由有<DIV style="TEXT-INDENT: 18pt; mso-char-indent-count: 2.0000" class=MsoNormal><SPAN style="FONT-FAMILY: 宋体; FONT-SIZE: 9pt; mso-spacerun: 'yes'; mso-font-kerning: 1.0000pt"><FONT face=宋体>第⼗⼋条 本规定⾃2018年3⽉20⽇起施⾏。
</S ⽐如这⼉有这么⼀⼤段带html的字串,想要从中提取⽂本,⾸先发现这是⼀个textarea
我们使⽤beautifulsoup
def get_content(url):
resp = urllib.request.urlopen(url)
html = resp.read()
bs = BeautifulSoup(html, "html.parser")
return bs.textarea.get_text()
⾸先⽤那段html字符串初始化beautifulsoup对象
然后bs.textarea返回找到的第⼀个textarea,找到后使⽤get_text()清空所有html标签元素
之后就会返回⼲净的⽂字
以上这篇Python使⽤get_text()⽅法从⼤段html中提取⽂本的实例就是⼩编分享给⼤家的全部内容了,希望能给⼤家⼀个参考,也希望⼤家多多⽀持。