基于数据处理与分析的Python案例展示

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

古滕堡项目
File
# Filename: freqG20.py
from nltk.corpus import gutenberg
from nltk.probability import *
allwords = gutenberg.words('shakespeare-hamlet.txt')
fd2 = FreqDist([sx.lower() for sx in allwoLeabharlann Baiduds if sx.isalpha()])
一些主题
• 美国大选数据分析 • 产品评论挖掘 • 总统就职演说稿分析 • A股股票分析 • 书评、音乐和电影数据
爬取与分析 • Google学术文献爬取器 • 地区空气污染数据分析 • 微博舆情控制
航空公司客户价挖掘 新闻标题分析 百度贴吧表情分析 英文文献难度分析 就职网站职业需求统计 比赛数据分析球队风格 知乎热门话题讨论 B站弹幕数据分析 房价数据挖掘
>>> from nltk.corpus import gutenberg >>> gutenberg.fileids() [u'austen-emma.txt', u'austen-persuasion.txt', u'austen-sense.txt', u'bible-kjv.txt', u'blake-poems.txt', u'bryant-stories.txt', u'burgessbusterbrown.txt', u'carroll-alice.txt', u'chesterton-ball.txt', u'chesterton-brown.txt', u'chesterton-thursday.txt', u'edgeworthparents.txt', u'melville-moby_dick.txt', u'milton-paradise.txt', u'shakespeare-caesar.txt', u'shakespeare-hamlet.txt', u'shakespearemacbeth.txt', u'whitman-leaves.txt']
人文社科类
1
NltK自然语言处理包
网络和聊 天文本
webtext
就职演说
inaugural
古腾堡
gutenburg
路透社
reuters
其他语言 –
多国语言
布朗
brown
自定义的 语料库
NLTK 语料库
>>> import nltk >>> nltk.download()
古滕堡项目
Source
print(fd2.B()) print(fd2.N()) fd2.tabulate(20) fd2.plot(20)
Output: 4699 30266 the and to of i you a my it in that ham is not his this with your but for 993 863 685 610 574 527 511 502 419 400 377 337 328 300 285 276 254 253 249 245
美国总统就职演说
Output: [(u'1965-Johnson.txt', FreqDist({3: 355, 2: 301, 1: 256, 4: 255, 5: 138, 7: 133, 6: 127, 8: 68, 9: 45, 10: 30, ...})), (u'1997-Clinton.txt', FreqDist({3: 534, 2: 378, 4: 352, 1: 350, 5: 225, 6: 179, 7: 171, 8: 117, 9: 70, 10: 45, ...})), (u'2009-Obama.txt', FreqDist({3: 599, 2: 441, 4: 422, 1: 350, 5: 236, 6: 225, 7: 198, 8: 96, 9: 63, 10: 59, ...})), …
古滕堡项目
Source
>>> from nltk.corpus import gutenberg >>> allwords = gutenberg.words('shakespeare-hamlet.txt') >>> len(allwords) 37360 >>> len(set(allwords)) 5447 >>> all_words.count('Hamlet') 99 >>> A = set(allwords) >>> longwords = [w for w in A if len(w) > 12] >>> print(sorted(longwords))
人文社科类
理工类
专业定制
(基础应用) (高级应用) (学科应用)
A
B
C
3条路线
常用第三方库
• 科学计算生态系统SciPy(包括NumPy、SciPy、Matplotlib和pandas等) • Requests库 • BeautifulSoup库 • re模块 • NLTK自然语言处理包 • scikit-learn机器学习包 • wordcloud词云 • jieba分词 •…
Output: [u'Circumstances', u'Guildensterne', u'Incontinencie', u'Recognizances', u'Vnderstanding', u'determination', u'encompassement', u'entertainment', u'imperfections', u'indifferently', u'instrumentall', u'reconcilement', u'stubbornnesse', u'transformation', u'vnderstanding']
美国总统就职演说
File
# Filename: inaugural.py
from nltk.corpus import inaugural from nltk.probability import ConditionalFreqDist cfd = ConditionalFreqDist(
(fileid, len(w)) for fileid in inaugural.fileids() for w in inaugural.words(fileid) if fileid > '1950') print(cfd.items()) cfd.plot()
相关文档
最新文档