pythonjieba分词(添加停用词,用户字典取词频

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

pythonjieba分词(添加停⽤词,⽤户字典取词频中⽂分词⼀般使⽤jieba分词
1.安装
1 pip install jieba
2.⼤致了解jieba分词
包括jieba分词的3种模式
全模式
1import jieba
2
3 seg_list = jieba.cut("我来到北京清华⼤学", cut_all=True, HMM=False)
4print("Full Mode: " + "/ ".join(seg_list)) # 全模式
精准模式
1import jieba
2
3 seg_list = jieba.cut("我来到北京清华⼤学", cut_all=False, HMM=True)
4print("Default Mode: " + "/ ".join(seg_list)) # 精准模式
搜索引擎模式
1import jieba
2
3 seg_list = jieba.cut_for_search("⼩明硕⼠毕业于中国科学院计算所,后在⽇本京都⼤学深造", HMM=False) # 搜索引擎模式
4print(", ".join(seg_list))
2.解决问题
⼀般只调⽤分词的话会出现⼏个问题
⼀是会出现各种我们不需要的东西像
# [] () 的个些
这些东西都属于停⽤词都不必去获取这些东西
我们只需要把他剔除就可以了
停⽤词包括
1 http
2回复
3 !
4"
5#
6 $
7 %
8 &
9'
10 (
11 )
12 *
13 +
14 ,
15 -
16 --
17 .
18 ..
19 ...
20 ......
21 ...................
30 2
31 3
32 4
33 5
34 6
35 7
36 8
37 9
38 :
39 ://
40 ::
41 ;
42 <
43 =
44 >
45 >>
46 ?
47 @
48 A
49 Lex
50 [
51 \
52 ]
53 ^
54 _
55 `
56 exp
57 sub
58 sup
59 |
60 }
61 ~
62 ~~~~
63 ·
64 ×
65 ×××
66 Δ
67Ψ
68γ
69 µ
70φ
71φ.
72 В
73 —
74 ——
75 ———
76 ‘
77 ’
78 ’‘
79 “
80 ”
81 ”,
82 …
83 ……
84 …………………………………………………③ 85′∈
86′|
87℃
88Ⅲ
89↑
90→
91∈[
92∪φ∈
93≈
94①
95②
96②c
97③
98③]
99④
100⑤
101⑥
102⑦
103⑧
104⑨
105⑩
114《
115》
116》),
117」
118『
119』
120【
121】
122〔
123〕
124〕〔
125㈧
126⼀
127⼀.
128⼀⼀
129⼀下
130⼀个
131⼀些
132⼀何
133⼀切
134⼀则
135⼀则通过 136⼀天
137⼀定
138⼀⽅⾯
139⼀旦
140⼀时
141⼀来
142⼀样
143⼀次
144⼀⽚
145⼀番
146⼀直
147⼀致
148⼀般
149⼀起
150⼀转眼
151⼀边
152⼀⾯
153七
154万⼀
155三
156三天两头 157三番两次 158三番五次 159上
160上下
161上升
162上去
163上来
164上述
165上⾯
166下
167下列
168下去
169下来
170下⾯
171不
172不⼀
173不下
174不久
175不了
176不亦乐乎 177不仅
178不仅...⽽且 179不仅仅
180不仅仅是 181不会
182不但
183不但...⽽且 184不光
185不免
186不再
187不⼒
188不单
189不变
198不⼤
199不如
200不妨
201不定
202不对
203不少
204不尽
205不尽然 206不巧
207不已
208不常
209不得
210不得不 211不得了 212不得已 213不必
214不怎么 215不怕
216不惟
217不成
218不拘
219不择⼿段 220不敢
221不料
222不断
223不⽇
224不时
225不是
226不曾
227不⽌
228不⽌⼀次 229不⽐
230不消
231不满
232不然
233不然的话 234不特
235不独
236不由得 237不知不觉 238不管
239不管怎样 240不经意 241不胜
242不能
243不能不 244不⾄于 245不若
246不要
247不论
248不起
249不⾜
250不过
251不迭
252不问
253不限
254与
255与其
256与其说 257与否
258与此同时 259专门
260且
261且不说 262且说
263两者
264严格
265严重
266个
267个⼈
268个别
269中⼩
270中间
271丰富
272串⾏
273临
282为此
283为着
284主张
285主要
286举凡
287举⾏
288乃
289乃⾄
290乃⾄于 291么
292之
293之⼀
294之前
295之后
296之後
297之所以 298之类
299乌乎
300乎
301乒
302乘
303乘势
304乘机
305乘胜
306乘虚
307乘隙
308九
309也
310也好
311也就是说 312也是
313也罢
314了
315了解
316争取
317⼆
318⼆来
319⼆话不说 320⼆话没说 321于
322于是
323于是乎 324云云
325云尔
326互
327互相
328五
329些
330交⼝
331亦
332产⽣
333亲⼝
334亲⼿
335亲眼
336亲⾃
337亲⾝
338⼈
339⼈⼈
340⼈们
341⼈家
342⼈民
343什么
344什么样 345什麽
346仅
347仅仅
348今
349今后
350今天
351今年
352今後
353介于
354仍
355仍旧
356仍然
357从
366从头
367从宽
368从⼩
369从新
370从⽆到有 371从早到晚 372从未
373从来
374从此
375从此以后 376从⽽
377从轻
378从速
379从重
380他
381他⼈
382他们
383他是
384他的
385代替
386以
387以上
388以下
389以为
390以便
391以免
392以前
393以及
394以后
395以外
396以後
397以故
398以期
399以来
400以⾄
401以⾄于
402以致
403们
404任
405任何
406任凭
407任务
408企图
409伙同
410会
411伟⼤
412传
413传说
414传闻
415似乎
416似的
417但
418但凡
419但愿
420但是
421何
422何乐⽽不为 423何以
424何况
425何处
426何妨
427何尝
428何必
429何时
430何⽌
431何苦
432何须
433余外
434作为
435你
436你们
437你是
438你的
439使
440使得
441使⽤
450保持
451保管
452保险
453俺
454俺们
455倍加
456倍感
457倒不如 458倒不如说 459倒是
460倘
461倘使
462倘或
463倘然
464倘若
465借
466借以
467借此
468假使
469假如
470假若
471偏偏
472做到
473偶尔
474偶⽽
475傥然
476像
477⼉
478允许
479元/吨 480充其极 481充其量 482充分
483先不先 484先后
485先後
486先⽣
487光
488光是
489全体
490全⼒
491全年
492全然
493全⾝⼼ 494全部
495全都
496全⾯
497⼋
498⼋成
499公然
500六
501兮
502共
503共同
504共总
505关于
506其
507其⼀
508其中
509其⼆
510其他
511其余
512其后
513其它
514其实
515其次
516具体
517具体地说 518具体来说 519具体说来 520具有
521兼之
522内
523再
524再其次 525再则
534决定
535决⾮
536况且
537准备
538凑巧
539凝神
540⼏
541⼏乎
542⼏度
543⼏时
544⼏番
545⼏经
546凡
547凡是
548凭
549凭借
550出
551出于
552出去
553出来
554出现
555分别
556分头
557分期
558分期分批 559切
560切不可
561切切
562切勿
563切莫
564则
565则甚
566刚
567刚好
568刚巧
569刚才
570初
571别
572别⼈
573别处
574别是
575别的
576别管
577别说
578到
579到了⼉
580到处
581到头
582到头来
583到底
584到⽬前为⽌ 585前后
586前此
587前者
588前进
589前⾯
590加上
591加之
592加以
593加⼊
594加强
595动不动
596动辄
597勃然
598匆匆
599⼗分
600千
601千万
602千万千万 603半
604单
605单单
606单纯
607即
608即令
609即使
618却不
619历
620原来
621去
622⼜
623⼜及
624及
625及其
626及时
627及⾄
628双⽅
629反之
630反之亦然 631反之则 632反倒
633反倒是 634反应
635反⼿
636反映
637反⽽
638反过来 639反过来说 640取得
641取道
642受到
643变成
644古来
645另
646另⼀个 647另⼀⽅⾯ 648另外
649另悉
650另⽅⾯ 651另⾏
652只
653只当
654只怕
655只是
656只有
657只消
658只要
659只限
660叫
661叫做
662召开
663叮咚
664叮当
665可
666可以
667可好
668可是
669可能
670可见
671各
672各个
673各⼈
674各位
675各地
676各式
677各种
678各级
679各⾃
680合理
681同
682同⼀
683同时
684同样
685后
686后来
687后者
688后⾯
689向
690向使
691向着
692吓
693吗
702呕 703呗 704呜 705呜呼 706呢 707周围 708呵 709呵呵 710呸 711呼哧 712呼啦 713咋 714和 715咚 716咦 717咧 718咱 719咱们 720咳 721哇 722哈 723哈哈 724哉 725哎 726哎呀 727哎哟 728哗 729哗啦 730哟 731哦 732哩 733哪 734哪个 735哪些 736哪⼉ 737哪天 738哪年 739哪怕 740哪样 741哪边 742哪⾥ 743哼 744哼唷 745唉 746唯有 747啊 748啊呀 749啊哈 750啊哟 751啐 752啥 753啦 754啪达 755啷当 756喀 757喂 758喏 759喔唷 760喽 761嗡 762嗡嗡 763嗬 764嗯 765嗳 766嘎 767嘎嘎 768嘎登 769嘘 770嘛 771嘻 772嘿 773嘿嘿 774四 775因 776因为 777因了
786地
787均
788坚决
789坚持
790基于
791基本
792基本上 793处在
794处处
795处理
796复杂
797多
798多么
799多亏
800多多
801多多少少 802多多益善 803多少
804多年前 805多年来 806多数
807多次
808够瞧的 809⼤
810⼤不了 811⼤举
812⼤事
813⼤体
814⼤体上 815⼤凡
816⼤⼒
817⼤多
818⼤多数 819⼤⼤
820⼤家
821⼤张旗⿎ 822⼤批
823⼤抵
824⼤概
825⼤略
826⼤约
827⼤致
828⼤都
829⼤量
830⼤⾯⼉上 831失去
832奇
833奈
834奋勇
835她
836她们
837她是
838她的
839好
840好在
841好的
842好象
843如
844如上
845如上所述 846如下
847如今
848如何
849如其
850如前所述 851如同
852如常
853如是
854如期
855如果
856如次
857如此
858如此等等 859如若
860始⽽
861姑且
870它
871它们
872它们的 873它是
874它的
875安全
876完全
877完成
878定
879实现
880实际
881宣布
882容易
883密切
884对
885对于
886对应
887对待
888对⽅
889对⽐
890将
891将才
892将要
893将近
894⼩
895少数
896尔
897尔后
898尔尔
899尔等
900尚且
901尤其
902就
903就地
904就是
905就是了 906就是说 907就此
908就算
909就要
910尽
911尽可能 912尽如⼈意 913尽⼼尽⼒ 914尽⼼竭⼒ 915尽快
916尽早
917尽然
918尽管
919尽管如此 920尽量
921局外
922居然
923届时
924属于
925屡
926屡屡
927屡次
928屡次三番 929岂
930岂但
931岂⽌
932岂⾮
933川流不息 934左右
935巨⼤
936巩固
937差⼀点 938差不多 939⼰
940已
941已矣
942已经
943巴
944巴巴
945带
950常⾔说得好 951常⾔道
952平素
953年复⼀年 954并
955并不
956并不是
957并且
958并排
959并⽆
960并没
961并没有
962并肩
963并⾮
964⼴⼤
965⼴泛
966应当
967应⽤
968应该
969庶乎
970庶⼏
971开外
972开始
973开展
974引起
975弗
976弹指之间 977强烈
978强调
979归
980归根到底 981归根结底 982归齐
983当
984当下
985当中
986当⼉
987当前
988当即
989当⼝⼉
990当地
991当场
992当头
993当庭
994当时
995当然
996当真
997当着
998形成
999彻夜1000彻底1001彼
1002彼时1003彼此1004往
1005往往1006待
1007待到1008很
1009很多1010很少1011後来1012後⾯1013得
1014得了1015得出1016得到1017得天独厚1018得起1019⼼⾥1020必
1021必定1022必将1023必然1024必要1025必须1026快
1027快要1028忽地1029忽然
1038急匆匆
1039怪
1040怪不得
1041总之
1042总是
1043总的来看1044总的来说1045总的说来1046总结
1047总⽽⾔之1048恍然
1049恐怕
1050恰似
1051恰好
1052恰如
1053恰巧
1054恰恰
1055恰恰相反1056恰逢
1057您
1058您们
1059您是
1060惟其
1061惯常
1062意思
1063愤然
1064愿意
1065慢说
1066成为
1067成年
1068成年累⽉1069成⼼
1070我
1071我们
1072我是
1073我的
1074或
1075或则
1076或多或少1077或是
1078或⽈
1079或者
1080或许
1081战⽃
1082截然
1083截⾄
1084所
1085所以
1086所在
1087所幸
1088所有
1089所谓
1090才
1091才能
1092扑通
1093打
1094打从
1095打开天窗说亮话1096扩⼤
1097把
1098抑或
1099抽冷⼦
1100拦腰
1101拿
1102按
1103按时
1104按期
1105按照
1106按理
1107按说
1108挨个
1109挨家挨户1110挨次
1111挨着
1112挨门挨户1113挨门逐户
1122据说1123掌握1124接下来1125接着1126接著1127接连不断1128放量1129故1130故意1131故此1132故⽽1133敞开⼉1134敢1135敢于1136敢情1137数/ 1138整个1139断然1140⽅1141⽅便1142⽅才1143⽅能1144⽅⾯1145旁⼈1146⽆1147⽆宁1148⽆法1149⽆论1150既1151既...⼜1152既往1153既是1154既然1155⽇复⼀⽇1156⽇渐1157⽇益1158⽇臻1159⽇见1160时候1161昂然1162明显1163明确1164是1165是不是1166是以1167是否1168是的1169显然1170显著1171普通1172普遍1173暗中1174暗地⾥1175暗⾃1176更1177更为1178更加1179更进⼀步1180曾1181曾经1182替1183替代1184最1185最后1186最⼤1187最好1188最後1189最近1190最⾼1191有1192有些1193有关1194有利1195有⼒1196有及1197有所
1206朝1207朝着1208末##末1209本1210本⼈1211本地1212本着1213本⾝1214权时1215来1216来不及1217来得及1218来看1219来着1220来⾃1221来讲1222来说1223极1224极为1225极了1226极其1227极⼒1228极⼤1229极度1230极端1231构成1232果然1233果真1234某1235某个1236某些1237某某1238根据1239根本1240格外1241梆1242概1243次第1244欢迎1245欤1246正值1247正在1248正如1249正巧1250正常1251正是1252此1253此中1254此后1255此地1256此处1257此外1258此时1259此次1260此间1261殆1262⽏宁1263每1264每个1265每天1266每年1267每当1268每时每刻1269每每1270每逢1271⽐1272⽐及1273⽐如1274⽐如说1275⽐⽅1276⽐照1277⽐起1278⽐较1279毕竟1280毫不1281毫⽆
1290沿着1291注意1292活1293深⼊1294清楚1295满1296满⾜1297漫说1298焉1299然1300然则1301然后1302然後1303然⽽1304照1305照着1306牢牢1307特别是1308特殊1309特点1310犹且1311犹⾃1312独1313独⾃1314猛然1315猛然间1316率尔1317率然1318现代1319现在1320理应1321理当1322理该1323瑟瑟1324甚且1325甚么1326甚或1327甚⽽1328甚⾄1329甚⾄于1330⽤1331⽤来1332甫1333甭1334由1335由于1336由是1337由此1338由此可见1339略1340略为1341略加1342略微1343⽩1344⽩⽩1345的1346的确1347的话1348皆可1349⽬前1350直到1351直接1352相似1353相信1354相反1355相同1356相对1357相对⽽⾔1358相应1359相当1360相等1361省得1362看1363看上去1364看出1365看到
1374着1375着呢1376矣1377矣乎1378矣哉1379知道1380砰1381确定1382碰巧1383社会主义1384离1385种1386积极1387移动1388究竟1389穷年累⽉1390突出1391突然1392窃1393⽴1394⽴刻1395⽴即1396⽴地1397⽴时1398⽴马1399竟1400竟然1401竟⽽1402第1403第⼆1404等1405等到1406等等1407策略地1408简直1409简⽽⾔之1410简⾔之1411管1412类如1413粗1414精光1415紧接着1416累年1417累次1418纯1419纯粹1420纵1421纵令1422纵使1423纵然1424练习1425组成1426经1427经常1428经过1429结合1430结果1431给1432绝1433绝不1434绝对1435绝⾮1436绝顶1437继之1438继后1439继续1440继⽽1441维持1442综上所述1443缕缕1444罢了1445⽼1446⽼⼤1447⽼是1448⽼⽼实实1449考虑
1458⽽是1459⽽⾔1460⽽论1461联系1462联袂1463背地⾥1464背靠背1465能1466能否1467能够1468腾1469⾃1470⾃个⼉1471⾃从1472⾃各⼉1473⾃后1474⾃家1475⾃⼰1476⾃打1477⾃⾝1478臭1479⾄1480⾄于1481⾄今1482⾄若1483致1484般的1485良好1486若1487若夫1488若是1489若果1490若⾮1491范围1492莫1493莫不1494莫不然1495莫如1496莫若1497莫⾮1498获得1499藉以1500虽1501虽则1502虽然1503虽说1504蛮1505⾏为1506⾏动1507表明1508表⽰1509被1510要1511要不1512要不是1513要不然1514要么1515要是1516要求1517见1518规定1519觉得1520譬喻1521譬如1522认为1523认真1524认识1525让1526许多1527论1528论说1529设使1530设或1531设若1532诚如1533诚然
1542诸位1543诸如1544谁
1545谁⼈1546谁料1547谁知1548谨
1549豁然1550贼死1551赖以1552赶
1553赶快1554赶早不赶晚1555起
1556起先1557起初1558起头1559起来1560起见1561起⾸1562趁
1563趁便1564趁势1565趁早1566趁机1567趁热1568趁着1569越是1570距
1571跟
1572路经1573转动1574转变1575转贴1576轰然1577较
1578较为1579较之1580较⽐1581边
1582达到1583达旦1584迄
1585迅速1586过
1587过于1588过去1589过来1590运⽤1591近
1592近⼏年来1593近年来1594近来1595还
1596还是1597还有1598还要1599这
1600这⼀来1601这个1602这么1603这么些1604这么样1605这么点⼉1606这些1607这会⼉1608这⼉1609这就是说1610这时1611这样1612这次1613这点1614这种1615这般1616这边1617这⾥
1626连同1627连声1628连⽇1629连⽇来1630连袂1631连连1632迟早1633迫于1634适应1635适当1636适⽤1637逐步1638逐渐1639通常1640通过1641造成1642逢1643遇到1644遭到1645遵循1646遵照1647避免1648那1649那个1650那么1651那么些1652那么样1653那些1654那会⼉1655那⼉1656那时1657那末1658那样1659那般1660那边1661那⾥1662那麽1663部分1664都1665鄙⼈1666采取1667⾥⾯1668重⼤1669重新1670重要1671鉴于1672针对1673长期以来1674长此下去1675长线1676长话短说1677问题1678间或1679防⽌1680阿1681附近1682陈年1683限制1684陡然1685除1686除了1687除却1688除去1689除外1690除开1691除此1692除此之外1693除此以外1694除此⽽外1695除⾮1696随1697随后1698随时1699随着1700随著1701隔夜
1710需要1711⾮但1712⾮常1713⾮徒1714⾮得1715⾮特1716⾮独1717靠
1718顶多1719顷
1720顷刻1721顷刻之间1722顷刻间1723顺
1724顺着1725顿时1726颇
1727风⾬⽆阻1728饱
1729⾸先1730马上1731⾼低1732⾼兴1733默然1734默默地1735齐
1736︿1737!
1738#
1739$1740%
1741&1742'
1743(1744)1745)÷(1-1746)、1747*
1748+
1749+ξ
1750++1751,1752,也1753-
1754-β
1755--1756-[*]-1757.
1758/
17590
17600:217611
17621.176312%17642
17652.3%17663
17674
17685
17695:017706
17717
17728
177391774:1775;
1776<
1777<±
1778<Δ
1779<λ
1780<φ
1781<<1782=
1783=″
1784=☆1785=(
1794LI
1795R.L.1796ZXFITL1797[
1798[①①]1799[①②]1800[①③]1801[①④]1802[①⑤]1803[①⑥]1804[①⑦]1805[①⑧]1806[①⑨]1807[①A]1808[①B]1809[①C]1810[①D]1811[①E]1812[①]1813[①a]1814[①c]1815[①d]1816[①e]1817[①f]1818[①g]1819[①h]1820[①i]1821[①o]1822[②
1823[②①]1824[②②]1825[②③]1826[②④
1827[②⑤]1828[②⑥]1829[②⑦]1830[②⑧]1831[②⑩]1832[②B]1833[②G]1834[②]1835[②a]1836[②b]1837[②c]1838[②d]1839[②e]1840[②f]1841[②g]1842[②h]1843[②i]1844[②j]1845[③①]1846[③⑩]1847[③F]1848[③]1849[③a]1850[③b]1851[③c]1852[③d]1853[③e]1854[③g]1855[③h]1856[④]1857[④a]1858[④b]1859[④c]1860[④d]1861[④e]1862[⑤]1863[⑤]]1864[⑤a]1865[⑤b]1866[⑤d]1867[⑤e]1868[⑤f]1869[⑥]
1878]∧′=[
1879][
1880_
1881a]
1882b]
1883c]
1884e]
1885f]
1886ng昉
1887{
1888{-
1889|
1890}
1891}>
1892~
1893~±
1894~+
1895¥
View Code
⼆是分词不准确
像我现在在做微博的分词
有时迪丽热巴它会给我分成两个词⽽我需要的只是⼀个迪丽热巴这个姓名
如何分词准确呢
⾸推调⽤⽤户词典
⽤户词典实际上就是⼀个⽂本⽂档
⼀⾏有三个值(词语,词频,词性)后两个值是可以省略的
在调⽤jieba的时候将⽤户词典加载进去就可以了
具体实现
1# ! python3
2# -*- coding: utf-8 -*-
3# author : yunchao.zhang
4import jieba
5from collections import Counter
6
7
8# 创建停⽤词list
9def stopwordslist(filepath):
10 stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
11return stopwords
12
13
14# 对句⼦进⾏分词
15def seg_sentence(sentence):
16"""
17 need txt
18 :param sentence:
19 :return:
20"""
21 jieba.load_userdict('C:\\Users\EDZ\Desktop\FLSJ_FIRST\DICT\\user_dict.txt')
22 sentence_seged = jieba.cut(sentence.strip())
23 stopwords = stopwordslist('C:\\Users\EDZ\Desktop\FLSJ_FIRST\DICT\stopwords.txt') # 这⾥加载停⽤词的路径
24 outstr = []
25for word in sentence_seged:
26if word not in stopwords:
27if word != '\t':
28 outstr.append(word)
29return outstr
30
31
32# 对分词进⾏词频展⽰
33def word_frequency(line_seg):
39 c = Counter()
40for x in line_seg:
41if len(x) > 1 and x != '\r\n':
42 c[x] += 1
43for (k, v) in c.most_common():
44print('%s%s %d' % ('' * (5 - len(k)), k, v))
45
46
47 inputs = open('C:\\Users\EDZ\Desktop\福莱数据第⼀期\data\迪丽热巴.txt', 'r', encoding='utf-8')
48 lines = ""
49for line in inputs:
50 lines += line.replace("\n", "")
51 inputs.close()
52 line_seg = seg_sentence(lines) # 这⾥的返回值是列表
53 word_frequency(line_seg) # 取词频
View Code
OJBK !!。

相关文档
最新文档