在这篇文章中,你将学习到最常见的10个NL P任务,以及相关资源和代码。

对于处理NL P问题,我也研究了一段时日。

这期间我需要翻阅大量资料,通过研究报告,博客和同类NL P问题的赛事内容学习该领域的最新发展成果,并应对NL P处理时遇到的各类状况。

因此,我决定将这些资源集中起来,打造一个对N L P常见任务提供最新相关资源的一站式解决方案。





1.b e a u t i f u l和b e a u t i f u l l y的词干同为b e a u t i
2.G o o d,b e t t e r和b e s t的词干分别为g o o d,b e t t e r和b e s t。

相关论文:M a r t i n P o r t e r的波特词干算法原文
相关算法:在P yt h o n上可以使用P o r t e r2词干算法
(h t t p s://t a r t a r u s.o r g/m a r t i n/P o r t e r S t e m m e r/d e f.t xt)
程序实现:这里给出了在p yt h o n的s t e mm i n g库中使用
(https:///mchaput/stemming/src/5c242aa592a6 d4f0e9a0b2e1afdca4fd757b8e8a/stemming/ efault&fileviewer=file-view-default)
P o r t e r2算法做词干提取的代码:
#!pip install stemmingfrom stemming.porter2 import stem stem("casually")

还原过程考虑到了P O S问题,即词语在句中的语义,词语对相邻语句的语义等。

1.b e a u t i f u l和b e a u t i f u l l y被分别还原为b e a u t i f u l和b e a u t i f u l l y。

2.g o o d,b e t t e r和b e st被分别还原为g o o d,g o o d和g o o d


(h t t p://www.i j r a t.o r g/d o wn l o a d s/i c a t e st2015/I CA TE S T-2015127.p d f)

(h t t p s://a c a d e m i c.o u p.c om/ds h/a r t i c l e-a b s t r a c t/d o i/10.1093/l l c/f q w034/2669790/L e m m a t i za t i o n-f o r-v a r i a t i o n-r i c h-l a n g u a g e s-u s i n g)
数据集:这里是Tr e e b a n k-3数据集的链接,你可以使用它创建一个自己的词形还原工具。

(h t t p s://c a t a l o g.l d c.u p e n n.ed u/l d c99t42)
程序实现:下面给出了在s p a c y上的英语词形还原代码
#!pip install spacy
#python -m spacy download en
import spacy
doc="good better best"
for token in nlp(doc):




例如:“M a n”这个词语可以用一个五维向量表示。



(h t t p s://www.a n a l yt i c sv i d h ya.c o m/b l o g/2017/06/wo r d-e m b e d d i n g s-c o u n t-wo r d2v e e c/)


(h t t p s://www.a n a l yt i c sv i d h ya.c o m/b l o g/2017/10/e s s e n t i a l-n l p-g u i d e-d a t a-s c i e n t i s t s-t op-10-n l p-t a s k s/)

(h t t p s://r o n xi n.g i t h u b.i o/we v i/)
预训练词向量:这里有一份f a c e b o o k的预训练词向量列表,包含294种语言。

(h t t p s://g i t h u b.c o m/f a c e b o o kr e s e a r c h/f a s t Te xt/b l o b/m a ste r/p r e t r a i n e d-v e c t o r s.m d)
这里可以下载g o o g l e n e ws的预训练词向量。

(h t t p s://d r iv e.g o o g l e.c o m/f i l e/d/0B7Xk C wp I5K DY Nl NU TT l S S21p Q m M/e d i t)
#!pip install gensim
fromgensim.models.keyedvectors import KeyedVectors
程序实现:这段代码可以用g e n s i m训练你自己的词向量
model = gensim.models.Word2Vec(sentence, min_count=1,size=300,workers=4)

例如,对句子“A s h o k k i l l e d t h e s n a k e wi t h a s t i c k”,词性标注会识别:
A s h o k代词
k i l l e d动词
t h e限定词
s n a k e名词
wi t h连词
s t i c k名词
c h o i a p t l y的这篇《Th e L a s t G i s t t o t h e S t a t e-o f-t h e-A r t》介绍了一种叫动态特征归纳的新方法。



(h t t p s://t r a n s a c l.o r g/oj s/i n d e x.p h p/t a c l/a r t i c l e/v i e wFi l e/837/192)
程序实现:这段代码可以在s p a c y上做词性标注
#!pip install spacy
#!python -m spacy download en
sentence="Ashok killed the snake with a stick"
for token in nlp(sentence):

例如,对句子“A p p l e
e a r n e d a r e v e n u e o f200B i l li o n US D i n2016”,命名实体消岐会推断出句子中的A p p l e是苹果公司而不是指一种水果。


论文1:Hu a n g的这篇论文运用了基于深度神经网络和知识库的深层语义关联模型,在命名实体消岐上达到了领先水平。

(h t t p s://a r xi v.o r g/p d f/1504.07678.p d f)
论文2:G a n e a a n d Ho f m a n n的这篇文章运用了局部神经关注模型和词向量化,没有人为设置特征。

(h t t p s://a r xi v.o r g/p d f/1704.04920.p d f)

例如,一个NE R会将一个这样的句子:
“Ra m o f A p p l e I n c. t r av e l l e d t o S yd n e y o n5t h O c t o b e r2017”
Ra m
o f
A p p l e O RG
I n c.O RG
t r a v e l l e d
t o
S yd n e y G P E
o n
5t h DA TE
O c t o b e r DA TE
2017DA TE
这里,O RG代表机构组织名,G P E代表地名。

然而,当NE R被用在不同于该NE R被训练的数据领域时,即使是最先进的NE R也往往表现不佳。

论文:这篇优秀的论文使用双向L S TM(长短期记忆网络)神经网络结合监督学习和非监督学习方法,在4种语言领域实现了命名实体识别的最新成果。

(h t t p s://a r xi v.o r g/p d f/1603.01360.p d f)
程序实现:以下是如何使用s p a c y执行命名实体识别。

import spacy
nlp=spacy.load('en')sentence="Ram of Apple Inc. travelled to Sydney on 5th October 2017"
for token in nlp(sentence):
print(token, token.ent_type_)



从使用L S TM s和W o r d嵌入来计算一个句子中的正负词数开始,有很多方法都可以用来进行情感分析。

博文1:本文重点对电影推文进行情感分析(h t t p s://www.a n a l yt i c sv i d h ya.c o m/b l o g/2016/02/s t e p-s t e p-g u i d e-b u i l d i n g-s e n t i m e n t-a n a l ys i s-m o d e l-g r a p h l a b/)

(h t t p s://www.a n a l yt i c sv i d h ya.c o m/b l o g/2017/01/s e n t i m e nt-a n a l ys i s-o f-t wi t t e r-p o s t s-o n-c h e n n a i-f l o o d s-u s i n g-p yt h o n/)
论文1:本文采用朴素贝叶斯的监督学习方法对I M DB评论进行分类。

(h t t p s://a r xi v.o r g/p d f/1305.6143.p d f)
论文2:本文利用L DA的无监督学习方法来识别用户生成评论的观点和情感。


(h t t p://www.c s.c m u.e d u/~yo h a n j/r es e a r c h/p a p e r s/W S DM11.p d f)

(h t t p s://g i t h u b.c o m/xi a m x/a we s o m e-s e n t i m e n t-a n a l ys i s)
数据集1:多域情感数据集版本 2.0(h t t p://www.c s.j h u.e d u/~m d r e d ze/d a t a s e t s/s e n t i m en t/)
数据集2:T wi t t e r情感分析数据集(h t t p://www.s a n a n a l yt i c s.c om/l a b/t wi t t e r-s e n t i m e n t/)

(h t t p s://www.k a g g l e.c o m/c/se n t i m e n t-a n a l ys i s-o n-m o v i e-r e v i e ws)





(h t t p s://p d fs.s em a n t i cs ch o l a r.o r g/5b5c/a878c534a e e3882a038e f9e82f46e102131b.p d f)
论文2:本文介绍了用CN N神经网络去比对两个短文本。

(h t t p://c a s a.d i s i.u n i t n.i t/~m o s c h i t t/s i n c e2013/2015_S I G IR_S e v e r yn_L e a r n i n g Ra n k S h o r t.p d f)
论文3:本文利用Tr e e-L S TM s方法得到了文本的语义相关和语义分类的最新成果。

(h t t p s://n l p.s t a n f o r d.e d u/p u bs/t a i-s o c h e r-m a n n i n g-a c l2015.p d f)



博文:在这篇由f a s t Te xt撰写的博文中介绍了一种新的工具,其可以在1M B的内存使用情况下识别170种语言。

(h t t p s://f a st t e xt.c c/b l o g/2017/10/02/b l o g-p o s t.h tm l)

(h t t p://www.e p.l i u.s e/e c p/131/021/e c p1*******.p d f)

(h t t p s://r e p o s i t o r i o.u a m.e s/bi t s t r e a m/h a n d l e/10486/666848/a u t o m a t i c_l o p e z-m o r e n o_I CA S S P_20 14_p s.p d f?s e q u e n c e=1)



(h t t p s://a r xiv.o r g/p d f/1509.00685.p d f)论文2:本文描述了使用序列到序列的RNN在文本摘要中达到的最新结果。

(h t t p s://a r xi v.o r g/p d f/1602.06023.p d f)
资料库:G o o g l e B r a i n团队的这个资料库拥有使用为文本摘要定制的序列到序列模型的代码。

该模型在G i g a wo r d数据集上进行训练。

(h t t p s://g i t h u b.c o m/t e n s o r f l ow/m o d e l s/t r e e/m a s t e r/r e s e a rc h/t e xt s u m)
应用程序:Re d d i t的a u t o t l d r机器人使用文本摘要来梗概从文章到帖子的各种评论。

这个功能在Re d d i t用户中非常有名。

(h t t p s://www.r e d d i t.c o m/r/a ut o t ld r/c o mm e n t s/31b9fm/f a q_a u t o t l d r_b o t/)
程序实现:以下是如何用g e n s i m包快速实现文本摘要。

fromgensim.summarization import summarize
sentence="Automatic summarization is the process of shortening a text document with software, in order to create a summary with the major points of the original document. Technologies that can make a coherent summary take into account variables such as length, writing style and syntax.Automatic data summarization is part of machine learning and data mining. The main idea of summarization is to find a subset of data which contains the information of the entire set. Such techniques are widely used in industry today. Search engines are an example; others include summarization of documents, image collections and videos. Document summarization tries to create a representative summary or abstract of the entire document, by finding the most informative sentences, while in image summarization the system finds the most representative and important (i.e. salient) images. For surveillance videos, one might want to extract the important events from the uneventful context.There are two general approaches to automatic summarization: extraction and abstraction. Extractive methods work by selecting a subset of existing words, phrases, or sentences in the original text to form the summary. In contrast, abstractive methods build an internal semantic
representation and then use natural language generation techniques to create a summary that is closer to what a human might express. Such a summary might include verbal innovations. Research to date has focused primarily on extractive methods, which are appropriate for image collection summarization and video summarization."
