第一届自然语言处理与中文计算会议PPT课件

合集下载

自然语言处理课件 chap_01

自然语言处理课件 chap_01
18
定义1-3: 语音学(phonetics) 研究人类发音特点,特别是语音发音特点,并 提出各种语音描述、分类和转写方法的科学。
包括: (1)发音语音学(articulatory phonetics),研究发 音器官如何产生语音; (2)声学语音学(acoustic phonetics),研究口耳 之间传递语音的物理属性; (3) 听觉语音学(auditory phonetics),研究人通 过耳、听觉神经和大脑对语音的知觉反应。
自然语言指人类社会发展过程中自然产生的语 言, 而不是人为编造的语言,如程序语言等。
自然语言理解初步
2018/9/19
1.2 基本概念
16
定义1-2: 语言学(linguistics) 语言学是指对语言的科学研究。
-戴维•克里斯特尔,《现代语言学词典》,1997
研究语言的本质、结构和发展规律的科学。
2018/9/19
1.2 基本概念
28
汉语已经不再只是中国人自己使用和 关注的语言,不管外国人喜欢她还是 讨厌她,但没有人敢藐视她!针对汉 语的处理技术早已成为国际学术界和 企业界共同关注的问题,汉英两大强 势语言的自动翻译问题则是人类语言 技术中最具挑战的研究课题。
自然语言理解初步
2018/9/19
自然语言理解初步
2018/9/19
5
2018/9/19
1.2 基本概念
21
关于图灵测试仍有争议
自然语言理解初步
2018/9/19
1.2 基本概念
22
定义1-5: 自然语言处理(NLP)
NLP为研究在人与人交际中以及在人与计算机 交际中的语言问题的一门学科。自然语言处理要 研制表示语言能力(linguistic competence)和语言 应用(linguistic performance)的模型,建立计算框 架来实现这样的语言模型,提出相应的方法来不 断地完善这样的语言模型,根据这样的语言模型 设计各种实用系统,并探讨这些实用系统的评测 技术。

第13章理解单元自然语言处理课件

第13章理解单元自然语言处理课件
有时候先说这样一个成份,后面说另外一个成份,但是,在另外一种语言中,这些语言 成分的顺序可能是完全相反的。
17
2 机器翻译发展历程
➢ 基于规则的翻译,翻译知识来自人类专家。
➢ 大约到了上世纪九十年代出现了基于统计的方法,我们称之为统计机器翻译。
➢ 神经网络翻译近年来迅速崛起。相比统计机器翻译而言,神经网络翻译从模型上来说相对简单,它
11.3 NLP常见任务
1
分词
2
词编码
3
自动文摘
4
实体及实体关系识别
5
文本分类
1 分词
➢ 由于中文不像英文那样词与词之间用空格隔开,计算机无法区分一个文本有哪 些词,所以要进行分词。
➢ 目前分词常用的方法有两种: ① 基于规则:Heuristic(启发式)、关键字表 ② 基于机器学习/统计方法:HMM(隐马尔科夫模型)、CRF(条件随机场)
9
2 词编码
➢ 把词转换成计算机能理解的方式,即词编码。 ➢ 现在普遍是将词表示为词向量,来作为机器学习的输入和表示空间。
One-hot表示
• 一个词用一个维度表示
bago个文档的向量
Bi-gram和N-gram(语言模型) • 考虑了词的顺序,用词组合表示一个词的向量
13.4.4 信息提取
信息提取(IE)的目标是将文本信息转化为结构化信息, 起初用于定位自然语言文档中的特定信息,属于自然语 言处理的一个子领域。 随着网页文本信息的急剧增长,越来越多的人投入到信 息提取(IE)领域的研究。
13.4.5 情感分析
文本情感分析:又称意见挖掘、倾向性分析等。简单 而言,是对带有情感色彩的主观性文本进行分析、处 理、归纳和推理的过程。
5

《自然语言处理》课件

《自然语言处理》课件
过拟合问题
模型在训练数据上表现良好,但在测试数据上表现不佳,这是因为模型过于复 杂并过度拟合训练数据。为了解决这个问题,可以采用正则化、早停法、集成 学习等技术。
语义理解的深度与广度问题
深度问题
目前自然语言处理模型主要关注词义和 句子的表面结构,难以理解更深入的语 义信息和语境。为了解决这个问题,需 要研究如何让模型更好地理解语境、把 握对话进程、理解比喻和隐喻等。
句法分析可以采用基于规则 的方法或基于统计的方法进 行。
基于规则的方法主要依靠人 工制定的规则进行句法分析 ,而基于统计的方法则通过 训练模型进行句法分析。
语义分析
01
语义分析是指对句子进行语义理解,识别句子中的 概念、实体、关系等语义信息。
02
语义分析是自然语言处理中的高级任务,需要结合 上下文信息和领域知识进行理解。
03
分词算法可以分为基于规则的方法和基于统计的方法两类。
04
基于规则的方法主要依靠人工制定的规则进行分词,而基于统计的方 法则通过训练模型进行分词。
词性标注
01 02 03 04
词性标注是指在分词的基础上,对每个词进行语义分类,确定其词性 。
词性标注是自然语言处理中的重要任务之一,有助于理解句子的结构 和语义。
06
自然语言处理前沿技术
预训练语言模型
预训练语言模型概述
预训练语言模型是一种深度学习模型,通过对大量文本数据的学 习,获得对语言的内在理解和生成能力。
代表性模型
如Transformer、BERT、GPT系列等,这些模型在自然语言处理任 务中表现出色,具有强大的语言生成和理解能力。
预训练语言模型的应用
VS
广度问题
自然语言处理模型在处理不同领域Байду номын сангаас不同 语言的文本时,表现往往不够稳定。为了 提高模型的泛化能力,需要研究如何让模 型更好地适应不同领域和语言的文本。

自然语言处理介绍课件

自然语言处理介绍课件

深度学习技术可以提高自然语言处 理的准确性和效率,降低人工成本。
深度学习技术可以处理大规模数据, 提高自然语言处理的性能。
深度学习技术可以应用于各种自然语 言处理任务,如文本生成、问答系统 等。
跨语言处理
跨语言翻译:实现不同语 言之间的自动翻译
跨语言信息检索:从多种 语言中检索相关信息
跨语言情感分析:分析不 同语言中的情感表达
演讲人
目录
01. 自然语言处理的概念 02. 自然语言处理的技术 03. 自然语言处理的挑战 04. 自然语言处理的未来发展
自然语言的定义
自然语言是人 类交流的主要 工具
01
自然语言处理 是指让计算机 理解、解释和 生成自然语言
03
02
自然语言具有 多样性和复杂 性
04
自然语言处理 是人工智能领 域的重要分支
场景进行专门处理
语言演化:语言随着 时间的推移不断演化, 需要不断更新处理模

歧义性
01
词语的多义性: 同一个词语在不 同语境下可能有
不同的含义
02
句子结构的复杂 性:句子结构复 杂,难以准确理
解其含义
03
语境依赖性:自 然语言理解需要 结合上下文才能
准确理解
04
语言多样性:不 同语言之间的差 异给自然语言处
02 句法分析的目的是理解句 子的结构和意义
03 句法分析的方法包括:基 于规则的句法分析、基于 统计的句法分析和基于深 度学习的句法分析
04 句法分析的应用包括:机 器翻译、信息检索、问答 系统等
语义分析
词义消歧:消除歧义,确定词义
语义角色标注:识别句子中词语 的语义角色
语义相似度计算:计算词语、句 子或文档之间的语义相似度

自然语言处理-课件1

自然语言处理-课件1


计算语言学(ComputationalLinguistics) 自然语言理解(NaturalLanguageUnderstanding) 人类语言技术(HumanLanguageTechnology)
6
自然语言处理是什么?

自然语言处理(natural language processing, NLP)

一个小作业 孙栩 一个小作业 中文系詹卫东教授 一个大作业 孙栩

NLP的语言学基础(6-7周)


NLP的具体应用(4-5周)

12
课程规划

1:NLP的概率统计基础(4-5周)

1.1: NLP的总体介绍

简要历史 研究目标,研究内容,难点 大体的方法、具体应用 概率、条件概率、贝叶斯法则 二项分布、期望、方差 最大似然估计、梯度下降方法、信息论基础 Ngram统计语言建模 数据稀疏问题 Zipf定律、平滑基础、回退方法


孙栩 信息学院,研究员 邮箱:xusun@ 电话:62753081-103 主页:/member/sunxu/index.htm

教师2(讲7次课)

詹卫东 中文系,教授 邮箱:zwd@ 主页:/doubtfire

当前目标


研制出具有一定人类语言能力的计算机文本或语音处理系 统 部分解决语言障碍问题 现实的商业和应用价值
31
自然语言处理的难点是什么?

表象原因:自然语言中有大量的歧义现象


无法象处理人工语言那样,写出一个完备的、有限的规则 系统来进行定义和描述。自然语言的规则很少没有例外 此外,还有大量的噪音甚至错误表达

应用语言学概论5自然语言处理精品PPT课件

应用语言学概论5自然语言处理精品PPT课件

二、任务和理论依据
• 任务:
A、数理语言学从数学领域得到的主要是思考问题的 思路和方法,而不是某种专门的结果,它把数学 模型和数学程序运用于语言学的研究,采用定量 化和形式化的描述方法,使得语言学和数学一样 精密,以便于计算机的操作,为计算机模拟人脑 和进行人工智能的研究开山辟道。
B、从语言的内部结构和语言的交际活动两方面进 行,也就是说把数理语言学的研究首先分为作为 符号 系统的语言的数学性质的研究和对作为交际 活动的过程及结果的言谈的数学性质的研究两个 部分。
数理语言学分支学科介绍
1、统计语言学 运用概率论、数理统计等数学的方法来作语
言成分的定量分析和动态描写,目的是要建立语 言统计模型,来解决传统语言学研究的定性和静 态研究的不足。
统计语言学根据不同的研究对象,又可分出 许多具体领域,如统计语音学、计算语言风格学 和年代统计学。统计语音学研究音素音位,计算 语言风格学通过统计研究某人、某一时代和某一 民族的言语风格。年代统计学根据时代的变化, 对词汇特征和句型等进行分析。
1985年上海知识出版社出版了冯志伟编著的数理语言学较为系统的阐述了数理语言学的理论知识包括该学科的重要定律和术语1997年北京语言文化大学出版社出版了方立编著的英文版的数理语言学这两本书成为我国目前研究数理语言学的集大成者此外在数理语言学领域研究取得较大成绩的还有白世云张世武孙锐欣盛金标等学者1985年上海知识出版社出版了冯志伟编著的数理语言学较为系统的阐述了数理语言学的理论知识包括该学科的重要定律和术语1997年北京语言文化大学出版社出版了方立编著的英文版的数理语言学这两本书成为我国目前研究数理语言学的集大成者
• 3,根据检索到的实例生成与源语言句子相对应的 译文。
• 例子: • 金山词霸:词库、释义库、音库

第三章自然语言的处理共152张PPT2024新版

第三章自然语言的处理共152张PPT2024新版

常用方法
基于规则的方法、基于词 典的方法、基于机器学习 的方法等。
词汇关系与语义网络
词汇关系
指词汇之间的语义关系, 如上下位关系、同义关系 、反义关系等。
语义网络
一种表达词汇之间复杂语 义关系的网络结构,有助 于理解词汇的深层含义和 语境。
常用方法
基于知识图谱的方法、基 于深度学习的方法、基于 语料库的方法等。
3
基于神经网络的机器翻译
使用深度学习技术,构建神经网络模型实现端到 端的翻译。
文本生成技术及应用
文本生成技术
包括基于模板、基于规则、基于统计 和基于深度学习的方法。
应用领域
自动摘要、对话系统、智能写作、自 动问答等。
多模态自然语言处理
多模态数据
包括文本、图像、音频、视频等多种类型的数据。
多模态自然语言处理技术
上下文感知
利用上下文信息来提高词义消歧和实体链接的准确性。例如,通过考虑句子或段落中的其 他词语和语境信息,可以更准确地确定一个词的含义或链接到正确的实体。
情感分析与观点挖掘
情感分析
识别和分析文本中的情感倾向,如积极、消极或中立。情感分析技术可以应用于产品评论、社交媒体帖子、 新闻报道等各种文本数据。
第三章自然语言的处理共152张 PPT
• 自然语言处理概述 • 词汇处理 • 句法分析 • 语义理解 • 信息抽取与知识图谱 • 机器翻译与文本生成 • 自然语言处理前沿技术
01
自然语言处理概述
自然语言处理定义
01
自然语言处理(NLP)是人工智 能领域的一个分支,旨在让计算 机理解和生成人类语言。
深度学习阶段
采用深度神经网络模型进行自然语 言处理,如循环神经网络、卷积神 经网络、Transformer等。

自然语言处理ppt课件

自然语言处理ppt课件
8
自然语言处理
分词 词性标注
9
自然语言处理
命名实体识别; 名词,词性标注,命名实体类别
10
自然语言处理
命名实体识别; 筛选出文本中的地名 名词,词性标注,命名实体类别(地名)
11
1
自然语言处理
1 jieba系统简介 "结巴"中文分词:做最好的Python中文分词组件。 特点: 支持三种分词模式 支持繁体分词 支持自定义词典 MIT授权协议 涉及算法: 基于前缀词典实现词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG), 采用动态规划查找最大概率路径,找出基于词频的最大切分组合; 对于未登录词,采用了基于汉字成词能力的 HMM模型,采用Viterbi算法进行计算;
sentences = LineSentence('wiki.zh.word.text')
model = Word2Vec(sentences, size=128, window=5, min_count=5, workers=4)
# 保存模型
model.save('word_embedding_128')
自然语言处理
工具:jieba分词 流程: 1将所有文本进行数据清洗,(词性标注)筛选出所有名词,并保存文件 2 爬取数据,制作景点/酒店名词的用户字典 3 根据2的用户字典对1中的名词进行筛选(词性标注)筛选出所有景点/酒店名词,并保存文件 4 在对3中保存文件进行keyword排序(关键词抽取),并保存文件
# 加载模型
model = Word2Vec.load("word_embedding_128")
# 使用模型
items = model.most_similar(u'中国')

自然语言处理课件PPT课件

自然语言处理课件PPT课件

02
基于统计的方法
利用语料库中的词性标注信息进行统计学习,建立词性标注模型。常见
的统计模型包括HMM、CRF等,其中CRF在词性标注任务中表现较好。
03
深度学习方法
通过神经网络模型对分词结果进行词性标注,可以自动学习文本中的特
征,并取得较好的性能。常见的深度学习模型包括RNN、CNN等,其
中基于RNN的模型在词性标注任务中表现较好。
对社交媒体上的文本进行情感分析,了解公众对某一事件或话题 的情感倾向。
08
机器翻译与自动摘要
机器翻译原理及实现
机器翻译定义
机器翻译原理
机器翻译实现方法
利用计算机技术将一种自然语言 文本自动翻译成另一种自然语言 文本的过程。
基于语言学、计算机科学和人工 智能等领域的技术,通过对源语 言文本进行词法、句法、语义等 分析,生成目标语言文本。
语音识别与合成
将人类语音转换为文本或将文 本转换为人类语音,实现语音 交互和语音合成。
02
基础知识与技术
语言学基础知识
词汇学
研究词汇的起源、发展、 变化和词汇的分类、构 成、意义等方面的知识。
句法学
研究句子中词语的排列 组合规律,以及句子成 分之间的关系和层次结
构。
语义学
研究语言符号与所指对 象之间的关系,以及语 言符号之间的意义联系
语言模型
了解基于统计和深度学习 的语言模型,如N-gram、 RNN、Transformer等, 以及语言模型在文本生成、 对话系统等领域的应用。
命名实体识别
熟悉命名实体识别的基本 概念和方法,包括基于规 则、统计和深度学习的方 法,以及命名实体识别在 信息抽取等领域的应用。
03

自然语言处理.pptx

自然语言处理.pptx
与NLP相近的两个研究领域:
自然语言理解(Natural Language Understanding, NLU):强调对语言含义和意图的深层次解释
计算语言学(Computational Linguistics, CL):强调 可计算的语言理论
NLP技术的典型应用
机器翻译 自动摘要 文本分类与信息过滤 信息检索 自动问答 信息抽取与文本挖掘 情感分析 ......
没有表示词的语法功能的附加成分,由词序和虚词表示词之间的 语法关系
如:汉语
黏着型语言
有词形变化 词的语法意义(功能)由附加成分表达 如:日语
屈折型语言
有词形变化 词的语法意义由词的形态变化来表示 如:英语
另外,还可以按SVO型(主-动-宾)、VSO型(动- 主-宾)和SOV 型(主-宾-动) 分类
资源(语料库)缺乏
自然语言处理所涉及的学科
语言学:各种语法、语义理论 计算机科学(包括人工智能、机器学习) 数学:逻辑、概率与统计、信息论等 哲学(认知学) 心理学 ......
基于规则的自然语言处理方法 (理性方法,传统方法)
概述
强调对语言知识的理性整理(知识工程) 受计算语言学理论指导 基于规则的知识表示和推导(符号计算) 语言处理规则(数据)与程序分离,程序体现为规
输出还原后的词及其属性,转4,否则,调用<未登录词模 块> 4. 如果输入中还有单词,转(1),否则,结束。
Proj. 1 实现一个英语单词还原工具。 (词典:
词性标注
参考书籍
宗成庆,统计自然语言处理,清华大学出版社,2008 刘群等译,自然语言理解(第二版),电子工业出版社,2005 苑春法等译,统计自然语言处理基础,电子工业出版社,2005 冯志伟等译,自然语言处理综论,电子工业出版社,2005 黄昌宁等,语料库语言学,商务印书馆,2002 冯志伟,计算语言学基础,商务印书馆,2001 余士文,计算语言学概论,商务印书馆,2003 姚天顺,自然语言理解--一种让机器懂得人类语言的研究(第

NLP自然语言处理 ppt课件

NLP自然语言处理  ppt课件

C(wn1wn ) C ( wn 1 )
N-gram:
P(wn
|
wn1 nN
1
)

C(wnn1N 1wn C(wnn1N 1)
)
• To have a consistent probabilistic model, append a unique start (<s>) and end (</s>) symbol to every sentence and treat these as additional words.
Stochastically pick the next word based on the conditional probability of each word given the previous N 1 words.
• Relative frequency estimates can be proven to be maximum likelihood estimates (MLE) since they maximize the probability that the model M will generate the training corpus T.
1
P(w1w2...wN )
• Measures the weighted average branching factor in predicting the next word (lower is better).
•PPT课件
13
Sample Perplexity Evaluation
• Models trained on 38 million words from the Wall Street Journal (WSJ) using a 19,979 word vocabulary.

自然语言处理汇报ppt

自然语言处理汇报ppt


在这个结构中,Alice和Bob被编码为名词,Saw是动词。动词saw 是句子的根, Alice是saw的主语,Bob是直接宾语(பைடு நூலகம்obj)。
未来的方向--Syntaxnet

SyntaxNet 将神经网络运用于歧义问题。一个输入句子被从左到右地处理。 当句子中的每个词被处理时,词与词之间的依存关系也会被逐步地添加进来。 由于歧义的存在,在处理过程的每个时间点上都存在多种可能的决策,而神 经网络会基于这些决策的合理性向这些彼此竞争的决策分配分数。出于这一 原因,在该模型中使用 Beam Search (集束搜索)就变得十分重要。不是直 接取每个时间点上的最优决定,而是在每一步都保留多个部分性假设。只有 当存在多个得分更高的假设的时候,一个假设才会被抛弃。下图将展示的, 是“I booked a ticket to Google”这句话经过从左到右的决策过程而产生 的简单句法分析。
特定领域问答系统问句相似度计算方法
汇报人:
问句相似度常见计算方法--词形相似度

词形相似度反映两个问句中词语在形态上的相似程度,用两个问句中含有的 共同词的个数来衡量。用wordSim(A,B)表示问句A和B的词形相似度
其中:same(A,B)表示A和B中共同词的个数,当一个单词在A、B中出现的次数不 同时,以出现次数少的计数;len(A)和len(B)分别表示A和B中词的个数。
需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,
插入一个字符,删除一个字符。
例如 “你好啊”与“你好”的编辑距离为1-1/3=0.667。
问句相似度常见计算方法--语义相似度

设两个问句 A 和 B,A 包含的词为 w11 , w12 ,…, w1n, B 包含
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

6
谢谢欣赏
2019-7-2
参评单位
34支队伍
包括全国重点高校与科研机构 观点句识别:53组 情感倾向判断:48组 情感对象抽取:22组
7
谢谢欣赏
2019-7-2
观点句识别
任务要求
识别每条微博中各个句子是观点句还是非观点句
评价标准
准确率、召回率、F值 微平均 宏平均
8
谢谢欣赏
评价标准
精确评价 宽松评价 准确率、召回率、F值
18
谢谢欣赏
2019-7-2
情感要素抽取
严格评价
微平均
19
谢谢欣赏
2019-7-2
情感要素抽取
严格评价
微平均
20
谢谢欣赏
2019-7-2
情感要素抽取
严格评价
宏平均
21
谢谢欣赏
2019-7-2
情感要素抽取
严格评价
宏平均
22
感谢聆听
不足之处请大家批评指导
Please Criticize And Guide The Shortcomings
演讲人:XXXXXX 时 间:XX年XX月XX日
对象本身不是情感表达:
”#官二代求爱不成将少女毁容# 这种畜生是怎么被教育出来的啊!!!!” -> “官二代”
人称代词需要尽可能在当前微博内进行指代消解:
“小明就读于北京大学,他是名优秀的学生。”->”小明“
抽取出句子中每个情感片段所对应的情感对象:
“你根本已经不是个人了,你比蛇还冷血,你比畜生还畜生。” -> “你” “你” “你”
13
谢谢欣赏
2019-7-2
情感倾向性判断
微平均
14
谢谢欣赏
2019-7-2
情感倾向性判断
微平均
15
谢谢欣赏
2019-7-2
情感倾向性判断
宏平均
16
谢谢欣赏
2019-7-2
情感倾向性判断
宏平均
17
谢谢欣赏
2019-7-2
情感要素抽取
任务要求
找出微博中每条观点句作者的评价对象 判断针对情感对象的观点极性
2019-7-2
数据集来自腾讯微博数据源自原始数据集20话题
主要是热门事件,如“三亚春节宰客”
约17500条微博 约32000个句子
3
谢谢欣赏
2019-7-2
数据集
数据标注
三标注者对同一数据标注
数据集大小
2023条微博 3416个句子 1209个非观点句 2207个观点句
407正面、1766负面、34其他
本次评测中微博观点句识别、倾向性分析的最好结果F 值接近于80%,情感要素抽取的最好结果精确评价F值 接近于30%,比预想的结果要好,但仍有较大的提升 空间
本次评测的标注数据可作为相关研究的科研数据,已免 费公开发布
标注规范和任务设置有待进一步的改进
27
谢谢欣赏
2019-7-2
28
谢谢欣赏
2019-7-2
致谢
感谢腾讯微博提供数据!
感谢北京大学、苏州大学、哈工大深圳研究生院的老师 和同学进行数据标注与测评!
感谢评测参与单位的支持和意见反馈!
29
谢谢欣赏
2019-7-2
结束语
当你尽了自己的最大努力时,失败也是伟大的, 所以不要放弃,坚持就是正确的。
When You Do Your Best, Failure Is Great, So Don'T Give Up, Stick To The End
5
谢谢欣赏
2019-7-2
数据集
标注标准
关于观点句情感对象
情感对象优先从当前句子抽取,但可以跨越当前句子从前面的句子或后面的 句子中抽取(前面的邻近句子优先)
情感对象尽可能完整和明确,事件按细粒度标注:
“ipad的屏幕很棒!”-> “ipad的屏幕” “官二代陶汝坤:作案动机极其卑劣”-> “作案动机”
第一届自然语言处理与中文计算会议
微博情感分析评测总结
xxxxxx
1北京大学计算机科学技术研究所 2苏州大学计算机科学与技术学院 3哈工大深圳研究生院计算机科学与技术学科部
1
谢谢欣赏
2019年4月21日
2019-7-2
任务设置
观点句识别
情感倾向性判断
针对观点句
情感要素抽取
针对观点句
2
谢谢欣赏
谢谢欣赏
2019-7-2
情感要素抽取
宽松评价
微平均
23
谢谢欣赏
2019-7-2
情感要素抽取
宽松评价
微平均
24
谢谢欣赏
2019-7-2
情感要素抽取
宽松评价
宏平均
25
谢谢欣赏
2019-7-2
情感要素抽取
宽松评价
宏平均
26
谢谢欣赏
2019-7-2
小结
微博情感分析相当具有挑战性
不同于产品评论数据,微博数据领域多样,话题广泛,表达自 由
2361个对象
441正面、1910负面、10其他
4
谢谢欣赏
2019-7-2
数据集
标注标准
关于观点句
个人意愿、心情不是观点句,如“我感到很高兴” 表达了明显观点的反问句属于观点句,如“体育竞技有不残酷的吗?”
关于观点句倾向性
正面、负面,其他(Other)三类,“其他”表示中性或无法确定正负的情况 不进行
2019-7-2
观点句识别
微平均
9
谢谢欣赏
2019-7-2
观点句识别
微平均
10
谢谢欣赏
2019-7-2
观点句识别
宏平均
11
谢谢欣赏
2019-7-2
观点句识别
宏平均
12
谢谢欣赏
2019-7-2
情感倾向性判断
任务要求
判断微博中每条观点句的情感倾向
正面、负面、其他
评价标准
准确率、召回率、F值 微平均 宏平均
相关文档
最新文档