Text-CNN 文本分类
基于textcnn的公安诈骗案件警情分类
文本分类任务是自然语言处理领域的研究热点之一。顾名 思义,文本分类任务指的是对于文本集,按照规定的分类体系 和分类准则,进行自动归类的过程。将文本分类任务应用于警 情领域,对案件信息进行自动分类,可以有效减轻用户在将案 件归档时的工作量,节约人力成本。
1 相关工作 随着自然语言处理领域的研究的不断突破,文本分类的技
词袋模型和TF-IDF方法都是针对整个文本进行特征提取的 方法,这两种方法都会忽略次序信息。而在深度学习兴起后, 研究者们开始探究将每个词语向量化的方法。One-hot encoder 方法是将词语向量化的方法之一。这种方法是将所有的词语都 转化为只有一个位置为1,其他位置全部为0的向量。假设某种 语言一共有N个词语(已去停用词),那么将这N个词语按照某
在2006年,Hinton等提出逐层训练的思想[4],深度学
基于Albert_与TextCNN_的中文文本分类研究
第 22卷第 4期2023年 4月Vol.22 No.4Apr.2023软件导刊Software Guide基于Albert与TextCNN的中文文本分类研究李飞鸽,王芳,黄树成(江苏科技大学计算机学院,江苏镇江,212100)摘要:互联网数据众多,为高效管理互联网的海量中文文本数据,提出基于Albert与TextCNN的中文文本分类方法(ATT)。
该方法引入Albert模型解决一词多义问题,使用TF-IDF算法抽取当前文本数据中权重最高的5个词构建整个文档关键词表,将关键词表与Albert生成的词向量进行向量拼接,构成一个融合关键词信息的多义词向量。
并且,在传统TextCNN基础上根据中文语言特点调整卷积核窗口大小以提取文本数据的深层局部特征。
实验表明,ATT模型相较于未加入TF-IDF关键词表、未调整卷积核大小的传统模型,F1值分别提升1.88%和2.26%,为中文文本分类提供了一种新方法。
关键词:向量;文本特征提取;多标签;文本分类DOI:10.11907/rjdk.221591开放科学(资源服务)标识码(OSID):中图分类号:TP391.1 文献标识码:A文章编号:1672-7800(2023)004-0027-05Research on Chinese Text Classification Based on Albert and TextCNNLI Fei-ge, WANG Fang, HUANG Shu-cheng(School of Computer, Jiangsu University of Science and Technology, Zhenjiang 212100, China)Abstract:Due to the large amount of Internet data, in order to efficiently manage the massive Chinese text data on the Internet, a Chinese text classification method based on Albert and TextCNN (referred to as ATT) is proposed. This method introduces Albert model to solve the problem of polysemy. TF-IDF algorithm is used to extract the five words with the highest weight in the current text data to build the whole docu‐ment keyword table. The keyword table and the word vector generated by Albert are vector spliced to form a polysemy word vector that inte‐grates keyword information. Moreover, on the basis of traditional TextCNN, the window size of convolution kernel is adjusted according to the characteristics of Chinese language to extract the deep local features of text data. The experimental results show that the ATT model, compared with the traditional model without TF-IDF keyword list and without adjusting the size of convolution kernel, increases the F1 value by 1.88% and 2.26% respectively, providing a new method for Chinese text classification.Key Words:word vector; text feature extraction; multi-label; text classification0 引言在移动互联时代,文本数据呈现爆炸式增长。
中文文本分类大概的步骤
中⽂⽂本分类⼤概的步骤⽂本分类问题:给定⽂档p(可能含有标题t),将⽂档分类为n个类别中的⼀个或多个⽂本分类应⽤:常见的有垃圾邮件识别,情感分析⽂本分类⽅向:主要有⼆分类,多分类,多标签分类⽂本分类⽅法:传统机器学习⽅法(贝叶斯,svm等),深度学习⽅法(fastText,TextCNN等)⽂本分类的处理⼤致分为⽂本预处理、⽂本特征提取、分类模型构建等。
和英⽂⽂本处理分类相⽐,中⽂⽂本的预处理是关键技术。
⼀、中⽂分词:针对中⽂⽂本分类时,很关键的⼀个技术就是中⽂分词。
特征粒度为词粒度远远好于字粒度,其⼤部分分类算法不考虑词序信息,基于字粒度的损失了过多的n-gram信息。
下⾯简单总结⼀下中⽂分词技术:基于字符串匹配的分词⽅法、基于理解的分词⽅法和基于统计的分词⽅法。
具体可参考:中⽂分词原理及分词⼯具介绍https:///flysky1991/article/details/73948971/1,基于字符串匹配的分词⽅法:过程:这是⼀种基于词典的中⽂分词,核⼼是⾸先建⽴统⼀的词典表,当需要对⼀个句⼦进⾏分词时,⾸先将句⼦拆分成多个部分,将每⼀个部分与字典⼀⼀对应,如果该词语在词典中,分词成功,否则继续拆分匹配直到成功。
核⼼:字典,切分规则和匹配顺序是核⼼。
分析:优点是速度快,时间复杂度可以保持在O(n),实现简单,效果尚可;但对歧义和未登录词处理效果不佳。
2,基于理解的分词⽅法:基于理解的分词⽅法是通过让计算机模拟⼈对句⼦的理解,达到识别词的效果。
其基本思想就是在分词的同时进⾏句法、语义分析,利⽤句法信息和语义信息来处理歧义现象。
它通常包括三个部分:分词⼦系统、句法语义⼦系统、总控部分。
在总控部分的协调下,分词⼦系统可以获得有关词、句⼦等的句法和语义信息来对分词歧义进⾏判断,即它模拟了⼈对句⼦的理解过程。
这种分词⽅法需要使⽤⼤量的语⾔知识和信息。
由于汉语语⾔知识的笼统、复杂性,难以将各种语⾔信息组织成机器可直接读取的形式,因此⽬前基于理解的分词系统还处在试验阶段。
多标签分类(multi-labelclassification)综述
多标签分类(multi-labelclassification)综述意义⽹络新闻往往含有丰富的语义,⼀篇⽂章既可以属于“经济”也可以属于“⽂化”。
给⽹络新闻打多标签可以更好地反应⽂章的真实意义,⽅便⽇后的分类和使⽤。
难点(1)类标数量不确定,有些样本可能只有⼀个类标,有些样本的类标可能⾼达⼏⼗甚⾄上百个。
(2)类标之间相互依赖,例如包含蓝天类标的样本很⼤概率上包含⽩云,如何解决类标之间的依赖性问题也是⼀⼤难点。
(3)多标签的训练集⽐较难以获取。
⽅法⽬前有很多关于多标签的学习算法,依据解决问题的⾓度,这些算法可以分为两⼤类:⼀是基于问题转化的⽅法,⼆是基于算法适⽤的⽅法。
基于问题转化的⽅法是转化问题数据,使之使⽤现有算法;基于算法适⽤的⽅法是指针对某⼀特定的算法进⾏扩展,从⽽能够处理多标记数据,改进算法,适⽤数据。
基于问题转化的⽅法基于问题转化的⽅法中有的考虑标签之间的关联性,有的不考虑标签的关联性。
最简单的不考虑关联性的算法将多标签中的每⼀个标签当成是单标签,对每⼀个标签实施常见的分类算法。
具体⽽⾔,在传统机器学习的模型中对每⼀类标签做⼆分类,可以使⽤SVM、DT、Naïve Bayes、DT、Xgboost等算法;在深度学习中,对每⼀类训练⼀个⽂本分类模型(如:textCNN、textRNN等)。
考虑多标签的相关性时候可以将上⼀个输出的标签当成是下⼀个标签分类器的输⼊。
在传统机器学习模型中可以使⽤分类器链,在这种情况下,第⼀个分类器只在输⼊数据上进⾏训练,然后每个分类器都在输⼊空间和链上的所有之前的分类器上进⾏训练。
让我们试着通过⼀个例⼦来理解这个问题。
在下⾯给出的数据集⾥,我们将X作为输⼊空间,⽽Y作为标签。
在分类器链中,这个问题将被转换成4个不同的标签问题,就像下⾯所⽰。
黄⾊部分是输⼊空间,⽩⾊部分代表⽬标变量。
在深度学习中,于输出层加上⼀个时序模型,将每⼀时刻输⼊的数据序列中加⼊上⼀时刻输出的结果值。
利用CNN进行多分类的文档分类
利⽤CNN进⾏多分类的⽂档分类# coding: utf-8import tensorflow as tfclass TCNNConfig(object):"""CNN配置参数"""embedding_dim = 20 # 词向量维度seq_length = 100 # 序列长度num_classes = 73 # 类别数num_filters = 256 # 卷积核数⽬kernel_size = 5 # 卷积核尺⼨vocab_size = 5000 # 词汇表达⼩hidden_dim = 128 # 全连接层神经元dropout_keep_prob = 0.8 # dropout保留⽐例learning_rate = 0.001 # 学习率batch_size = 128 # 每批训练⼤⼩num_epochs = 5 # 总迭代轮次print_per_batch = 100 # 每多少轮输出⼀次结果save_per_batch = 10 # 每多少轮存⼊tensorboardclass TextCNN(object):"""⽂本分类,CNN模型"""def__init__(self, config):self.config = config# 三个待输⼊的数据self.input_x = tf.placeholder(tf.int32, [None, self.config.seq_length], name='input_x')self.input_y = tf.placeholder(tf.float32, [None, self.config.num_classes], name='input_y')self.keep_prob = tf.placeholder(tf.float32, name='keep_prob')n()def cnn(self):"""CNN模型"""# 词向量映射with tf.device('/cpu:0'):embedding = tf.get_variable('embedding', [self.config.vocab_size, self.config.embedding_dim])embedding_inputs = tf.nn.embedding_lookup(embedding, self.input_x)with _scope("cnn"):# CNN layerconv = yers.conv1d(embedding_inputs, self.config.num_filters, self.config.kernel_size, name='conv') # global max pooling layergmp = tf.reduce_max(conv, reduction_indices=[1], name='gmp')with _scope("score"):# 全连接层,后⾯接dropout以及relu激活fc = yers.dense(gmp, self.config.hidden_dim, name='fc1')fc = yers.dropout(fc, self.keep_prob)fc = tf.nn.relu(fc)# 分类器self.logits = yers.dense(fc, self.config.num_classes, name='fc2')self.y_pred_cls = tf.argmax(tf.nn.softmax(self.logits), 1) # 预测类别with _scope("optimize"):# 损失函数,交叉熵cross_entropy = tf.nn.softmax_cross_entropy_with_logits(logits=self.logits, labels=self.input_y)self.loss = tf.reduce_mean(cross_entropy)# 优化器self.optim = tf.train.AdamOptimizer(learning_rate=self.config.learning_rate).minimize(self.loss)with _scope("accuracy"):# 准确率correct_pred = tf.equal(tf.argmax(self.input_y, 1), self.y_pred_cls)self.acc = tf.reduce_mean(tf.cast(correct_pred, tf.float32))#!/usr/bin/python# -*- coding: utf-8 -*-from__future__import print_functionimport osimport sysimport timefrom datetime import timedeltaimport numpy as npimport tensorflow as tffrom sklearn import metricsfrom cnn_model import TCNNConfig, TextCNNfrom ews_loader import read_vocab, read_category, batch_iter, process_file, build_vocab base_dir = 'data/'train_dir = os.path.join(base_dir, 'train.txt')test_dir = os.path.join(base_dir, 'test.txt')val_dir = os.path.join(base_dir, 'test.txt')vocab_dir = os.path.join(base_dir, 'bbb.txt')save_dir = 'checkpoints/textcnn'save_path = os.path.join(save_dir, 'best_validation') # 最佳验证结果保存路径def get_time_dif(start_time):"""获取已使⽤时间"""end_time = time.time()time_dif = end_time - start_timereturn timedelta(seconds=int(round(time_dif)))def feed_data(x_batch, y_batch, keep_prob):feed_dict = {model.input_x: x_batch,model.input_y: y_batch,model.keep_prob: keep_prob}return feed_dictdef evaluate(sess, x_, y_):"""评估在某⼀数据上的准确率和损失"""data_len = len(x_)batch_eval = batch_iter(x_, y_, 128)total_loss = 0.0total_acc = 0.0for x_batch, y_batch in batch_eval:batch_len = len(x_batch)feed_dict = feed_data(x_batch, y_batch, 1.0)loss, acc = sess.run([model.loss, model.acc], feed_dict=feed_dict)total_loss += loss * batch_lentotal_acc += acc * batch_lenreturn total_loss / data_len, total_acc / data_lendef train():print("Configuring TensorBoard and Saver...")# 配置 Tensorboard,重新训练时,请将tensorboard⽂件夹删除,不然图会覆盖tensorboard_dir = 'tensorboard/textcnn'if not os.path.exists(tensorboard_dir):os.makedirs(tensorboard_dir)tf.summary.scalar("loss", model.loss)tf.summary.scalar("accuracy", model.acc)merged_summary = tf.summary.merge_all()writer = tf.summary.FileWriter(tensorboard_dir)# 配置 Saversaver = tf.train.Saver()if not os.path.exists(save_dir):os.makedirs(save_dir)print("Loading training and validation data...")# 载⼊训练集与验证集start_time = time.time()x_train, y_train = process_file(train_dir, word_to_id, cat_to_id, config.seq_length)x_val, y_val = process_file(val_dir, word_to_id, cat_to_id, config.seq_length)time_dif = get_time_dif(start_time)print("Time usage:", time_dif)# 创建sessionsession = tf.Session()session.run(tf.global_variables_initializer())writer.add_graph(session.graph)print('Training and evaluating...')start_time = time.time()total_batch = 0 # 总批次best_acc_val = 0.0 # 最佳验证集准确率last_improved = 0 # 记录上⼀次提升批次require_improvement = 1000 # 如果超过1000轮未提升,提前结束训练flag = Falsefor epoch in range(config.num_epochs):print('Epoch:', epoch + 1)batch_train = batch_iter(x_train, y_train, config.batch_size)for x_batch, y_batch in batch_train:feed_dict = feed_data(x_batch, y_batch, config.dropout_keep_prob)if total_batch % config.save_per_batch == 0:# 每多少轮次将训练结果写⼊tensorboard scalars = session.run(merged_summary, feed_dict=feed_dict)writer.add_summary(s, total_batch)if total_batch % config.print_per_batch == 0:# 每多少轮次输出在训练集和验证集上的性能feed_dict[model.keep_prob] = 1.0loss_train, acc_train = session.run([model.loss, model.acc], feed_dict=feed_dict)loss_val, acc_val = evaluate(session, x_val, y_val) # todoif acc_val > best_acc_val:# 保存最好结果best_acc_val = acc_vallast_improved = total_batchsaver.save(sess=session, save_path=save_path)improved_str = '*'else:improved_str = ''time_dif = get_time_dif(start_time)msg = 'Iter: {0:>6}, Train Loss: {1:>6.2}, Train Acc: {2:>7.2%},' \+ ' Val Loss: {3:>6.2}, Val Acc: {4:>7.2%}, Time: {5} {6}'print(msg.format(total_batch, loss_train, acc_train, loss_val, acc_val, time_dif, improved_str)) session.run(model.optim, feed_dict=feed_dict) # 运⾏优化total_batch += 1if total_batch - last_improved > require_improvement:# 验证集正确率长期不提升,提前结束训练print("No optimization for a long time, auto-stopping...")flag = Truebreak# 跳出循环if flag: # 同上breakdef test():print("Loading test data...")start_time = time.time()x_test, y_test = process_file(test_dir, word_to_id, cat_to_id, config.seq_length)session = tf.Session()session.run(tf.global_variables_initializer())saver = tf.train.Saver()saver.restore(sess=session, save_path=save_path) # 读取保存的模型print('Testing...')loss_test, acc_test = evaluate(session, x_test, y_test)msg = 'Test Loss: {0:>6.2}, Test Acc: {1:>7.2%}'print(msg.format(loss_test, acc_test))batch_size = 128data_len = len(x_test)num_batch = int((data_len - 1) / batch_size) + 1y_test_cls = np.argmax(y_test, 1)y_pred_cls = np.zeros(shape=len(x_test), dtype=np.int32) # 保存预测结果for i in range(num_batch): # 逐批次处理start_id = i * batch_sizeend_id = min((i + 1) * batch_size, data_len)feed_dict = {model.input_x: x_test[start_id:end_id],model.keep_prob: 1.0}y_pred_cls[start_id:end_id] = session.run(model.y_pred_cls, feed_dict=feed_dict)# 评估print("Precision, Recall and F1-Score...")print(metrics.classification_report(y_test_cls, y_pred_cls, target_names=categories))# 混淆矩阵print("Confusion Matrix...")cm = metrics.confusion_matrix(y_test_cls, y_pred_cls)print(cm)time_dif = get_time_dif(start_time)print("Time usage:", time_dif)if__name__ == '__main__':print('Configuring CNN model...')config = TCNNConfig()if not os.path.exists(vocab_dir): # 如果不存在词汇表,重建build_vocab(train_dir, vocab_dir, config.vocab_size)categories, cat_to_id = read_category()words, word_to_id = read_vocab(vocab_dir)config.vocab_size = len(words)model = TextCNN(config)# train()test()# coding: utf-8from__future__import print_functionimport osimport tensorflow as tfimport tensorflow.contrib.keras as krimport timefrom run_cnn import get_time_diffrom cnn_model import TCNNConfig, TextCNNfrom ews_loader import read_category, read_vocabbase_dir = 'data/'vocab_dir = os.path.join(base_dir, 'bbb.txt')save_dir = 'checkpoints/textcnn'save_path = os.path.join(save_dir, 'best_validation') # 最佳验证结果保存路径class CnnModel:def__init__(self):self.config = TCNNConfig()self.categories, self.cat_to_id = read_category()self.words, self.word_to_id = read_vocab(vocab_dir)self.config.vocab_size = len(self.words)self.model = TextCNN(self.config)self.session = tf.Session()self.session.run(tf.global_variables_initializer())saver = tf.train.Saver()saver.restore(sess=self.session, save_path=save_path) # 读取保存的模型def predict(self, message):# ⽀持不论在python2还是python3下训练的模型都可以在2或者3的环境下运⾏content = messagedata = [self.word_to_id[x] for x in content if x in self.word_to_id]feed_dict = {self.model.input_x: kr.preprocessing.sequence.pad_sequences([data], self.config.seq_length), self.model.keep_prob: 1.0}y_pred_cls = self.session.run(self.model.y_pred_cls, feed_dict=feed_dict)return self.categories[y_pred_cls[0]]if__name__ == '__main__':starttime = time.time()cnn_model = CnnModel()test_demo = [' 16-12-08 今年前11个⽉我国进出⼝总值21.83万亿元 ','16-12-08 英国知识产权局局长⼀⾏访问黄埔海关(图','16-12-08 厦门海关启动“互联⽹+⾃主报关”改⾰ ','16-12-08 江门海关“宪法⽇” 普法到⼀线(图)','16-12-08 27.5公⽄“萌萌哒”果实种⼦闯关被截获(图)','⼴州海关推动“主动披露” 体现执法“宽严相济”','16-12-07 胡伟在湛江出席全国沿海沿边地区基层反⾛私综合治理现场会(图)','16-12-07 锐意改⾰⾼效服务海关⼒助湛江书写蓝⾊经济梦想','16-12-07 红其拉甫海关查获毒品海洛因4.8千克(图)'] for i in test_demo:print(cnn_model.predict(i))print(get_time_dif(starttime))。
融合图卷积神经网络和BiGRU-TextCNN的罪名预测模型
融合图卷积神经网络和BiGRU-TextCNN的罪名预测模型*江操 安德智 马雪洁甘肃政法大学 甘肃 兰州 730000摘 要 随着人工智能的发展和司法信息化体系的构建,运用人工智能解决司法领域的需求成为近年来自然语言处理领域的研究热点。
为了提升深度学习模型在罪名预测任务上的准确率,本文设想利用将图卷积神经网络提取文本之间的结构特征与传统的深度学习模型相融合,捕获更多潜在信息。
因此本文提出了一种融合图卷积神经网络和BiGRU-TextCNN的罪名预测模型,实验结果表明在Cail2018数据集上对罪名预测问题有较好的效果。
关键词 人工智能;自然语言处理;图卷积神经网络;深度学习;罪名预测Charge Prediction Model Integrating Graph Convolutional Neural Network and BiGRU-TextCNNJiang Cao, An De-zhi, Ma Xue-jieGansu University of Political Science and Law, Lanzhou 730000, Gansu Province, ChinaAbstract With the development of artificial intelligence and the construction of judicial information system, the need of using artificial intelligence to solve the issues in judicial field has become a research hotspot in the field of natural language processing in recent years. In order to improve the accuracy of deep learning models in charge prediction tasks, this paper envisages the integration of structural features in extracted texts by graph convolutional neural networks with traditional deep learning models to capture more potential information. Therefore, this paper proposes a charge prediction model that integrates graph convolutional neural network and BiGRU-TextCNN, and the experimental results show a good effect on the charge prediction problem in Cail2018 dataset.Key words artificial intelligence; natural language processing; graph convolutional neural networks; deep learning; charge prediction引言随着人工智能的发展和司法信息化体系的构建,将人工智能引入到司法领域成为近年来研究热点。
文心一言 文本分类
文心一言文本分类全文共四篇示例,供读者参考第一篇示例:文心一言是一种古代汉语文学体裁,是一种短小的诗文形式,主要用来记录作者的情感、感慨或者观察,具有浓厚的文学氛围。
文心一言的形式简洁明了,通常由五言句或七言句组成,内容简明扼要,表达深远。
文心一言在中国文学史上具有重要的地位,被誉为一种精炼、富有哲理的文学形式。
在现代社会中,文心一言虽然已经不再被使用于正式文学创作之中,但是却得到了新的应用领域——文本分类。
文本分类是信息检索与文本挖掘领域的一个重要分支,它的主要目的是将大量的文本数据按照一定的规则分类和整理,以便更好地进行信息检索和分析。
在文本分类过程中,文心一言可以被应用于不同的文本主题,例如文学作品、新闻报道、评论文章等。
通过将文心一言与不同主题进行匹配,我们可以更好地识别文本数据的主题和内容,从而更好地进行文本分类。
第二篇示例:文心一言是中国传统文学名著之一,是中国古代文学理论家刘勰所着的文学评论著作。
其中包含了很多关于文学艺术的见解和评价,被誉为文学的瑰宝之一。
在当今信息爆炸的时代,我们要学会对海量文本进行分类,以方便人们阅读和搜索。
本文将探讨如何利用文心一言中的文学评价理论来进行文本分类。
文心一言中对文学作品进行评价的方法可以帮助我们对文本进行分类。
刘勰在文心一言中提出了“言志、言文、言辞、言技、言事、言理”等六大评价标准,这些标准可以帮助我们对文本进行细致的评判。
通过“言辞”可以评判文本的语言表达是否清晰流畅,通过“言理”可以判断文本的逻辑是否严谨,通过“言事”可以评判文本是否立意深刻等。
通过这些评价标准,我们可以更加科学地对文本进行分类,将其归类到不同的主题或类型之中。
文心一言中提到的文学风格和表现手法也可以帮助我们进行文本分类。
刘勰在文心一言中对文学作品的风格和表现手法进行了深入的分析和评价,比如“雄壮”、“严肃”、“幽婉”、“娇丽”等诸多评价词汇。
通过对文本的风格和表现手法进行分析,我们可以将其归类到对应的文学流派或类型之中,比如将一篇表现出幽婉风格的诗歌与其他幽婉风格的诗歌进行分类,以方便读者进行阅读。
人工智能自然语言技术练习(试卷编号181)
人工智能自然语言技术练习(试卷编号181)1.[单选题]以下是softmax函数的是()A)概率B)归一化C)损失函数D)空间答案:B解析:2.[单选题]关于距离空间其主要目的是A)求相关性B)构成线性空间C)度量后比较D)求信息熵答案:C解析:3.[单选题]语料库的加工方式不包括A)人工方式B)半自动方式C)自动方式D)干预方式答案:D解析:4.[单选题]如果对数据的特征做了归一化,会有什么优点A)提高复杂关系的拟合能力B)不确定C)训练数据归一化后,容易更快地通过梯度下降找 到最优解。
D)以上都正确答案:C解析:5.[单选题]常用的激活函数relu,下列对该激活函数描述正确的是?A)引用了无效的单元格地址B)过滤无效神经元C)不是激发函数D)将正数保留,将负数置06.[单选题]LSTM可以做特征提取,在以下的几个模型当中,哪个模型中使用到了A)bertB)GPTC)GPT-2D)ELMO答案:D解析:7.[单选题]集成学习是机器学习的重要组成部分,以下说法正确的是A)通过变量和因变量之间的一次函数关系构建的B)通过找到一个最优的超平面去完美的分类C)就是将多个机器学习模型组合起来,共同工作以达到优化算法的目的D)以上都正确答案:C解析:8.[单选题]在做传统NLP中的情感分析中,我们可以如何去思想这类人物A)使用机器学习的算法获取最终的情感B)使用深度学习的知识获取情感C)使用神经网络进行判断D)手工手机情感极性词典答案:D解析:9.[单选题]RNN和CNN下面说法正确的是A)RNN在处理长依赖序列问题的时候效果会比较好B)RNN属于卷积神经网络C)CNN在处理长序列问题会更好D)CNN又叫循环神经网络答案:A解析:10.[单选题]使用的TensorFlow中的一个方法进行数据的计算tf.subtract,最终会返回什么类型的数据A)TensorB)数组C)矢量D)范数答案:A11.[单选题]向量空间的别称是:A)线性空间B)内积空间C)赋范空间D)希尔伯特空间答案:A解析:12.[单选题]国标码用()个字节表示一个汉字,每个字节的ASCII码都大于()。
基于深度学习的垃圾邮件检测
Computer Science and Application 计算机科学与应用, 2023, 13(4), 764-772 Published Online April 2023 in Hans. https:///journal/csa https:///10.12677/csa.2023.134075基于深度学习的垃圾邮件检测俞荧妹,禹素萍,许武军,范 红东华大学信息科学与技术学院,上海收稿日期:2023年3月17日;录用日期:2023年4月14日;发布日期:2023年4月21日摘要邮件是日常生活中的一种通讯工具,但垃圾邮件对用户造成严重困扰,因此改进垃圾邮件识别技术、提升其准确率和效率具有重要现实意义。
在文本分类领域,深度学习有很好的应用效果。
故文章提出了一种基于CNN 的BiGRU-Attention 模型,旨在充分利用CNN 的特征提取能力和BiGRU 的全局特征提取能力。
引入注意力机制能够突出显示重要文本,前后共经过两层双向门控循环单元,从而更全面地提取邮件文本特征。
实验数据选取Trec06c 数据集,并与其他分类模型对比,结果表明,检测准确率达到91.56%。
关键词垃圾邮件,文本分类,深度学习,双向门控循环单元,注意力机制Spam Detection Based on Deep LearningYingmei Yu, Suping Yu, Wujun Xu, Hong FanCollege of Information Science and Technology, Donghua University, ShanghaiReceived: Mar. 17th , 2023; accepted: Apr. 14th , 2023; published: Apr. 21st, 2023AbstractEmail is a communication tool in daily life, but spam has caused serious problems for users, As a re-sult, it is crucial to improve spam identification technology and improve its accuracy and efficien-cy. In the field of text classification, deep learning has a good application effect. In order to fully util-ize CNN’s feature extraction capabilities and BiGRU’s global feature extraction capabilities, this ar-ticle suggests a CNN-based BiGRU-Attention model. The introduction of the attention mechanism can highlight important text, which passes through two layers of two-way gated loop units before and after, so as to extract more comprehensive features of email text. The experimental data is selected from Trec06c dataset and compared with other classification models. The results show that the de-tection accuracy reaches 91.56%.俞荧妹等KeywordsSpam, Text Classification, Deep Learning, BiGRU, Attention MechanismCopyright © 2023 by author(s) and Hans Publishers Inc.This work is licensed under the Creative Commons Attribution International License (CC BY 4.0)./licenses/by/4.0/1. 引言当今社会,互联网的快速发展使得电子邮件在人们的日常生活中发挥了很大的功能,既可以提高工作效率、节约成本,又可以促进人们之间的交流和沟通。
基于Text-CNN模型的中文文本分类实战
基于Text-CNN模型的中⽂⽂本分类实战Text-CNN1.⽂本分类转眼学⽣⽣涯就结束了,在家待就业期间正好有⼀段空闲期,可以对曾经感兴趣的⼀些知识点进⾏总结。
本⽂介绍NLP中⽂本分类任务中核⼼流程进⾏了系统的介绍,⽂末给出⼀个基于Text-CNN模型在搜狗新闻数据集上⼆分类的Demo。
⽂本分类是⾃然语⾔处理领域最活跃的研究⽅向之⼀,从样本数据的分类标签是否互斥上来说,可以分为⽂本多分类与⽂本多标签分类。
⽂本分类⽬前⽂本分类在⼯业界的应⽤场景⾮常普遍,从新闻的分类、商品评论信息的情感分类到微博信息打标签辅助推荐系统,了解⽂本分类技术是NLP初学者⽐较好的切⼊点,较简单且应⽤场景⾼频。
2.数据准备在机器学习领域有⼀句话:数据决定了模型最终的⾼度,不断优化的模型只不过是为了不断逼近这个⾼度⽽已。
⽂本分类作为⼀种有监督学习的任务,毫⽆疑问的需要⼀个可⽤于有监督学习的语料集(X,Y)。
本⽂中使⽤以下标记,X为特征,⽂本分类中即为⽂本序列,Y是标签,即⽂本的分类名称。
机器学习与传统编程技术的明显区别就是:机器学习是以数据为驱动的,传统的编程中,我们核⼼任务是⼈⼯设计分类规则(指令代码),然后实现输⼊特征X获得分类标签Y。
⽽在机器学习的⽅式中,我们⾸要的是获得⼀个⾼质量的、⼤数据量的有监督语料集(X,Y),然后机器学习的⽅式会⾃动的从已构建的数据集上归纳出(训练出)⼀套分类规则(分类模型),最后我们利⽤获得的分类规则来实现对未标记⽂本的分类。
机器学习VS传统编程换⾔之,传统的编程⽅式输⼊的是指令代码,⽽机器学习输⼊的是结构化数据。
因此,在机器学习任务中,数据的质量与数量对最终模型的预测结果好坏具有决定性的作⽤。
常⾔道:Garbage in, garbage out!在⽂本分类中,语料集(X,Y)的质量、数量决定了⽂本分类模型的分类效果。
语料集的质量:即数据集的特征X对应的标签Y是否标记的正确,⼀般在众包平台中会采⽤多⼈重复标记,然后基于投票的机制来控制语料集的标记质量。
一种基于改进textCNN模型的文本分类方法、装置及存储介质[发明专利]
(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号 (43)申请公布日 (21)申请号 201811572759.1(22)申请日 2018.12.21(71)申请人 厦门市美亚柏科信息股份有限公司地址 361000 福建省厦门市软件园二期观日路12号102-402单元(72)发明人 马涛 栾江霞 章正道 俞碧洪 徐晓文 (74)专利代理机构 厦门福贝知识产权代理事务所(普通合伙) 35235代理人 郝学江(51)Int.Cl.G06F 16/35(2019.01)G06N 3/04(2006.01)G06N 3/08(2006.01)(54)发明名称一种基于改进textCNN模型的文本分类方法、装置及存储介质(57)摘要本发明提供了一种基于改进textCNN模型的文本分类方法、装置及存储介质。
该方法包括:训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。
本发明通过对传统的textCNN 模型进行改进得到改进textCNN模型的文本分类算法,由于预训练了词嵌入层,使得训练阶段的训练时间和计算量大大减少;由于加深了卷积层的深度以及增加了批归一化层,使得分类准确率较大提高,更加适用于对样本实时性要求(即要根据新样本较频繁的更新模型)和分类准确率都要求较高的场景,如互联网舆情的文本分类等等。
权利要求书3页 说明书8页 附图4页CN 109918497 A 2019.06.21C N 109918497A1.一种基于改进textCNN模型的文本分类方法,其特征在于,该方法包括:训练步骤,使用样本文本对改进textCNN模型进行训练得到训练后的改进textCNN模型;文本分类步骤,使用训练后的改进textCNN模型对待分类的文本进行分类。
2.根据权利要求1所述的方法,其特征在于,所述改进textCNN模型包括输入层、词嵌入层、第一卷积模块、第二卷积模块、第三卷积模块、第四卷积模块、Concat层、Dropout层、带RELU激活函数的全连接层和分类器层,所述词嵌入层的输入与所述输入层的输出连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块并行处理,输入都与所述词嵌入层的输出相连接,所述第一卷积模块、第二卷积模块、第三卷积模块和第四卷积模块的输出都与所述Concat层的输入相连接,所述Concat层的输出与所述Dropout层相连接,所述Dropout层的输出与带RELU激活函数的全连接层的输入相连接,所述带RELU激活函数的全连接层的输出与所述分类器层的输入相连接。
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究
基于语义筛选的ALBERT-TextCNN中医文本多标签分类研究作者:刘勇杜建强罗计根李清于梦波郑奇民来源:《现代信息科技》2023年第19期摘要:针对中医领域中的大量未标注文本,以及传统多标签分类模型提取的文本语义信息不够完整等问题,提出一种用于中医文本的多标签分类模型语义筛选ALBERT-TextCNN。
首先进行特定领域任务自训练,将哮喘领域内属于多标签分类任务但未标注文本输入ALBERT 进行预训练任务;其次ALBERT多层的Transform对已标注数据分别进行动态向量化表示,基于语义筛选选取最佳编码层生成的高效文本向量;最后引入TextCNN建立多标签分类器,提取文本向量不同层次的语义信息特征。
在中医数据集上验证方法的有效性,实验结果表明,该模型的多标签分类精度有所提高,更适用于中医文本的分类预测。
关键词:多标签分类;中医文本;语义筛选;ALBERT;TextCNN中图分类号:TP391;TP18 文献标识码:A 文章编号:2096-4706(2023)19-0123-06Research on Multi-label Classification of TCM Texts Based on Semantic Filtering ALBERT-TextCNNLIU Yong1, DU Jianqiang1, LUO Jigen1, LI Qing2, YU Mengbo1, ZHENG Qimin1(1.College of Computer, Jiangxi University of Chinese Medicine, Nanchang 330004,China;2.Qihuang Chinese Medicine Academy, Jiangxi University of Chinese Medicine, Nanchang 330025, China)Abstract: The field of TCM contains a large amount of unlabeled texts, and the semantic information of texts extracted by traditional multi-label classification models is not complete. Aiming at this problem, a multi-label classification model for TCM texts based on semantic filtering ALBERT-TextCNN is proposed. Firstly, by the self-training task in a specific field, the unlabeled text in the asthma domain belonging to the multi-label classification task is input to the ALBERT model for the pre-training task. Secondly, ALBERT's multiple Transformer layers perform a dynamic vectorized representation of the annotated data separately, and select the best encoding layer to generate efficient text vectors based on semantic filtering. Finally, TextCNN is introduced to build multi-label classifiers to extract semantic information features of text vectors at different levels. The effectiveness of the method is validated on TCM datasets. The experimental results show that multi-label classification accuracy of the model is improved, and it is more suitable for classification and prediction in TCM texts.Keywords: multi-label classification; TCM text; semantic filtering; ALBERT; TextCNN0 引言随着时代发展,以现代科学技术的方法为依托,发展中医现代化的脚步日趋加快。
人工智能自然语言技术练习(习题卷32)
人工智能自然语言技术练习(习题卷32)第1部分:单项选择题,共43题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]人工智能起源于哪个年代?A)20世纪50年代B)20世纪60年代C)20世纪70年代D)20世纪80年代答案:A解析:2.[单选题]使用马尔科夫链的算法有:A)HMMB)SVMC)CRFD)MEMM答案:A解析:3.[单选题]tf.reshape()的用途是?A)相乘B)相加C)维度转化D)相减答案:C解析:4.[单选题]模型中参数过多,过于复杂可能会发生一下哪种情况A)正常拟合B)过拟合C)欠拟合D)不确定答案:B解析:5.[单选题]下边哪些模型不能将文本向量化A)word2vecB)bertC)ELMOD)DSSM答案:D解析:6.[单选题]L1正则化表示为A)A: 各个参数的平方和B)B: 是模型参数中非零参数的个数C)C: 各个参数绝对值之和D)D: 以上都不对答案:C解析:7.[单选题]下面使用深度学习做情感分析的说法错误的是哪个?( )A)情感分析是一个分类问题,不需要人工标注样本B)卷积神经网络也能提取文本的特征,实现文本情感的分类C)使用循环神经网络进行情感分析时,每个时刻的输入是句子中词的编码,最后一个时刻才有输出,即情感类别D)当检验样本与训练样本有比较大的差别时,即使使用深度学习的算法,分类效果往往也不理想答案:A解析:8.[单选题]隐马尔可夫模型的训练算法是A)前向后向算法B)Viterbi算法C)Baum-Welch算法D)DTW算法答案:C解析:9.[单选题]GPT的思想是什么A)遮蔽掉一定量的词B)预测下一句是否正确C)训练一个语言模型D)在没有标注的数据上进行网络学习,然后添加一层再去具体的任务上进行微调答案:D解析:10.[单选题]下列关于 jieba 词性标注的流程错误的是( )。
A)加载离线统计词典B)构建前缀词典C)构建无向无环图D)计算最大概率路径答案:C解析:11.[单选题]在图像的人脸识别中,深度学习有哪些应用,使用到的是哪个网络结构A)LeNET5B)(CNN:AlexNet)C)VGGD)ResNet答案:B解析:12.[单选题]tf.concat的作用?A)相加B)两个张量拼接C)相减D)求绝对值答案:B解析:13.[单选题]下列不属于AdaBoost算法的特点的是()A)每次迭代改变的是样本的分布(Reweight),而不是重复采样。
基于BERT-TextCNN模型的临床试验筛选短文本分类方法
杨飞洪,王序文,李 姣.基于BERT-TextCNN模型的临床试验筛选短文本分类方法[J].中华医学图书情报杂志,2021,30(1):54-59. DOI:10.3969/j.issn.1671-3982.2021.01.009㊃情报研究与方法㊃基于BERT-TextCNN模型的临床试验筛选短文本分类方法杨飞洪,王序文,李 姣[摘要]目的:设计一种基于深度学习的BERT-TextCNN模型,用于临床试验筛选短文本的自动化识别与分类㊂方法:调研文本分类的常见算法,从中国健康信息处理会议开发的临床试验中筛选短文本分类数据集,比较分析BERT-TextCNN模型㊁BERT模型和TextCNN模型的性能差异㊂结果:BERT-TextCNN模型的文本分类平均F1值为82.39%,相较于单纯使用BERT 模型和TextCNN模型进行文本分类的性能分别提升了1.81%和9.02%㊂结论:基于BERT-TextCNN模型的临床试验筛选短文本分类方法有效,为今后相关医学领域的研究和临床试验筛选短文文本自动化系统开发提供了一定的参考㊂[关键词]BERT模型;TextCNN模型;临床试验;筛选标准;短文文本分类[中图分类号]R319 [文献标志码]A [文章编号]1671-3982(2021)01-0054-06BERT-TextCNN-based classification of short texts from clinical trialsYANG Fei-hong,WANG Xu-wen,LI Jiao(Institute of Medical Information,Chinese Academy of Medical Sciences/Peking Union Medical College,Beijing 100020,China)Corresponding author:LI Jiao[Abstract]Objective To design a deep learning-based BERT-TextCNN model for automatic identification and classification of short texts from clinical trials.Methods The common algorithms for classification of texts were investigated.The classification data set of short texts was selected from the clinical trials developed in China health information processing conference.The performances of BERT-TextCNN model,BERT model and TextCNN model were compared and analyzed.Results The mean F1value of BERT-TextCNN model was82.39%,which was 1.81%and9.02%higher than that of BERT model and TextCNN model.Conclusion The effectiveness of BERT -TextCNN model for the classification of short texts from clinical trials can provide certain reference for the research in medical field and the development of automatic system for selecting short texts from clinical trials. [Key words]BERT model;TextCNN model;Clinical trial;Selection criteria;Classification of short texts[基金项目]中国医学科学院医学与健康科技创新工程 医学人工智能算法评价标准库构建”(2018-I2M-AI-016);中国医学科学院中央级公益性科研院所基本科研业务费 医学人工智能技术与人机交互关键问题研究”(2018PT33024)[作者单位]中国医学科学院/北京协和医学院医学信息研究所,北京 100020[作者简介]杨飞洪(1995-),男,贵州铜仁人,硕士研究生,研究方向为医学自然语言处理㊁图像识别与生成等㊂[通讯作者]李 姣(1981-),女,辽宁本溪人,博士,研究员,研究方向为医学信息学㊁医学数据挖掘㊁人工智能技术等㊂E-mail:li.jiao@ 临床试验是指任何需要人体(患者或健康志愿者,也称 受试者”)参与临床试验过程的科学研究,是研究人员开发新疗法及评估其有效性和安全性必不可少的过程[1]㊂筛选标准是鉴定受试者是否满足某项临床试验的主要指标,分为纳入标准和排除标准,多为无规则的自由文本形式㊂临床试验依据筛选标准招募符合条件的受试者㊂传统的临床试验受试者招募工作是繁琐的,招募者需要依据筛选标准人工逐个比对患者的电子病历或健康自愿者的体检报告,筛选符合条件的患者或健康自愿者参与临床试验㊂随着医疗信息化的发展,患者病历信息或健康自愿者体检信息的电子化为受试者招募的自动化提供了文本数据基础[2]㊂然而,患者或健康自愿者的数据信息过多,也带来了信息过载的问题㊂如何在浩瀚如烟的文本数据中找到有用的信息逐渐成为国内外学者的研究焦点㊂如有学者开发了一个动态问卷系统DQueST,该系统能够自动生成动态问卷用于筛选符合条件的受试者[3]㊂通过动态问卷生成技术,DQueST可以自动过滤掉60%~80%与临床试验的无关信息,较好地解决了信息过载的问题㊂针对以上问题,本文将临床试验文本筛选问题视为文本分类问题㊂临床试验筛选短文本分类是指利用自然语言处理算法自动识别临床试验筛选条件所属的类别,医疗实体分类是指利用自然语言处理算法自动识别临床文本中与医疗相关的词组并将其归类,二者的共同点是分类任务相同,区别在于前者是句子级别的分类任务而后者是词组级别的分类任务㊂本文设计了一种基于深度学习的BERT-TextCNN 融合模型,可以用于自动筛选临床试验需要的信息㊂1 相关研究如何利用计算机技术实现临床试验受试者招募的自动化,进一步降低临床试验的成本,受到学者的广泛关注㊂筛选短文本的自动识别是临床试验筛选自动化的基础㊂2018年美国临床自然语言处理挑战赛(National NLP Clinical Challenge,N2C2)开放了评测任务[4],旨在解决临床试验筛选文本的自动识别问题㊂各学者基于该数据集设计分类模型,在英文临床试验筛选短文本分类中取得了良好效果㊂N2C2的评测任务1是一个多标签多分类任务,包含 药物滥用” 酒精滥用”等13个类别㊂有学者构建了13个分类器,每个分类器分别对应1个文本类别[5]㊂所有的分类器都基于词袋模型对英文文本进行特征提取,然后利用规则与支持向量机(SVM)[6]融合的方式进行文本分类㊂该方法最终在测试集上取得了89.04%的平均F1值㊂还有学者基于混合模型的方案,利用模式识别㊁知识图谱以及权重特征提取等方法,在测试集上取得了90.75%的平均F1值[7]㊂有研究基于多层级规则的方法,在相同数据集上得到了90.28%的平均F1值[8]㊂有研究对比分析了基于规则的分类器与机器学习分类器如支持向量机[9],以及双向长短时记忆网络[10]等在2018N2C2数据集中的表现,发现基于规则的分类器表现最佳,平均F1值为91%㊂这些评测任务和技术方案虽然为后续研究提供了借鉴和参考,但多基于英文数据集,相关模型算法在中文数据集中的表现还需要进一步验证㊂除评测任务外,还有学者先使用基于规则的方法自动标注临床文本,再使用深度学习模型进行学习分类[11]㊂该方案较好地解决了临床文本类别分布不均的问题,可以扩充样本量较少的类别的样本数量,增强深度学习模型分类的准确性和鲁棒性㊂然而,他们仅在梅奥和i2b2数据集验证了支持向量机㊁随机森林和卷积神经网络等模型方法,未验证新兴算法如BERT模型的性能表现㊂有学者利用临床试验网站()的临床试验筛选标准数据开发了自动分类方法,以促进针对特定人群(如HIV感染者或孕妇)的 患者-临床”试验匹配[12]㊂然而,该分类器属于二元分类器,仅能分类出HIV感染者或孕妇,无法更加细粒度识别临床试验筛选条件所关注的其他细节,如 年龄” 既往病史”等㊂2 模型构建本文提出了一种BERT-TextCNN模型,用于临床试验筛选短文本分类(图1),其中卷积层㊁池化层㊁融合层和全连接层属于TextCNN模型结构(图2)㊂本模型将给定的语料经BERT模型训练后获取的语料向量化表示,接着通过设置不同大小的过滤器和相应的池化操作选择适用于文本分类的特征向量,使用全连接层将特征向量的维度转化为标签数量,最后使用Softmax操作获取预测的类别标签㊂如输入临床试验筛选的短文本为 年龄65岁”,经BERT-TextCNN模型处理后,预测标签为 年龄”㊂2.1 BERT模型BERT(Bidirectional Encoder Representation from Transformers),即基于Transformer的双向编码表示,是由Google AI Language发布的自然语言模型[13]㊂该模型基于遮掩语言模型(Masked Language Model, MLM)和句子上下文预测(Next Sentence Prediction,NSP)学习任务,在海量文本语料中自主学习文本字符级别和语义级别的表示特征,将学习到的表示特征应用于下游任务使其性能大幅提高㊂对于给定的文本语料,其输入表示由字向量㊁分割嵌入向量和位置嵌入向量求和组成,然后经过双向的Transformer 编码器获得对应的文本字向量输出㊂图1 基于BERT-TextCNN模型的临床试验筛选短文本分类流程图2 TextCNN模型2.2 TextCNN模型文本卷积神经网络(Text Convolutional NeuralNetwork,TextCNN)是卷积神经网络的变体模型,它通过设置不同过滤核的大小对文本序列中不同大小的局部特征进行提取,使提取到的特征向量具有多样性和代表性㊂如图2所示,TextCNN可分为卷积层㊁池化层㊁融合层和全连接层㊂本文中TextCNN模型包含卷积核大小为2㊁3㊁4的3个过滤器,这些过滤器将大小为3×3×1的节点矩阵转化为单位节点矩阵㊂假设以wi x,y表示输出单位节点矩阵中的第i个节点,过滤器输入节点(x,y)的权重,使用b i表示第i个输出节点的偏置项参数,那么单位矩阵中第i个节点的取值a(i)为:a(i)=f(∑3x=1 ∑3y=1c x,y×wi x,y+b i)公式(1)公式(1)中,c x,y为过滤器中节点(x,y)的取值, f为激活函数㊂所有a(i)组成的单位向量就是卷积层提取到的特征图,记作A,作为池化层的输入㊂池化层的汇合操作可以让模型更加关注某些特征而不是特征的具体位置,同时能够得到降维的效果,减少计算量和参数的个数,还能在一定程度上防止过拟合的发生㊂融合层将3个池化层所得的特征进行拼接,融合成一个对文本向量来说更具有代表性的向量㊂全连接层通过在融合层之后加入隐含层和最后的Softmax层充当一个分类器,对文本进行最终的分类㊂2.3 Softmax函数Softmax函数又称 归一化函数”,利用该函数可将模型学习到的各个类别标签的分值映射到0~1之间,并且所有类别标签的分数和为1㊂预测时,取Softmax函数处理后分值最大的标签,其计算公式为: S i=e i∑ni e i公式(2)3 数据与方法3.1 数据来源第五届中国健康信息处理会议(CHIP2019)[14]共享评测任务3(以下简称 Task3”)开放了中文临床试验筛选短文本数据集㊂其中训练集2万余条样本,验证集7600余条样本,测试集7600余条样本,样本句长在1~342字之间,平均句长为27字㊂样本示例如表1所示㊂数据集共包含44个标签类别,评测任务为给定一短文本,预测该文本所属的具体类别㊂表1 临床试验短文本数据示例标签 短文本年龄年龄小于65岁疾病有精神疾病患者地址本地户籍或常住人口3.2 对比方法与模型评估将提出的BERT-TextCNN融合模型与BERT㊁TextCNN两组模型进行对比,并通过准确率(preci⁃sion)㊁召回率(recall)和平均F1值3个指标对模型的整体性能进行评估㊂3个指标值均在0~1之间,结果越接近1,说明模型的性能越好㊂3个指标的计算公式如下:设数据集有n个类别(C1 Ci Cn)㊂P i=正确预测为C i的样本个数预测为C i的样本个数×100%公式(3)R i=正确预测为C i的样本个数真实的C i样本个数×100%公式(4)平均F1值=1n∑n12×P i×R iP i+R i×100%公式(5) 3.3 实验环境与模型参数实验环境由Linux Ubuntu-PowerEdge-C4140㊁Python语言平台㊁Pytorch深度学习框架及4个16GB的Tesla P100GPU和Intel(R)Xeon(R)Gold 6130CPU@2.10GHz处理器组成,实验环境达标且计算能力满足实验运算要求㊂具体的模型参数配置见表2㊂表2 3种模型的超参数设置模型批样本数量/个学习率过滤器尺寸过滤器数量/个序列长度/个BERT-TextCNN1285e-5(BERT),1e-4(TextCNN)2,3,41024*3128 BERT1285e-5--128 TextCNN1281e-42,3,41024*31284 实验结果与分析本文使用BERT-TextCNN㊁BERT㊁TextCNN3种不同的模型对临床试验筛选短文本数据集进行对比实验,实验测量了44种标签的平均精确率(P)㊁平均召回率(R)和平均F1值,以及3种模型的训练耗时(表3)㊂表3 3种模型在临床试验筛选短文本中的性能和训练耗时模型验证集P值R值F1值测试集P值R值F1值训练耗时/秒BERT0.81190.77810.78550.84500.79390.8058617 TextCNN0.75780.72820.72650.77910.73090.7337140 BERT-TextCNN0.82360.81730.81250.85050.81570.8239687 由表3可知,3种模型中BERT-TextCNN模型的整体性能最好,平均F1值为82.39%,训练耗时为687秒;BERT模型的参数量是TextCNN的10余倍,单模训练中TextCNN模型的训练收敛速度最快(只需140秒),而BERT模型则用时617秒㊂从表3可看出,BERT模型本身的性能较高,平均F1值为80.58%,与TextCNN模型融合后性能获得了1.81%的提升,同时只多耗费了70秒的训练时间㊂由此可知,将BERT-TextCNN模型融合的方法用于临床试验筛选短文本分类是有效的㊂如表4所示,BERT-TextCNN可以结合BERT 模型进行大规模语料预训练,获得完备的文本特征和TextCNN模型特征提取的优势,将 本地户籍或常住人口”正确预测为 地址”,将 气道狭窄”正确预测为 疾病”㊂在BERT模型和TextCNN模型均出现错误预测时,BERT-TextCNN依然能够预测正确,说明BERT-TextCNN模型融合产生了新的模型性能,并非仅是对BERT模型和TextCNN模型的取长补短㊂表4 3种模型的临床试验短文本分类结果样例 样本标签BERT TextCNN BERT-TextCNN 气道狭窄疾病×√√本地户籍或常住人口地址√×√正在参与其他上锻炼××√肢康复锻炼的患者本文的BERT模型性能比TextCNN模型性能高7.21%,说明BERT模型基于多头注意力机制可获取临床试验筛选短文本的全局语义信息,有助于分类性能的提升㊂得益于模型架构设计优势,TextCNN 模型更倾向于学习文本中词与词之间的局部信息㊂基于BERT模型和TextCNN模型的优点,本文构建的BERT-TextCNN模型既可利用BERT模型的全局学习能力,又可利用TextCNN模型的局部特征提取能力,由此获得了临床试验筛选短文本分类的最佳性能表现㊂5 结语本文构建的基于深度学习的BERT-TextCNN 模型,在第五届中国健康信息处理会议开发的临床试验筛选短文本分类数据集中的F1值为82.39%㊂相较于单纯使用BERT模型和TextCNN模型,其性能分别提升了1.81%和9.02%㊂实验验证了BERT-TextCNN模型融合方法用于临床试验筛选短文本分类的可行性和有效性,为今后相关医疗领域的研究和临床试验筛选自动化系统的开发提供了一定的参考㊂但本文获取的临床试验筛选文本数据集还不够全面,一定程度上影响了深度学习模型的性能㊂今后可扩大数据集,并依据数据集的特征设计出不同的语言模型,以获得更好的结果㊂【参考文献】[1] Hao B B,Yan S Y,Xia E Y,et al.Facilitating clinical trial recruit⁃ment by recommending cost-efficient medical exams[J].Studies in Health Technology and Informatics,2019,264:1470-1471.[2] Thadani S R,Weng C H,Bigger J T,et al.Electronic screening im⁃proves efficiency in clinical trial recruitment[J].Journal of the A⁃merican Medical Informatics Association,2009,16(6):869-873.[3] Liu C,Yuan C,Butler A M,et al.DQueST:dynamic questionnairefor search of clinical trials[J].Journal of the American Medical In⁃formatics Association,2019,26(11):1333-1343.[4] Stubbs A,Filannino M,Soysal E,et al.Cohort selection for clinicaltrials:N2c22018shared task track1[J].Journal of the American Medical Informatics Association,2019,26(11):1163-1171. [5] Spasic I,Krzeminski D,Corcoran P,et al.Cohortselection for clini⁃cal trials from longitudinal patient records:textmining approach [J].Journal of Medical Internet ResearchMedical Informatics.2019,7(4):e15980.[6] Cortes C,Vapnik V.Support-vector networks[J].Machine Learn⁃ing,1995,20(3):273-297.[7] Vydiswaran V G V,Strayhorn A,Zhao X Y,et al.Hybrid bag of ap⁃proaches to characterize selection criteria for cohort identification [J].Journal of the American Medical Informatics Association, 2019,26(11):1172-1180.[8] Chen L,Gu Y,Ji X,et al.Clinical trial cohort selection based onmulti-level rule-based natural language processing system[J].Journal of the American Medical Informatics Association,2019,26(11):1218-1226.[9] Oleynik M,Kugic A,Kasáˇc Z,et al.Evaluating shallow and deeplearning strategies for the2018n2c2shared task on clinical text classification[J].Journal of the American Medical Informatics As⁃sociation,2019,26(11):1247-1254.[10] Liu P F,Qiu X P,Huang X J.Recurrent neural network for textclassification with multi-task learning[EB/OL].[2020-11-06].https:///abs/1605.05101.[11] Wang Y S,Sohn S,Liu S J,et al.A clinical text classification par⁃adigm using weak supervision and deep representation[J].BMCMedical Informatics and Decision Making,2019,19(1):1-13.[12] Zhang K,Demner-Fushman D.Automated classification of eligi⁃bility criteria in clinical trials to facilitate patient-trial matchingfor specific patient populations[J].Journal of the American Med⁃ical Informatics Association,2017,24(4):781-787. [13] Devlin J,Chang M W,Lee K,et al.BERT:pre-training of deepbidirectional transformers for language understanding[EB/OL].[2020-11-06].https:///abs/1810.04805. [14] 第五届中国健康信息处理会议(CHIP2019).评测三:临床试验筛选标准短文本分类[EB/OL].[2020-11-06].http://:8088/evaluation.[收稿日期:2020-11-08][本文编辑:刘 娜]。
ERNIE-CNN文本分类模型
第44卷第1期2021年2月V ol.44No.1Feb.2021辽宁科技大学学报Journal of University of Science and Technology LiaoningERNIE-CNN文本分类模型齐佳琪,迟呈英,战学刚(辽宁科技大学计算机与软件工程学院,辽宁鞍山114051)摘要:基于word2vec和BERT词向量技术的方法在文本分类分词过程中存在着错误传播问题,提出了融合ERNIE词向量技术的卷积神经网络模型。
针对中文文本,运用ERNIE实体掩码的方式捕获词汇和语义信息,使用卷积神经网络进行特征提取。
在THUCNews开源数据集上,准确率达到93.95%,比Word2Vec-CNN高出3.4%,BERT-CNN高出3.07%。
实验结果证明了本文模型在缓解错误传播问题的有效性。
关键词:文本分类;ERNIE;词向量;卷积神经网络中图分类号:TP391.1文献标识码:A文章编号:1674-1048(2021)01-0056-06DOI:10.13988/tl.2021.01.009文本分类(Text classification),作为自然语言处理(Natural language processing,NLP)和机器学习(Machine learning)领域最受关注的应用之一,是处理海量信息的有力手段[1]。
它是指用电脑对文本集或实体按照一定的分类体系或标准进行自动分类标记[2]。
文本分类是一个监督式学习过程,需要一个给定的分类体系和一组带标签的文本,在此基础上建立文本特征和文本类别之间的关系模型,利用资源构造分类器,将待分类文本在不同的、事先定义的类别中进行类别判断。
根据文本不同,分类系统可以分为中文文本和英文文本。
英文文本可以根据空格进行切分,不需要另外的分词处理。
中文文本是一连串的汉字连接构成句子,基本语素是词而不是字,需要对其进行分词处理。
分词处理采用词向量技术实现。
基于LSTM-Attention与CNN混合模型的文本分类方法
运用textcnn的零售平台商品分类
TextCNN Model for Retail Platform Product Classification
Xu Xuejiao, Jiang Chao, Liu Yi
echarts 等技术进行可视化数据分析。为了方便用户对得到的 数据进行进一步处理,在前端提供了零售商品分类信息的批 量查询和导出商品分类信息,为了更好地查看商品分类信息, 提供了自定义图表,以便用户更好地了解零售商品分类信息。 另外,前后端访问时采用了 Zuul 网关服务和 jwt 认证技术。 系统架构图如图 1 所示。
2020 年第 1 期
信息与电脑 China Computer & Communication
运用 TextCNN 的零售平台商品分类
算法语言
徐雪娇 蒋 超 刘 义
(吉首大学,湖南 张家界 416000)
摘 要:笔者采用基于卷积神经网络的 TextCNN 模型,利用多尺寸卷积核的卷积神经网络进行数据特征提取,并对 其进行优化来提高零售商品分类准确率。通过爬取京东网站零售商品信息进行实验,并对比基于 TF-IDF 的传统机器学习 模型和使用广泛的 LSTM 模型,证明了 TextCNN 模型在商品信息分类上的优势。
基于此,本文实现了 TextCNN 模型对于零售商品进行 分类,随后进行了基于 TF-IDF 特征提取的传统机器学习模 型和广泛使用的 LSTM 模型的对比分析实验,证明 TextCNN 模型在准确率和 F1 值都有着较高的水平。
2 系统框架
2.1 系统架构
该系统首先利用爬虫技术从京东、淘宝等各大商品网 站爬取大量商品信息。经过一系列包括深度学习和自然语 言处理在内的智能化处理,将分类后的零售商品信息数据
针对直播弹幕的TextCNN过滤模型
预处理的目标是减少噪声的影响,虽然噪声符号也 可以作为词汇进行短文本卷积神经网络的训练,但是由 于噪声符号添加的多样性和训练样本数据的稀疏性,直 接通过预处理去掉这些噪声符号可以更好地应对各种 符号变换的噪声添加操作。预处理步骤通过 6 个处理 过程对输入的带噪短文本进行处理。处理的结果可以 直接用于 CNN 短文本过滤模型的训练或实时识别。
如图 2 所示,本文方法的预处理步骤包括:数字字 符标准化、英文字符标准化、繁体中文字符转简体中文 字符、特殊意义符号处理、去除夹杂噪声符号、连续数字 字符统一表示和字符串切分 6 个处理过程。
164 2021,57(3)
Computer Engineering and Applications 计算机工程与应用
明建华,等:针对直播弹幕的 TextCNN 过滤模型
2021,57(3) 163
词列表虽然是目前最为通用的方法,但其并不能满足实 际应用的需求。随着统计机器学习的发展,一些研发人 员采用统计机器学习方法实现短文本过滤。朴素贝叶 斯、支持向量机等方法都在短文本过滤方面取得不错成 绩[4],但是短文本的字符数量有限,该类方法无法充分利 用词语的上下文,因此,其识别准确率仍难以满足实际 应用的需求。
随着互联网技术的发展,人类社会逐渐步入了信息 时代。其中 4G 网络的普及催生了以直播为代表的各类 信息产业。直播开始融入到人们的生活当中[1],通过弹 幕实现用户与主播、用户与用户之间的互动更是成为一 种新型的网络社交方式。这种用户自由发表内容的方 式方便了信息的分享与交流,但是这种互联网发布方式 也极易被不法分子利用,发布一些非法广告信息。各种 虚假信息、垃圾信息、色情、暴力等不良短文本遍布在各 类直播弹幕中,其中色情广告在直播弹幕中最为盛行。 这类色情广告通过弹幕的方式将游客引导至色情网站 或者提供色情服务的微信、QQ 等社交网络账号上。为
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Text-CNN 文本分类1.简介TextCNN 是利用卷积神经网络对文本进行分类的算法,由Yoon Kim 在“Convolutional Neural Networks for Sentence Classification” 一文(见参考[1]) 中提出. 是2014年的算法.图1-1 参考[1] 中的论文配图图1-2 网络盗图合理性:深度学习模型在计算机视觉与语音识别方面取得了卓越的成就. 在NLP 也是可以的.卷积具有局部特征提取的功能, 所以可用CNN 来提取句子中类似n-gram 的关键信息.2.参数与超参数•sequence_lengthQ: 对于CNN, 输入与输出都是固定的,可每个句子长短不一, 怎么处理?A: 需要做定长处理, 比如定为n, 超过的截断, 不足的补0. 注意补充的0对后面的结果没有影响,因为后面的max-pooling只会输出最大值,补零的项会被过滤掉.•num_classes多分类, 分为几类.•vocabulary_size语料库的词典大小, 记为|D|.•embedding_size将词向量的维度, 由原始的|D| 降维到embedding_size.•filter_size_arr多个不同size的filter.3.Embedding Layer通过一个隐藏层, 将one-hot 编码的词投影到一个低维空间中.本质上是特征提取器,在指定维度中编码语义特征. 这样, 语义相近的词, 它们的欧氏距离或余弦距离也比较近.4.Convolution Layer为不同尺寸的filter 都建立一个卷积层. 所以会有多个feature map.图像是像素点组成的二维数据, 有时还会有RGB三个通道, 所以它们的卷积核至少是二维的.从某种程度上讲, word is to text as pixel is to image, 所以这个卷积核的size 与stride 会有些不一样.•x ix i∈R k, 一个长度为n的句子中, 第i 个词语的词向量, 维度为k.•x i:jx i:j=x i⊕x i+1⊕...⊕x j表示在长度为n的句子中, 第[i,j] 个词语的词向量的拼接.•h卷积核所围窗口中单词的个数, 卷积核的尺寸其实就是hk.•ww∈R hk, 卷积核的权重矩阵.•c ic i=f(w⋅x i:i+h−1+b), 卷积核在单词i位置上的输出. b∈R K, 是bias. f是双曲正切之类的激活函数.•c=[c1,c2,...,c n−h+1]filter在句中单词上进行所有可能的滑动, 得到的feature map.5.Max-Pooling Layermax-pooling只会输出最大值, 对输入中的补0 做过滤.6.SoftMax 分类Layer最后接一层全连接的softmax 层,输出每个类别的概率。
7.小的变种在word representation 处理上会有一些变种.•CNN-rand设计好embedding_size 这个Hyperparameter 后, 对不同单词的向量作随机初始化, 后续BP的时候作调整.•static拿pre-trained vectors from word2vec, FastText or GloVe 直接用, 训练过程中不再调整词向量. 这也算是迁移学习的一种思想.•non-staticpre-trained vectors + fine tuning , 即拿word2vec训练好的词向量初始化, 训练过程中再对它们微调.•multiple channel类比于图像中的RGB通道, 这里也可以用static 与non-static 搭两个通道来搞.一些结果表明,max-pooling 总是优于average-pooling ,理想的filter sizes 是重要的,但具体任务具体考量,而用不用正则化似乎在NLP任务中并没有很大的不同。
8. Text CNN 的tf实现参见[4], [6]. 挺详细的。
图8-1 Text CNN 网络中的卷积与池化结构需要注意的细节有:tf.nn.embedding_lookup() creates the actual embedding operation. The result of the embedding operation is a 3-dimensional tensor of shape [None, sequence_length, embedding_size].TensorFlow’s convolutional conv2d operation expects a 4-dimensional tensor with dimensions corresponding to batch, width, height and channel. The result of our embedding doesn’t contain the channel dimension, so we add it manually, leaving us with a layer of shape [None, sequence_length, embedding_size, 1].9. 与LeNet 作比较# LeNet5conv1_weights = tf.get_variable("weight",[CONV1_SIZE, CONV1_SIZE, NUM_CHANNELS, CONV1_DEEP],initializer=tf.truncated_normal_initializer(stddev=0.1))tf.nn.conv2d(input_tensor,conv1_weights,strides=[1, 1, 1, 1],padding='SAME')tf.nn.max_pool(relu1,ksize = [1,POOL1_SIZE,POOL1_SIZE,1],strides=[1,POOL1_SIZE,POOL1_SIZE,1],padding="SAME")#TextCNNconv1_weights = tf.get_variable("weight",[FILTER_SIZE, EMBEDDING_SIZE, 1, NUM_FILTERS],initializer=tf.truncated_normal_initializer(stddev=0.1))tf.nn.conv2d(self.embedded_chars_expanded,conv1_weights,strides=[1, 1, 1, 1],padding="VALID")tf.nn.max_pool(h,ksize=[1, SEQUENCE_LENGTH - FILTER_SIZE + 1, 1, 1],strides=[1, 1, 1, 1],padding='VALID')先来比较卷积Lenet是正方形的, 且每一层都只用了同一种尺寸的卷积核.Text中, filter是矩形, 长度有好几种, 一般取(2,3,4), 而宽度是定长的, 同word的embedding_size 相同. 每种尺寸都配有NUM_FILTERS 个数目, 类比于Lenet中的output_depth. 所以得到的featuremap是长条状, 宽度为1.因为是卷积, 所以stride每个维度都是1.再说池化层.Lenet的kernel是正方形, 一般也是2*2等, 所以会把卷积后的featurmap尺寸缩小一半. TextCNN依旧是长方形, 将整个featuremap映射到一个点上. 一步到位, 只有一个池化层.全连接层都是多分类, 这一步的处理比较类似. 将池化后的矩阵reshape为二维, 用tf.nn.sparse_softmax_cross_entropy_with_logits() 计算损失.10. TextCNN 论文中的网络结构windows size 分别取(3,4,5), 每个尺寸都会有100个filter.3.1 Hyperparameters and TrainingFor all datasets we use: rectified linear units, filterwindows (h) of 3, 4, 5 with 100 feature maps each,dropout rate (p) of 0.5, l2 constraint (s) of 3, andmini-batch size of 50. These values were chosenvia a grid search on the SST-2 dev set.参考Tensorflow版TextCNN主要代码解析上一篇转载了一些大规模文本分类的方法,其中就有TextCNN,这篇博客就主要解析一下Tensorflow版TextCNN的主要代码。
1.import tensorflow as tf2.import numpy as np3.4.5.class TextCNN(object):6."""7. A CNN for text classification.8. Uses an embedding layer, followed by a convolutional, max-pooling and softmax layer.9. """10.def __init__(11. self, sequence_length, num_classes, vocab_size,12. embedding_size, filter_sizes, num_filters, l2_reg_lambda=0.0):首先导入了tensorflow与numpy包,然后代码主要是建立一个可复用的TextCNN类,类的初始化参数sequence_length:CNN需要固定输入与输出,所以每个句子的输入都是定长*词向量长度,定长一般设为最大句子长度,如果输入的句子词数没到定长就补充零,补充的零对后面的结果没有影响,因为后面的max-pooling只会输出最大值,补零的项会被过滤掉num_classes:输出的文本类别总数也就是文本中有几个类别vocab_size:字典大小,在之前的文本预处理阶段需要对文本进行分词与对单词进行编号,在训练的时候也是输入单词的id然后再词向量化,字典大小用通俗的话来说就是文本中出现了多少个词embedding_size:嵌入长度,指的是词向量长度也就是用一个多大维的向量来表示词语,一般来说根据文本的规模定词向量的维度大小,样本数太少时使用较大维的词向量会造成难以收敛与容易过拟合的问题,有的TextCNN在这里会有一些区别,有的会采用固定的word2vec、fasttext、glove预先训练好的词向量filter_sizes:卷积核大小的List,TextCNN里面的卷积和大小其实对应了传统NLP的n元语法的概念,这里的卷积核都是filter_size*embedding_size,其实就是filter_size个词作为一个整体来考虑,也可以理解为中文中有的词是一个字有的词是两个字,在不同卷积核的情况下对应数量字数的词会表现出更好的效果num_filters:每个卷积核大小对应的卷积核个数,这里为了偷了一点懒,将不同大小卷积核的数量都设为一个常量l2_reg_lambda:这个就是L2正则的权值,就不多解释了[python]view plain copy1.# Placeholders for input, output and dropout2. self.input_x = tf.placeholder(tf.int32, [None, sequence_length], name="input_x")3. self.input_y = tf.placeholder(tf.float32, [None, num_classes], name="input_y")4. self.dropout_keep_prob = tf.placeholder(tf.float32, name="dropout_keep_prob")5.6.# Keeping track of l2 regularization loss (optional)7. l2_loss = tf.constant(0.0)定义了输入与输出、dropout比例的占位符,设立了一个常量记录L2正则损失,每当出现新的变量时就会用变量的L2正则损失乘上L2正则损失权值加入到这个l2_loss里面来。