Latent Semantic Indexing Based on Factor Analysis
个性化推荐技术综述
p (c j | d )
p ( d | c j ) p (c j ) p(d ) c j中的文档数
其中, p ( d )
p(d | c ) p(c ) , p(c ) 文档集中全部文档数
j 1 j j j
n
假定文档的所有特征都独立出现,则 p ( d | c j ) 可以表示为文档所有特征条件概率的乘积:
[5]
1.4 潜在语义索引
潜在语义索引(LSI)是一种概念检索方法,通过分析大量的文本集,自动生成关键字-概 念,文档-概念之间的映射规则。该方法试图解决单纯词形匹配方法中的同义词和多义词问题, 应用该方法对英文文献进行检索的查准率比传统的词形匹配算法高出 10%-30% 表达了索引项与文档之间的潜在主义关系。
1.1 基于向量空间模型的的推荐
基于向量空间模型的推荐是基于内容推荐的最常用的方法。 该方法将用户描述文件及项目表 示成一个 n 维特征向量 {(t , , w1 ), (t 2 , w2 ),...(t n , wn )} 。向量的每一维由一个关键词及其权重组 成。权重可取布尔型和实数值,分别表示了用户是否对某个概念感兴趣及感兴趣的程度 。关键 词根据推荐项目的不同可以是项目不同的属性值, 对文本项目来说, 关键词就是从文档中抽取的 单词,权重可以通过 TF-IDF 技术计算得到。对目标用户进行推荐时,将用户描述文件看成目标 项目,可采用多种方式(如欧氏距离、余弦相似性、相关相似性等)计算其它项目与目标项目的 相似性,按相似性从大到小的顺序将项目输出给用户。
Keywords 中的每一个特征词 ai ,nk 表示该词语在所有属于该类别的训练项目中的次数,则条
件概率 p ( ai |c j ) 可以通过下式来计算:
信息检索关键词部分
信息检索关键词部分Key word第1章信息检索(Information Retrieval, IR)数据检索(data retrieval)相关性(relevance)推送(Push)超空间(hyperspace)拉出(pulling)⽂献逻辑表⽰(视图)(logical view of the document)检索任务(retrieval task 检索(retrieval )过滤(filtering)全⽂本(full text)词⼲提取(stemming)⽂本操作(text operation)标引词(indexing term)信息检索策略(retrieval strategy)光学字符识别(Optical Character Recognition, OCR)跨语⾔(cross-language)倒排⽂档(inverted file)检出⽂献(retrieved document)相关度(likelihood)信息检索的⼈机交互界⾯(human-computer interaction, HCI)检索模型与评价(Retrieval Model & Evaluation)⽂本图像(textual images)界⾯与可视化(Interface & Visualization)书⽬系统(bibliographic system)多媒体建模与检索(Multimedia Modeling & Searching)数字图书馆(Digital Library)检索评价(retrieval evaluation)标准通⽤标记语⾔(Standard Generalized Markup Language, SGML)标引和检索(indexing and searching)导航(Navigation)并⾏和分布式信息检索(parallel and distribution IR)模型与查询语⾔(model and query language)导航(Navigation)有效标引与检索(efficient indexing and searching)第2章特别检索(ad hoc retrieval)过滤(filtering)集合论(set theoretic)代数(algebraic)概率(probabilistic 路由选择(routing)⽤户需求档(user profile)阙值(threshold)权值(weight)语词加权(term-weighting)相似度(similarity)相异度(dissimilarity)域建模(domain modeling)叙词表(thesaurus)扁平(flat)⼴义向量空间模型(generalized vector space model)神经元(neuron)潜语义标引模型(latent semantic indexing model)邻近结点(proximal node)贝叶斯信任度⽹络(Bayesian belief network)结构导向(structure guided)结构化⽂本检索(structured text retrieval, STR)推理⽹络(inference network)扩展布尔模型(extended Boolean model)⾮重叠链表(non-overlapping list)第3章检索性能评价(retrieval performance evaluation)会话(interactive session)查全率(R, Recall Ratio) 信息性(Informativeness)查准率(P, Precision Ratio) ⾯向⽤户(user-oriented)漏检率(O, Omission Ratio) 新颖率(novelty ratio)误检率(M, Miss Ratio) ⽤户负担(user effort)相对查全率(relative recall)覆盖率(coverage ratio)参考测试集(reference test collection)优劣程度(goodness)查全率负担(recall effort)主观性(subjectiveness)信息性测度(informativeness measure)第4章检索单元(retrieval unit)字母表(alphabet)分隔符(separator)复合性(compositional)模糊布尔(fuzzy Boolean)模式(pattern)SQL(Structured Query Language, 结构化查询语⾔) 布尔查询(Boolean query)参照(reference)半结合(semijoin)标签(tag)有序包含(ordered inclusion)⽆序包含(unordered inclusion)CCL(Common Command Language, 通⽤命令语⾔) 树包含(tree inclusion)布尔运算符(Boolean operator) searching allowing errors容错查询Structured Full-text relevance feedback 相关反馈Query Language (SFQL) (结构化全⽂查询语⾔) extended patterns扩展模式CD-RDx Compact Disk Read only Data exchange (CD-RDx)(只读磁盘数据交换)WAIS (⼴域信息服务系统Wide Area Information Service)visual query languages. 查询语⾔的可视化查询语法树(query syntax tree)第5章query reformulation 查询重构 query expansion 查询扩展 term reweighting 语词重新加权相似性叙词表(similarity thesaurus)User Relevance Feedback⽤户相关反馈 the graphical interfaces 图形化界⾯簇(cluster)检索同义词(searchonym) local context analysis局部上下⽂分析第6章⽂献(document)样式(style)元数据(metadata)Descriptive Metadata 描述性元数据 Semantic Metadata 语义元数据intellectual property rights 知识产权 content rating 内容等级digital signatures数字签名 privacy levels 权限electronic commerce电⼦商务都柏林核⼼元数据集(Dublin Core Metadata Element Set)通⽤标记语⾔(SGML,standard general markup language)机读⽬录记录(Machine Readable Cataloging Record, MARC)资源描述框架(Resource Document Framework, RDF) XML(eXtensible Markup Language, 可扩展标记语⾔) HTML(HyperText Markup Language, 超⽂本标记语⾔)Tagged Image File Format (TIFF标签图像⽂件格式)Joint Photographic Experts Group (JPEG) Portable Network Graphics (PNG新型位图图像格式)第7章分隔符(separator)连字符(hyphen)排除表(list of stopwords)词⼲提取(stemming)波特(porter)词库(treasury of words)受控词汇表(controlled vocabulary)索引单元(indexing component)⽂本压缩text compression 压缩算法compression algorithm注释(explanation)统计⽅法(statistical method)赫夫曼(Huffman)压缩⽐(compression ratio)数据加密Encryption 半静态的(semi-static)词汇分析lexical analysis 排除停⽤词elimination of stopwords第8章半静态(semi-static)191 词汇表(vocabulary)192事件表(occurrence)192 inverted files倒排⽂档suffix arrays后缀数组 signature files签名档块寻址(block addressing)193 索引点(index point)199起始位置(beginning)199 Vocabulary search词汇表检索Retrieval of occurrences 事件表检索 Manipulation of occurrences事件表操作散列变换(hashing)205 误检(false drop)205查询语法树(query syntax tree)207 布鲁特-福斯算法简称BF(Brute-Force)故障(failure)210 移位-或(shift-or)位并⾏处理(bit-parallelism)212顺序检索(sequential search)220 原位(in-place)227第9章并⾏计算(parallel computing) SISD (单指令流单数据流)SIMD (单指令流多数据流) MISD (多指令流单数据流)MIMD (多指令流多数据流)分布计算(distributed computing)颗粒度(granularity)231 多任务(multitasking)I/O(input/output)233 标引器(indexer)映射(map)233 命中列表(hit-list)全局语词统计值(global term statistics)线程(thread)算术逻辑单元(arithmetic logic unit, ALU 中介器(broker)虚拟处理器(virtual processor)240分布式信息检索(distributed information retrieval)249⽂献收集器(gatherer)主中介器(central broker)254第10章信息可视化(information visualization)图标(icon)260颜⾊凸出显⽰(color highlighting)焦点+背景(focus-plus-context)画笔和链接(brushing and linking)魔术透镜(magic lenses)移动镜头和调焦(panning and zooming)弹性窗⼝(elastic window)概述及细节信息(overview plus details)⾼亮⾊显⽰(highlight)信息存取任务(information access tasks)⽂献替代(document surrogate)常见问题(FAQ, Frequently Asked Question) 群体性推荐(social recommendation)上下⽂关键词(keyword-in-context, KWIC)伪相关反馈(pseudo-relevance feedback)重叠式窗⼝(overlapping window)⼯作集(working set)第11/12章多媒体信息检索(Multimedia Information Retrieval, MIR)超类(superclass)半结构化数据(semi-structured data)数据⽚(data blade)可扩充型系统(extensible type system)相交(intersect)动态服务器(dynamic server)叠加(overlaps)档案库服务器(archive server)聚集(center)逻辑结构(logical structure)词包含(contain word)例⼦中的查询(query by example)路径名(path-name)通过图像内容查询(Query by Image Content, QBIC)图像标题(image header)主要成分分析(Principal Component Analysis, PCA)精确匹配(exact match)潜语义标引(Latent Semantic Indexing, LSI)基于内容(content-based)范围查寻(Range Query)第13章exponential growth指数增长 Distributed data 数据的分布性volatile data 不稳定数据 redundant data 冗余数据Heterogeneous data异构数据分界点(cut point)373Centralized Architecture集中式结构收集器-标引器(crawler-indexer)373 Wanderers 漫步者 Walkers 步⾏者 Knowbots 知识机器⼈Distributed Architecture分布式结构 gatherers 收集器brokers 中介器 the query interface 查询界⾯the answer interface响应界⾯ PageRank ⽹页级别Crawling the Web漫游Web breadth-first ⼴度优先depth-first fashion 深度优先 Indices(index pl.)索引Web Directories ⽹络⽬录 Metasearchers元搜索引擎Teaching the User⽤户培训颗粒度(granularity)384超⽂本推导主题检索(Hypertext Included Topic Search, HITS)380 Specific queries专指性查询 Broad queries 泛指性查询Vague queries模糊查询 Searching using Hyperlinks使⽤超链接搜索Web Query Languages查询语⾔ Dynamic Search 动态搜索Software Agents 软件代理鱼式搜索(fish search)鲨鱼搜索(shark search)拉出/推送(pull/push)393门户(portal)395 Duplicated data 重复数据第14章联机公共检索⽬录(online public access catalog, OPAC)397化学⽂摘(Chemical Abstract, CA)399 ⽣物学⽂摘(Biological Abstract, BA)⼯程索引(Engineering Index,EI)国会图书馆分类法(Library of Congress Classification)408杜威⼗进分类法(Dewey Decimal Classification)408联机计算机图书馆中⼼(Online Computer Library Center, OCLC)409机读⽬录记录(Machine Readable Cataloging Record, MARC)409第15章NSF (National Science Foundation, 美国国家科学基⾦会)NSNA(National Aeronautics and Space Administration,美国航空航天局)数字图书馆创新项⽬(Digital Libraries Initiative, DLI)4155S(stream,信息流structure,结构space, 空间scenario, 场景society社会)416基于数字化对象标识符(Digital Object Identifier, DOI)420都柏林核⼼(Dublin Core, DC)430 数字图书馆(Digital Library, DL)资源描述框架(Resource Document Framework, RDF)431text encoding initiative (TEI) (⽂本编码创新项⽬)431v。
人工智能基础(习题卷62)
人工智能基础(习题卷62)第1部分:单项选择题,共50题,每题只有一个正确答案,多选或少选均不得分。
1.[单选题]以下说话正确的是()A)一个机器学习模型如果有较高准确率,总是说明这个分类器是好的B)如果增加模型复杂度,那么模型的测试错误率不一定会降低C)如果增加模型复杂度,那么模型的训练错误率总是会降低答案:C解析:一个机器学习模型如果有较高准确率,不能说明这个分类器是好的。
对于不平 衡的数据集进行预测时,正确率不能反映模型的性能。
模型越复杂,在训练集上越容易表现 好,在测试集上越容易表现不好。
2.[单选题]关于卷积层的说法,错误的是()A)卷积核的尺寸是由人为指定的B)卷积核的参数值是人为指定的C)卷积层可以作为神经网络的隐藏层D)特征图是为卷积层的最终输出答案:B解析:3.[单选题]有两个样本点,第一个点为正样本,它的特征向量是(0, -1);第二个点为负样本,它的特征向量是(2, 3),从这两个样本点组成的训练集构建一个线性SVM 分类器的分类面方程是()。
A)2x+_y=4B)x+2y=5C)x+2y=3D)2x-y=0答案:C解析:对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。
斜率是 两点连线的斜率的负倒数。
即-1/ (-1-3)/(0-2)=-1/2,可得戶-(l/2)x + C.过中点(0+2) /2, (-1+3)/2)= (1, 1),可得 c=3/2,故方程为 x+2戶3。
4.[单选题]在具体求解中,能够利用与该问题有关的信息来简化搜索过程,称此类信息为( )A)启发信息B)简化信息C)搜索信息D)求解信息答案:A解析:5.[单选题]下列哪个不是RPA实施回报率的评估因素?()A)成本节省B)生产力提升C)质量改进D)劳动力需求有规律答案:DA)人机交互系统B)机器人-环境交互系统C)驱动系统D)控制系统答案:A解析:7.[单选题]下面不属于人工智能研究基本内容的是()A)机器感知B)机器思维C)机器学习D)自动化答案:D解析:8.[单选题]大数据正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的()A)新一代技术平台B)新一代信息技术和服务业态C)新一代服务业态D)新一代信息技术答案:B解析:9.[单选题]梯度下降算法中,损失函数曲面上轨迹最混乱的算法是以下哪种算法?A)SGDB)BGDC)MGDD)MBGD答案:A解析:10.[单选题]当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?()A)分类B)聚类C)关联分析D)隐马尔可夫链答案:B解析:11.[单选题]线性判别分析常被视为一种经典的()技术。
gensim库中coherencemodel()计算算法
gensim库中coherencemodel()计算算法1. 引言1.1 概述本文将介绍gensim库中的coherencemodel()计算算法。
gensim是一个用于主题建模和文档相似度比较的Python库,其提供了丰富的功能和工具来帮助研究人员和开发者处理自然语言处理任务。
其中,coherencemodel()是gensim 库的一个重要功能,它用于评估主题模型的连贯性。
1.2 文章结构本文将分为五个部分来进行讲解。
首先,在引言部分,我们将对文章进行概述,并介绍文章结构。
然后,在第二部分中,我们将详细介绍gensim库以及coherencemodel()的功能和作用。
接下来,在第三部分中,我们将探讨coherencemodel()算法的实现方法和参数调整策略。
在第四部分中,我们将通过应用场景和案例研究来展示gensim库coherencemodel()在实际项目中的应用价值。
最后,在结论部分,我们将总结评估coherencemodel()算法,并展望其未来发展与应用前景。
1.3 目的本文旨在向读者介绍并深入理解gensim库中coherencemodel()计算算法的原理、实现方法以及在自然语言处理任务中的应用。
通过对coherencemodel()算法的学习和掌握,读者可以更好地评估主题模型的连贯性,并将其应用于相关领域中的实际项目中去。
这将有助于改善主题模型的效果并提升研究人员和开发者在自然语言处理领域的工作效率。
2. gensim库中coherencemodel()计算算法2.1 gensim库简介Gensim是一个用于主题建模和自然语言处理的Python库。
它提供了许多功能来处理文本数据,其中包括coherencemodel()函数。
Gensim的设计目标是高效地处理大规模文本数据集,并提供方便的工具来构建和评估主题模型。
2.2 coherencemodel()功能介绍coherencemodel()函数是Gensim库中用于计算主题模型一致性的方法。
计算机毕业论文_一种基于潜在语义结构的文本分类模型
一种基于潜在语义结构的文本分类模型摘要:潜在语义索引(LSI)模型,是一种已经成功地应用于文本分类等很多领域的算法。
LSI模型能在一定程度上解决一词多义和多词一义问题,并能过滤一部分文档噪音。
然而在LSI模型中,对稀有类别很重要的分类特征,可能因为在整个文档集中不重要而被滤掉。
针对这一问题,本文提出了一种新颖的扩展LSI模型的文本分类模型。
新模型在尽量保留文档信息的同时,增加考虑了文档的类别信息。
这样,新模型将能比LSI模型更好地表示原始文档空间中的潜在语义结构。
在实验中,本分类模型也表现出了非常好的分类性能。
关键词:文本分类潜在语义索引偏最小二乘分析中图分类号:TP18 文献标识码: A1 引言自动文本分类就是在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
如今,已经有很多基于统计和机器学习的文本分类算法,如:回归模型、K近邻、决策树、朴素贝叶斯和支持向量机等[1]。
其中,很多现有的分类算法都是基于从文本中抽取关键词(经常是单独的词)的方法。
在这种方法中,假定一个关键词唯一地代表一个概念或语义单元;然而实际的情况是:一个词往往有多个不同的含义,多个不同的词也可以表示同一个语义。
这就是所谓的一词多义和多词一义。
比如:“马上”可以有“立刻”的意思,也可以理解为“马的上面”;“感冒”、“伤风”和“着凉”却代表着同一种疾病。
像这样的情况是很难由计算机自动判别的。
一词多义和多词一义,是所有基于语义的算法必须解决的两个主要问题。
潜在语义索引(LSI: Latent Semantic Indexing)[2],是近年来比较有效的算法之一。
LSI 把原始的向量空间转换成潜在语义空间,文档和查询就在转换后的语义空间上进行表示和比较。
实验表明这种方法可以在一定程度上解决一词多义和多词一义问题:新的语义空间是原始“文档向量矩阵”的线性组合变换得到的,一般认为这个空间能捕捉文档集中的潜在语义结构。
由于LSI在信息检索中的优异表现[2],就有人开始尝试将其应用于文本分类领域。
SEO 名词解释大全
SEO 名词解释大全1) 301重定向网址重定向最为可行的一种办法。
当用户或搜索引擎向网站服务器发出浏览请求时,服务器返回的HTTP数据流中头信息(header)中的状态码的一种,表示本网页永久性转移到另一个地址。
2)adwords Google的 PPC( Pay Per Click )广告,是很多网站常用的一种广告形式.3) algorithm (算法) 这是搜索引擎用来检索内容和计算相关信息的程序.4) alt 是展示给终端用户的图片的描述.加入 ALT Tag 后,如果图片没有显示,浏览器就会在本来图片的位子用文字的方式显示 ALT Tag 的内容,来帮助浏览者浏览网页。
详细图片ALT信息请看: 5) B2B:Business to Business.6) B2C:Business to Consumer7) C2C:Consumer to Consumer8) back link 即反向链接.常规链接在源文档内部进行声明和显示,而反向链接则在目的文档内部进行声明.如果B网站指向 A 网站,那么B网站就是都属于A 网站的反向链接.9) black hat:黑帽,简单的讲就是 SEO作弊10) bounce rate 就是一个跳出率,当一个用户进入一个网页,接着在一个会话时间内没有看过该站其他的页面就分开了该网站,就被称作Bounce。
请注意这里有两个参数,一个是是否点击浏览其他的页面,第二个就是哪个会话时间段。
这个Bounce Rate越低越好,说明用户访问了更多的页面。
而且这个Bounce Rate已经是网站流量统计的一个通用标准,一般及格的流量统计都有。
11) bread crumbs “面包屑型”架构让用户对他们所访问的此页与彼页在层次结构上的关系一目了然。
这种网站结构的其中一个最明显的特性体现莫过于返回导览功能。
12) Canonical Issues (内容重复的一种) 所谓 Canonical Issues,主要指网站的主访问路径,如果网站存在多种访问方式,搜索引擎会取舍一种其认为最佳的方式确定为“权威地址”,比如说,对大多数网站而言,其主页可以用以下三种 URL访问:但从技术上讲,这三个Url是不同的,可以分别显示单独的内容。
利用AI技术进行文本挖掘的步骤和要点
利用AI技术进行文本挖掘的步骤和要点引言:随着信息时代的到来,大量的文本数据涌入我们的生活。
然而,如何从这些海量、复杂的文本数据中获取有价值的信息成为了一个重要挑战。
幸运的是,人工智能(AI)技术提供了一种强大而有效的方式来解决这个问题——文本挖掘(Text Mining)。
在本文中,我们将介绍利用AI技术进行文本挖掘的步骤和要点。
一、数据收集与预处理1.确定数据源:首先需要明确从哪些渠道或来源收集文本数据。
可以是社交媒体、新闻网站、论坛等多种渠道。
2.爬取数据:使用网络爬虫技术获取所需的原始文本数据。
同时,要注意遵守相关法律法规和搜集伦理规范。
3.清洗与过滤:对于原始数据进行清洗和过滤,去除噪声、无用信息以及非标准化内容。
可以使用正则表达式、停用词列表等方法。
4.分词与标注:将清洗后的文本进行分词,并添加词性标注以便后续处理。
二、特征提取与表示1.选择合适的特征:从文本中提取有意义的特征是文本挖掘的关键。
常用的特征包括词袋模型、词频-逆文档频率(TF-IDF),以及基于深度学习的词嵌入等。
2.降维与选择:对于高维度的特征向量,可以使用降维方法如主成分分析(PCA)来减少维度。
同时,利用相关性分析和特征重要性评估等方法进行特征选择,筛选出最具代表性和区分性的特征。
三、文本分类与聚类1.分类任务:利用机器学习算法或深度学习模型进行文本分类任务,将未标注或半标注的文本数据划分到不同的类别中。
常见算法包括朴素贝叶斯、支持向量机、神经网络等。
2.聚类任务:通过相似性度量将未标注文本数据划分为不同组别,实现无监督式学习。
常用聚类方法有K-means、层次聚类、DBSCAN等。
四、情感分析与主题建模1.情感分析:根据文本中蕴含的情感信息进行分类和预测。
可以使用基于规则的方法或者训练有监督/无监督的机器学习模型,以实现情感分析,并了解用户对产品、事件等的态度和倾向。
2.主题建模:通过挖掘文本数据中的潜在话题,对大规模文本进行自动化处理。
概率潜在语义模型综述
概率潜在语义模型综述信息检索本质上是语义检索, 而传统信息检索系统都是基于独立词索引, 因此检索效果并不理想. 概率潜在语义索引是一种新型的信息检索模型, 它在潜在语义索引模型思想的基础上, 通过EM迭代算法将词向量和文档向量投影到一个低维空间, 消减了词和文档之间的语义模糊度, 使得文档之间的语义关系更为明晰。
论述了概率潜在语义索引的理论基础, 探讨了隐含语义索引在信息处理处理中的应用。
标签:信息检索;潜在语义索引;SVD分解;概率潜在语义索引1 简介传统的信息检索模型可归为三类:布尔模型、向量空间模型和概率模型。
它们都分别把文本和查询表示为索引词的集合,尽管使用了不同的方法,但本质上均为某种形式的索引词的匹配,而没有进一步做语义上的分析。
自然语言中存在大量的同义词、多义词,这分别对传统检索模型的召回率和准确率有不利的影响。
检索系统要求用户提供足够多精确、无歧义的关键词才有可能得到所需要的信息,这大大增加了系统使用的难度。
为了进行更自然更人性化的查询,检索系统必须能够处理自然语言中的同义、多义现象,进行语义上的分析。
潜在语义分析(LSA)是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。
其主要思想是通过统计分析来发现文档中词与词之间存在的某种潜在的语义结构,并且使用这些潜在的语义结构来表示词和文本。
虽然潜在语义分析在信息检索领域取得了令人满意的效果,但是它存在几个缺陷:首先由于潜在语义分析过程中奇异值分解的物理意义不够明确,较难控制词义聚类的效果;此外这个算法的空间和时间复杂度太大,在目前的计算机硬件条件下很难实际适应实际应用。
针对潜在语义分析的这些缺陷,Hoffmann 提出了一种新的方法-概率潜在语义分析(PLSA),该方法使用概率模型来表示“文档—潜在语义—关键词”三者之间的关系,文档和关键词都可以映射到同一个语义空间,这样,文档和文档以及文档和关键词之间的相似度都可以通过计算语义空间上的夹角而得以量化。
基于人工智能的知识问答系统构建
基于人工智能的知识问答系统构建近年来,随着人工智能技术的发展,人们对于知识问答系统的需求越来越高。
许多大型企业和搜索引擎公司都在研发他们自己的问答系统,希望能够更好的为用户解决问题。
本文将介绍如何基于人工智能技术构建一个高效的知识问答系统。
一、问题理解和意图识别在构建知识问答系统之前,首先需要解决的是问题理解和意图识别。
这些技术是问答系统的核心,决定了系统的高效性和准确性。
有许多自然语言处理技术可以用于问题理解和意图识别,其中最重要的是自然语言理解(NLU)和自然语言生成(NLG)技术。
自然语言理解技术可以将用户输入的问题转化为机器可理解的数据形式。
这个过程可以分为几个步骤:1. 分词和词性标注:将输入的自然语言文本分解成单独的单词(或词组),并为每个单词分配相应的词性标记。
2. 命名实体识别:识别自然语言中的实体,如人名、地名、组织机构名等,以及它们之间的关系。
3. 语法分析:分析输入文本的语法结构并建立一个相应的语法树结构。
4. 语义分析:利用机器学习等技术,将输入文本中的实体和其他重要信息分类和标注,以确定用户的意图。
自然语言生成技术可以将系统返回的答案转化为自然语言文本。
这个过程比较简单,通常只需要将系统内部存储的数据结构通过预先定义好的语法规则转换成用户可理解的自然语言文本。
二、问答匹配和答案生成问题理解和意图识别完成之后,下一步就是进行问答匹配和答案生成。
这个过程包括两个主要步骤:问题匹配和答案生成。
问题匹配是找到一个或多个可能与用户问题相关的答案。
这个过程涉及到文本检索和相似度匹配算法。
一些最常用的算法包括:TF-IDF、BM25、LSI(Latent Semantic Indexing)和LDA(Latent Dirichlet Allocation)等。
这些算法主要的目的是根据输入的关键词和上下文信息,从海量数据中找到与之最相关的答案。
答案生成是根据找到的答案,生成一条或多条用户可理解的自然语言回答。
SEO术语缩写列表
SEO术语缩写列表B2B: Business to Business,无论这个下家是买1000件商品,还是一件商品,他的目的都是需要转卖出去的。
B2C: Business to Consumer,这里阐述一下,很多人以为B2C是Business to Customer,其实不是。
只有Consumer才能准确的表达消费者的意思。
.Bot:英文也可以叫做:robot, spider, crawler。
直接翻译就是机器人的意思,指的是可以自动执行任务的程序。
搜索引擎使用bot来寻找和收录网页。
Spammers也经常使用Bot 来偷取其他网站的资料。
CMS:Content Management System. 内容管理系统。
其中我想推荐的是Wordpress,Wordpress 其实已经从传统的博客系统逐渐衍生成了非常流行的内容管理系统。
CPC:Cost Per Click,广告平台通过点击收取广告费用。
CPM: Cost Per Thousand Impressions,通过每1000次页面浏览量收取广告费用。
(M在罗马数字里面代表1000。
)FFA: Free For All,全部免费。
这个主要用于链接养殖场,指那种页面或者网站完全由导出链接构成,完全没有任何有价值的内容。
这些页面的对象是搜索引擎,希望通过交换链接提高自己的PR值。
但是往往使用链接养殖场的网站要不被搜索引擎忽略,要不被惩罚。
GYM: Google - Yahoo - Microsoft (MSN),全球最大的三个搜索引擎。
)LSI: Latent Semantic Indexing,指的是搜索引擎一般会把同一个类型的关键词收录在一个文件里面。
这里主要指的是关键词云和长尾关键词。
MFA: Made For Advertisements,为广告而造。
MFA通常指那些专门为了广告而搭建的网站,当然也不是所有为广告而搭建的都是不好的东西。
PPA: Pay Per Action,只有当带去的人流量转化为实际的行为,比如说注册,填写表格等,才会给与广告费。
个性化推荐系统的文献综述
个性化推荐系统在电子商务网站中的应用研究一、引言随着Internet的普及,信息爆炸时代接踵而至,海量的信息同时呈现,使用户难以从中发现自己感兴趣的部分,甚至也使得大量几乎无人问津的信息称为网络总的“暗信息”无法被一般用户获取。
同样,随着电子商务迅猛发展,网站在为用户提供越来越多选择的同时,其结构也变得更加复杂,用户经常会迷失在大量的商品信息空间中,无法顺利找到自己需要的商品。
个性化推荐,被认为是当前解决信息超载问题最有效的工具之一.推荐问题从根本上说就是从用户的角度出发,代替用户去评估其从未看过的产品,使用户不只是被动的网页浏览者,而成为主动参与者。
准确、高效的推荐系统可以挖掘用户的偏好和需求,从而成为发现用户潜在的消费倾向,为其提供个性化服务。
在日趋激烈的竞争环境下,个性化推荐系统已经不仅仅是一种商业营销手断,更重要的是可以增进用户的黏着性。
本文对文献的综述包括个性化推荐系统的概述、常用的个性化推荐系统算法分析以及个性化推荐系统能够为电子商务网站带来的价值。
二、个性化推荐系统概述个性化推荐系统是指根据用户的兴趣特点和购买行为,向用户推荐用户感兴趣的信息和商品。
它是建立在海量数据挖掘基础上的一种高级商务智能平台,以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。
购物网站的推荐系统为客户推荐商品,自动完成个性化选择商品的过程,满足客户的个性化需求,推荐基于:网站最热卖商品、客户所处城市、客户过去的购买行为和购买记录,推测客户将来可能的购买行为。
1995年3月,卡内基 梅隆大学的Robert Armstrong等人在美国人工智能协会首次提出了个性化导航系统Web-Watcher,斯坦福大学的Marko Balabanovic 等人在同一次会议上推出了个性化推荐系统LIRA。
同年8月,麻省理工学院的Henry Liberman在国际人工智能联合大会(IJCAI)上提出了个性化导航智能体Letizia。
奇异值的应用——潜在语义索引
潜在语义索引(Latent Semantic Indexing)是一个严重依赖于SVD的算法,本文转载自之前吴军老师《数学之美》和参考文献《机器学习中的数学》汇总。
————————————在自然语言处理中,最常见的两类的分类问题分别是,将文本按主题归类(比如将所有介绍亚运会的新闻归到体育类)和将词汇表中的字词按意思归类(比如将各种体育运动的名称个归成一类)。
这两种分类问题都可用通过矩阵运算来圆满地、同时解决。
为了说明如何用矩阵这个工具类解决这两个问题的,让我们先来来回顾一下我们在余弦定理和新闻分类中介绍的方法。
分类的关键是计算相关性。
我们首先对两个文本计算出它们的内容词,或者说实词的向量,然后求这两个向量的夹角。
当这两个向量夹角为零时,新闻就相关;当它们垂直或者说正交时,新闻则无关。
当然,夹角的余弦等同于向量的内积。
从理论上讲,这种算法非常好。
但是计算时间特别长。
通常,我们要处理的文章的数量都很大,至少在百万篇以上,二次回标有非常长,比如说有五十万个词(包括人名地名产品名称等等)。
如果想通过对一百万篇文章两篇两篇地成对比较,来找出所有共同主题的文章,就要比较五千亿对文章。
现在的计算机一秒钟最多可以比较一千对文章,完成这一百万篇文章相关性比较就需要十五年时间。
注意,要真正完成文章的分类还要反复重复上述计算。
在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称SVD)。
现在让我们来看看奇异值分解是怎么回事。
首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。
这个矩阵中,每一行对应一篇文章,每一列对应一个词。
在上面的图中,M=1,000,000,N=500,000。
第i 行,第j 列的元素,是字典中第j 个词在第i 篇文章中出现的加权词频(比如,TF/IDF)。
读者可能已经注意到了,这个矩阵非常大,有一百万乘以五十万,即五千亿个元素。
搜索引擎营销的搜索引擎算法
搜索引擎营销的搜索引擎算法随着互联网的发展,搜索引擎成为我们获取信息的主要途径之一。
为了满足用户的需求,搜索引擎会使用一系列的算法来对网页进行排序和筛选,以呈现最相关和最有价值的搜索结果。
本文将介绍搜索引擎营销中使用的一些主要搜索引擎算法。
一、PageRank算法PageRank算法是由谷歌公司的创始人拉里·佩奇和谢尔盖·布林在1996年提出的。
它通过统计一个网页的入站链接数量和质量来评估其重要性和权重,从而决定其在搜索结果中的排名。
简单来说,PageRank算法认为,一个网页被越多其他网页链接,且这些链接质量高的话,那么这个网页的权重就会更高。
二、TF-IDF算法Term Frequency-Inverse Document Frequency(词频-逆向文件频率)算法是一种常用的信息检索算法。
在搜索引擎营销中,TF-IDF算法用于衡量一个网页或一个关键词在文档中的重要性。
算法通过计算一个关键词在文档中出现的频率和在整个文档集合中出现的频率来确定其权重。
如果一个关键词在某个文档中的词频较高,但在整个文档集合中的频率较低,那么这个关键词的重要性就会更高。
三、LSI算法Latent Semantic Indexing(潜在语义索引)算法是一种基于语义关联性的搜索引擎算法。
LSI算法通过分析文档集合中的词语相关性来确定其在搜索结果中的排名。
与传统的关键词匹配不同,LSI算法能够理解用户的搜索意图,提供更加相关的搜索结果。
例如,当用户搜索“苹果”时,LSI算法可以根据上下文判断用户是在寻找苹果公司还是水果。
四、Panda算法Panda算法是谷歌在2011年推出的一个重要搜索引擎算法。
它的目标是降低重复、低质量和内容农场等低价值网页的排名,并提高高质量、有用和原创内容的排名。
Panda算法通过评估网页的质量、原创性、用户体验等因素来确定其在搜索结果中的位置。
对于搜索引擎营销来说,优化网页的质量和内容非常重要,以适应Panda算法的要求。
引文分析法共词分析法浅析
附:IF值计算方法(以1992年为例) A=1992年的全部引文(指定数据库中的 记录) B=1992年某期刊发表在1990和1991的论 文的被引次数 C=某期刊1990 和1991 年发表的全部论 文的总和 D(期刊1992的影响因子)=B/C
例如,某期刊2005年影响因子的计算 1.本刊2004年的文章在2005年的被引次数: 48 本刊2004年的发文量: 187 2.本刊2003年的文章在2005年的被引次数: 128 本刊2003年的发文量: 154 3.本2003-2004的文章在2005年的被引次 数总计 : 176 4.本刊2003-2004年的发文量总计: 341 5.本刊2005年的影响因子:0.5161 = 176÷341
二、确定分析单元
有学者选择文献中的主题词、关键词为 共词分析的基本单元。在共词分析中借助数 据库管理软件以及SPSS统计软件进行识别统 计,对计算机而言同义不同词的词在统计过程 中,被看作两个完全不相关的词汇,对统计分析 的结果产生很大干扰。因此,被分析的词汇最 好是受控的、被统一标引的主题词。只有这 样,共词分析方法利用文章中词语对的共现频 次来反映包含在文章中的概念才能成立。
共引(co-citation)
就是两篇文献同时被其他文献引用。一 般认为同被引用的文献在主题上具有或多或 少的相似性, 因此同被引次数即共引强度可以 测度文献在内容方面的相关度。由此, 通过一 组文献之间的共引关系可以形成共引网络, 该 网络内节点之间的远近便可以反映它们主题 内容的亲疏关系。
共引分析方法始于small于1973年提出的 以文献为单位的共引分析, 但共引概念可以推 广到与文献相关的各种特征对象上, 形成各种 类型的共引概念,如词的共引、文献共引、著 者共引、期刊共引、主题共引和类的共引等。
使用概念描述的中文短文本分类算法
使用概念描述的中文短文本分类算法作者:杨天平朱征宇来源:《计算机应用》2012年第12期摘要:针对短文本特征较少而导致使用传统文本分类算法进行分类效果并不理想的问题,提出了一种使用了概念描述的短文本分类算法,该方法首先构建出全局的语义概念词表;然后,使用概念词表分别对预测短文本和训练短文本概念化描述,使得预测短文本在训练集中找出拥有相似概念描述的训练短文本组合成预测长文本,同时将训练集内部的短文本也进行自组合形成训练长文本;最后,再使用传统的长文本分类算法进行分类。
实验证明,该方法能够有效挖掘短文本内部隐含的语义信息,充分对短文本进行语义扩展,提高了短文本分类的准确度。
关键词:短文本分类;概念描述;数据挖掘;机器学习;自然语言处理中图分类号: TP391.4文献标志码:AAlgorithm for Chinese short-text classification using concept descriptionYANG Tian-ping1,,ZHU Zheng-yu1,21. School of Computer Science, Chongqing University, Chongqing 400030,;2. Software Engineering Chongqing Key Laboratory, Chongqing University, Chongqing 400030, ChinaAbstract:In order to solve the problem that traditional classification is not very satisfactory due to fewer text features in short text, an algorithm using concept description was presented. At first, a global semantic concept word list was built. Then the test set and training set were conceptualized by the global semantic concept word list to combine the test short texts by the same description of concept in the training set, and at the same time, training long texts were combined by the training short texts in the training set. At last, the long text was classified by traditional classification algorithm. The experiments show that the proposed method could mine implicit semantic information in short text efficiently while expanding short text on semantics adequately, and improving the accuracy of short text classification.英文关键词Key words:short text classification; concept description; data mining; machine learning; natural language processing0 引言随着微博、个人博客的兴起和电子公告板(Bulletin Board System,BBS)等的发展,网络中每天都在产生海量的短文本,比如手机短信、网页评论、BBS论坛发言、微博和电子邮件等,这些文本一般都字数不多(通常文本长度不超过140个字符),但是却因其数量巨大,其中包括了人们对社会各种现象的各种观点和立场,因此在话题跟踪与发现、流行语分析、舆情调查、话题识别等领域有着广泛的应用前景,同时分类也是对这些文本进一步挖掘的重要步骤。
矩阵的奇异值分解及其应用
矩阵的奇异值分解(SVD)及其应用------- 摘自Left Not Easy博文前言:上一次写了关于PCA与LDA的文章,PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。
在上篇文章中便是基于特征值分解的一种解释。
特征值和奇异值在大部分人的印象中,往往是停留在纯粹的数学计算中。
而且线性代数或者矩阵论里面,也很少讲任何跟特征值与奇异值有关的应用背景。
奇异值分解是一个有着很明显的物理意义的一种方法,它可以将一个比较复杂的矩阵用更小更简单的几个子矩阵的相乘来表示,这些小矩阵描述的是矩阵的重要的特性。
就像是描述一个人一样,给别人描述说这个人长得浓眉大眼,方脸,络腮胡,而且带个黑框的眼镜,这样寥寥的几个特征,就让别人脑海里面就有一个较为清楚的认识,实际上,人脸上的特征是有着无数种的,之所以能这么描述,是因为人天生就有着非常好的抽取重要特征的能力,让机器学会抽取重要的特征,SVD是一个重要的方法。
在机器学习领域,有相当多的应用与奇异值都可以扯上关系,比如做feature reduction的PCA,做数据压缩(以图像压缩为代表)的算法,还有做搜索引擎语义层次检索的LSI(Latent Semantic Indexing)本文主要关注奇异值的一些特性,另外还会稍稍提及奇异值的计算,不过本文不准备在如何计算奇异值上展开太多。
一、奇异值与特征值基础知识:特征值分解和奇异值分解在机器学习领域都是属于满地可见的方法。
两者有着很紧密的关系,我在接下来会谈到,特征值分解和奇异值分解的目的都是一样,就是提取出一个矩阵最重要的特征。
先谈谈特征值分解吧:1)特征值:如果说一个向量v是方阵A的特征向量,将一定可以表示成下面的形式:这时候λ就被称为特征向量v对应的特征值,一个矩阵的一组特征向量是一组正交向量。
特征值分解是将一个矩阵分解成下面的形式:其中Q是这个矩阵A的特征向量组成的矩阵,Σ是一个对角阵,每一个对角线上的元素就是一个特征值。
lsi指标 -回复
lsi指标-回复LSI(Latent Semantic Indexing)指标,是一种用于计算文本相似度和主题相关性的方法。
它通过分析文本中的词语之间的关联性,来确定文本之间的相似程度。
本文将一步一步回答有关LSI指标的相关问题,以帮助读者更好地理解和使用这一方法。
第一步:什么是LSI指标?LSI指标是一种基于词语之间的关联性计算文本相似度和主题相关性的方法。
它基于假设,即语义上相似的文档可能会包含相似的词语。
通过将文本表示为一个词频矩阵,并利用数学技术(如奇异值分解)对这个矩阵进行降维处理,LSI可以将文本表示为一个低维的潜在语义空间。
第二步:LSI的工作原理是什么?LSI的工作原理基于两个关键步骤:构建词频矩阵和奇异值分解。
构建词频矩阵:首先,需要将每篇文档转化为一个向量,其中向量的每个分量表示一个词语在文档中的出现频率。
这些向量组成了一个大型的词频矩阵,其中每一行代表一个文档,每一列代表一个词语。
奇异值分解:接下来,需要对词频矩阵进行奇异值分解,将其分解为三个矩阵相乘的形式:A = UΣV^T。
在这个等式中,U矩阵代表文档的主题空间,Σ矩阵代表奇异值,其对角线上的元素代表文档的重要性,V矩阵代表词语的主题空间。
第三步:如何计算LSI指标?计算LSI指标的关键在于利用奇异值分解得到的U矩阵和Σ矩阵。
通过计算文档向量在U矩阵上的投影,可以得到文档在潜在语义空间中的表示。
同样地,通过计算词向量在V矩阵上的投影,可以得到词语在潜在语义空间中的表示。
在得到文档和词语的潜在语义表示后,可以计算它们之间的相似度。
常用的相似度度量方法是余弦相似度,即计算两个向量的夹角余弦值。
相似度的值越接近1,表示两个文档或词语之间的相似度越高。
第四步:LSI指标的优缺点是什么?LSI指标具有以下优点:1. 考虑了词语之间的关联性:与传统的词频统计方法相比,LSI不仅仅考虑了词语的出现频率,还考虑了词语之间的关联性。
这使得LSI能够更好地捕捉文本的语义信息。
seo面试84个问题及答案
seo面试84个问题及答案SEO也就是搜索引擎优化,是一种利用搜索引擎的搜索规那么来提高目的网站在有关搜索引擎内的排名的方式。
本文将介绍seo84个问题及答案。
1. 你最喜欢SEO的哪一局部? 站内优化2. 你觉得SEO中最困难的是什么? 把客户培养为忠实客户(转化率)3. 你在SEO中犯过的最大错误是什么? 没有自己的站,以前刷过公司的站^^4. 你在SEO中获得的最大成功是什么? 知道如何去分析观察SE.5. 你有自己的网站吗?网址是什么?你做这些网站的目的是什么?他们取得了怎样的成绩? NO6. 你之前做SEO的网站是做什么生意的? NO7. 你觉得自己作为一个SEO最有竞争力的是哪一方面? SEO知识相当扎实,SEO策略还可以^^8. 你觉得MATT CUTTS(GOOGLE工程师)怎么样我不是很懂英文考察SEO学习能力9. 你最喜欢的SEO网站/博客是什么?为什么? ZAC,SEO研究中心,BSG等.10.你在SEO界最尊敬的人是谁?为什么? ZAC,权威和启蒙老师11.你在SEO界最不尊敬的人是谁?为什么? 目前还没有,真没有.12.你每天在哪个网站学习新知识 ? moonseo. BSG统计13.你用过哪些流量统计工具? 百度统计,ZZ14.通过统计工具设定目标转换的流程是什么? 本人做信息站所以目的是留下用户,所以....大家都懂撒.我在扯蛋,这里不是很懂.15.解释一下这个流程(设定目标转换)的高端局部,然后为什么要这么用? 站内布局^^16.如果要你来制定一个当前的统计工具没有的或者不完善的新功能,你会怎么做? EXCEL记录一些重要数据,分析比照.算法17.解释一下PR的算法评分制度,以这里就不说了哈.18.利用PR的知识来做链接中最重要的局部是什么? 1.相关性2.锚3.形式多样化19.什么是页面布局? 这个真不知道怎么说."把用户想要的展现给用户"20.什么是LSI和LSA,他们在SEO中起什么作用?(LSA是“Latent Semantic Analysis”的缩写,LSI是“Latent Semantic Indexing”的缩写,分别是指长尾的分析和选取) 这个也不懂.21.Explain to me how phrase-base algorithms work? Clustering?(TED:不大懂这句话- -) 不懂.22.说说任何你认为的当前主流搜索引擎的不同之处。
人工智能单选练习题库+答案
人工智能单选练习题库+答案一、单选题(共100题,每题1分,共100分)1、抛掷一枚质地均匀的硬币,若抛掷95次都是正面朝上,则抛掷第100次正面朝上的概率是()A、大于 1/2B、小于1/2C、无法确定D、等于 1/2正确答案:D2、对于k折交叉验证,以下对k的说法正确的是?A、在选择k时,要最小化数据集之间的方差B、以上所有C、选择更大的k,就会有更小的bias(因为训练集更加接近总数据集)D、k越大,不一定越好,选择大的k会加大评估时间正确答案:B3、关于语音识别服务中的一句话识别指的是,用于短语音的同步识别。
一次性上传整个音频,响应中即返回识别结果。
A、TRUEB、FALSE正确答案:A4、哪项技术在BERT中没有使用()A、NormalizationB、全连接C、卷积D、自注意力正确答案:C5、在安装Linux操作系统时,必须创建的两个分区?A、/home和/usrB、/和/swapC、/var和/trapD、/和/boot正确答案:B6、人工智能产业三大要素是技术产品、改造提升行业融合和()。
A、深度学习B、算法运算C、集成应用D、云计算正确答案:C7、机器学习是()研究发展到一定阶段的必然产物。
A、计算机工程B、人工智能C、神经网络D、深度学习正确答案:B8、某二叉树的前序序列为ABDECFG,中序序列为DBEAFCG,则后序序列为A、DBEFCGAB、DEBFGCAC、DEFGBCAD、BDECFGA正确答案:B9、在统计语言模型中,通常以概率的形式描述任意语句的可能性,利用最大相似度估计进行度量,对于一些低频词,无论如何扩大训练数据,出现的频度仍然很低,下列哪种方法可以解决这一问题A、一元文法B、数据平滑C、N元文法D、一元切分正确答案:B10、linux操作系统中,文件权限-rwxr-xr-x,对文件拥有者而言,具有()权限。
A、可读,可写入,可执行B、可读,可执行C、可写入D、可读正确答案:A11、为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?()A、预测建模B、寻找模式和规则C、探索性数据分析D、建模描述正确答案:D12、python包安装命令正确的是A、python install xxxB、ipython install xxxC、pip install xxxD、conda install xxx正确答案:C13、专家系统是以为基础,以推理为核心的系统。
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
robust statistical model - called a code model - that associates documents and terms with a latent semantic factor. This model is based on factor analysis and information theory and enables us to remove this noise and extract a better latent semantic space than other methods. As a result, documents can be indexed nearly as well as by humans. This is mainly because factor analysis is a better statistical model than SVD for capturing hidden factors.
Latent Semantic Indexing Based on Factor Analysis
Noriaki Kawamae
Center for Advanced Research and Technology The University of Tokyo 4-6-1 Komaba Meguroku Tokyo153-8904 JAPAN tel. +81- 3-5452-5277 fax. +81- 5452-5278 kawamae@mpeg.rcast model (VSM) [11] is an approach to mapping documents into a space associated with the terms in the documents. The weighting of the terms in a document provides the document’s coordinates in space, and the similarity between documents is measured in space. Latent semantic analysis (LSA) [2] is an approach to mapping documents into a lower dimensional space than in LSI. This is accomplished by projecting term vectors into this space by using a model based on SVD. To date, several theoretical results or explanations have appeared, and these studies have provided a better understanding of LSI. However, many fundamental problems remain unresolved, as follows. Inadequate use of statistical methods: LSI uses SVD as a statistical model. Therefore, LSI cannot explain or extract the latent semantic factor as a hidden variable, because SVD is nothing more than the decomposition of the observed variable matrix [6]. Optimal decomposition dimension: In general, dimensionality reduction is justified by the statistical significance of the latent semantic vectors as measured by the likelihood of the model based on SVD [3],[5]. The complexity of the model is not considered in terms of the dimension. Term weighting method: To date, many researchers on LSI have used tf/idf [11] or a similar method. This type of method, however, is not the best way to evaluate the usefulness of terms, because the weighting of low-frequency terms is underestimated, while that of high-frequency terms is overestimated.
2. Related work on document indexing and term selection
1. Introduction
With the advent of digital databases and communication networks, it is easy to obtain Web pages and electronic documents. It is thus necessary to develop information retrieval methods to simplify the process of finding relevant information. Document indexing is one important information retrieval method. Traditionally, documents have been indexed and labeled manually by humans. An important example is the idea of notional families in the work of H. P. Luhn [9]. The primary goal is to index documents with the same precision achieved by humans. To develop such document indexing methods, the following problems must be solved: ◍Ambivalence between terms ◍Calculation cost ◍Document indexing and keyword matching methods Due to these problems, the retrieval performance of indexing systems is poor. Among previous works, latent semantic indexing (LSI), based on singular value decomposition (SVD), and probabilistic latent semantic indexing (PLSI) have been developed to overcome these problems, but unsolved problems remain. Our primary goal in this paper is to present a novel statistical approach, to simultaneously mapping documents and terms into a latent semantic space. This approach can index documents better than by using individual indexing terms because the topics in a document are more closely related to the concepts described therein than to the index terms used in the document’s description. Our method uses a more meaningful,
method, (2) a code model, and (3) a statistical model criterion. The main idea in this approach is that a latent semantic factor is associated with each topic. A particular topic in a document is more related to the concepts described in the document than to the index terms used in the description of the document. Therefore, this proposed indexing method enables us to retrieve documents based on similarities between concepts. As a result, our proposed method evolves from keyword matching to concept matching. This allows us to retrieve documents even if they are not indexed by the terms in a query, because one document shares concepts with another document indexed by the given query. Therefore, the latent semantic space improves document retrieval performance. 3.1 Term-document matrix Morphological analysis can be used to convert a document into a vector consisting of the terms occurring in it. The vector space model is a method of geometrically visualizing the relationships between documents. In this model, the relationships between terms and documents are represented as a term-document matrix, which contains the values of the index terms t occurring in each document d, properly weighted by other factors [4][12][8]. We denote m as the number of index terms in a collection of documents and n as the total number of documents. Formally, we let A denote a term-document matrix with n rows and m columns and let wij be an element (i, j) of A. Each wij is assigned a weight associated with the term-document pair (di, tj), where di (1 ≤ i ≤ n) represents the i-th document and tj (1 ≤ j ≤ m) represents the j-th term. For example, using a tf/idf representation, we have wij = tf(ti-di)idf(tj). Thus, given the values of the wij, the term-document matrix represents the whole document collection. Therefore, each document can be expressed as a vector consisting of the weights of each term and mapped in a vector space: