网络信息检索课程ppt Lecture 16 news filtering

合集下载

信息检索课件

信息检索课件
2020/1/21
2、关键词搜索
用户访问搜索引擎的Web站点,在输入表 格中输入感兴趣主题的关键词,站点检索以 前建立的索引,返回包含这些关键字的站点 列表。
信息的收集由搜索程序(如:robot、spider、
harvest、pursuit等)自动完成。搜索程序定期在 Internet 上 漫 游 , 自 动 而 系 统 地 访 问 尽 可 能 多 的 Web页面,对它们进行分析,建立起能够查找到相 关单字的页面的URL地址的索引,并通过网页间的 链接顺序搜索新的地址,当遇到新的网页时,就给 该页做上索引,把它加到搜索引擎的数据库中,使 得搜索引擎的数据库得以定期更新。
3、利用网络信息检索工具查找
使用不同类型的网络检索工具,来查询 不同类型的资源
2020/1/21
三、网络信息资源的检索技术
1、分类目录检索
网络分类目录一般是人工建立的,类似 于图书馆的目录,适合于主题较宽泛或要 求较为简单的查询。Yahoo即属典型的分 类目录检索工具。
2、关键词检索
指利用搜索索引查找Web页的方法。较 适合于主题较为专指、细小或狭窄的查询。
每个IP地址由两个部分组成:
网络标识、主机标识
同一个物理网络上的所有主机用一个网络ID, 每一个主机各有一个唯一的主机ID与之对应
2020/1/21
(3)IP地址的类型
A类网络地址:四段号码的第一段号码为网络ID号, 其余三段号码为主机ID号。这类地址一般分给具有 大量主机的大型网络使用。
某些字、符号或短语起着Hotlink作用的文本 文件。当链接的内容同时含有文字、声音、 图象、动画等时,就称为超媒体Hypermedia。
7、超文本标记语言(HTML)

《信息检索课程介绍》课件

《信息检索课程介绍》课件

第七章:课程总结与展望
• 课程回顾 • 学习体会 • 未来学习方向
《信息检索课程介绍》 PPT课件
欢迎大家来到《信息检索课程介绍》PPT课件。本课程将带领您深入了解信 息检索的基础知识和技术,并探讨其应用和未来发展。
第一章:课程简介ห้องสมุดไป่ตู้
• 课程概述 • 授课教师介绍 • 课程目标
第二章:基础知识篇
• 信息检索概述 • 相关技术介绍 • 信息需求分析
第三章:索引与检索篇
• 文本预处理技术 • 倒排索引原理及实现 • 布尔检索模型 • 向量空间模型
第四章:评价指标篇
• 检索结果评价 • 信息检索系统评价 • 检索结果可视化
第五章:应用案例分析篇
• 搜索引擎概述及分类 • 搜索引擎技术分析 • 搜索引擎应用案例分析
第六章:未来展望篇
• 科技发展及对信息检索的影响 • 信息检索未来发展方向

网络信息检索课件

网络信息检索课件

《网络信息检索》教学计划
章次 教学内容 总学 时数 讲授 实验学 教学 学时 时 要求
1 2 3 4 5 6 7 8 9
第1章 绪论 第2章 检索原理和搜索引擎 第3章 多媒体信息下载技术 第4章 文献和科技文献检索技术 第5章 网上期刊数据库检索 第6章 数字图书馆检索 第7章 怎样写文献综述和毕业论文 第8章 素材加工与信息发布技术
2、凡无故旷到两次者(实验和课堂考勤累 计),或作业进度滞后者, “诚信系数” 为0.5,同时在成绩册上给以“黄牌警告”, 限期改正。如两周后作业进度仍未达到正常 进度,转为“红牌警告”。如在规定期间迅 速改正,则可取消“黄牌警告”,诚信度恢 复正常。
网络信息检索第一章 张胜光制作 11
3、凡无故旷到3次者(实验和课堂考
勤累计),或黄牌警告两周后仍无改
进者, 成绩册上转为“红牌警告”, 诚信系数降到0.2,限期一周改正。 如一周后有明显进步,则红牌警告 可以逐步取消。
网络信息检索第一章 张胜光制作 12
4、凡无故旷到4次者(实验和课堂考勤累计),
或红警告一周后仍无改进者,诚信系数为-100,
成绩册上转为“黑牌警告”,取消该生期末考试
网络信息检索第一章 张胜光制作 14
3、期末考试办法
诚信系数 为1
你可以 选择期 末考试 方式
提交网站 申请免试
期末 无纸化 考试
课堂测验 及格
提交课程 设计免试
网络信息检索第一章 张胜光制作
15
4、提交网站免考程序
名额一般不超过该班学生总数
独立完成 全部作业
的10%。如果申请免试的学生超过此 比例,则由任课教师按作品成绩和 提交先后顺序决定免试名单。
速发布技术(论坛、博客、播客、免费空间、 的实例,并对其优缺点进行评述。格式必须

信息检索与运用PPT课件(共8章)第四章包罗万象的互联网络----网络信息资源检索

信息检索与运用PPT课件(共8章)第四章包罗万象的互联网络----网络信息资源检索

搜索范围控制
合理控制搜索范围有助于获取 相关信息,避免徒劳无功。可 以使用高级搜索选项来缩小搜 索范围。
ቤተ መጻሕፍቲ ባይዱ
信息内容评判
搜索到的信息需要仔细评判其 可信度和有效性,以免获取不 实或过时的信息。
版权和隐私问题
在浏览网络信息时,要注意遵 守相关的知识产权和隐私保护 法规。
网络信息资源的鉴别与评价
鉴别网络信息
数据库式网络信息资源
数据库式网络信息资源是利用数据库技术组织和存储的各种专业 知识和数据资源。它提供了持续更新和专业检索功能,涵盖了科 学、技术、医疗等各个领域的前沿信息。登录数据库可获得结构 化的、可靠的数据和知识,是学习和研究的宝贵来源。
多媒体网络信息资源
互联网已经成为人类最大规模的多媒体信息宝库。从文本、图像、音频到视频 ,各种格式的内容随时随地可以被获取和分享。这些丰富多彩的网络多媒体资 源为学习、工作和娱乐提供了无限可能。
1994年
Yahoo!和Excite等全文检索引擎相继问 世,开启了现代搜索引擎的发展。
1998年
Google推出了基于网页排名的全新技术 ,彻底革新了搜索引擎的工作机制。
网络搜索引擎的工作原理
数据收集
1
通过网络爬虫自动抓取网页内容
信息索引 2
对收集的数据进行结构化处理和存储
查询匹配 3
根据用户查询快速匹配相关内容
包罗万象的互联网络 网络信息资源检索
互联网为人们提供了海量、多样的信息资源。掌握有效的网络信息检索方法对 于获取所需信息至关重要。本章将介绍如何利用各种检索工具和方法高效地查 找和筛选所需的网络信息。
by
互联网 - 人类最大的信息资源
庞大信息库

网络信息检索概论.ppt

网络信息检索概论.ppt

2019年9月21
感谢你的观看
8
二、网络信息资源的类型
1、按所采用的传输协议分
• 万维网(world wide web,简称WWW或Web)信息 资源:它使用http协议,使用简单,功能强大,能方
便迅速的浏览和传递分布于网络各处的文字、图象、 声音和多媒体超文本信息
• Telnet信息资源: telnet是远程登陆协议。telnet信息
输入检索词 公务员考试模拟试题
输入检索式
2019年9月21
感谢你的观看
35
两种输入方式的检索结果
2019年9月21
感谢你的观看
110000
36
又如:在标题中检索 “完整关键 词”
Title:“公务员考试模拟试题”
2019年9月21
感谢你的观看
104000
37
又如:google
2019年9月21
32
检索结果
2019年9月21
感谢你的观看
6570000
33
3、高级检索
高级检索:往往需要 用户按照搜索引擎 检索的语法规则, 自行构造完整的检 索式(在基本检索 界面),或将检索 词输入到相应的检 索框中。 (在高级检索界 面)。
• 高级检索界面:
2019年9月21
感谢你的观看
34
如:“公务员考试模拟试题”
2019年9月21
感谢你的观看
15
2、元搜索引擎
2019年9月21
感谢你的观看
16
2019年9月21
感谢你的观看
17
二、检索结果的排序方法
(1)自然排名——就是按相关度排名原则,对应的排名结果称 “自然排名”。

网络信息检索(一).ppt

网络信息检索(一).ppt


如:/index.php
10
2007
1.4 域名与网络信息资源有什么关系?
由于Internet最初是在美国发源的,因此最早的域名并无国家标识,人 们按用途把它们分为几个大类,它们分别以不同的后缀结尾:
.com 商业公司
.edu 教育机构
.org 组织、协会等
17
2007
2.3 网络信息资源的特点




复杂性:网络信息资源具有大数量、多类型、多媒体、非规范、跨 时间、跨地域、跨行业、多语种等特点。 在很大程度上网络的增长和信息资源的动态快速增加是由用户驱动 的,但缺乏有效的统一管理机制,信息安全和信息质量的不均衡性。 信息分布和构成缺乏结构和组织,信息源不仅分散无序,而且其更 跌和消亡也往往无法预测,因此增大了信息资源管理和利用的难度。 信息发布具有很大的自由性和任意性,隐私型信息进入了公共信息 传播渠道;由于缺乏必要的过滤、质量控制和管理机制,不仅学术 信息、商业信息,政府信息、个人信息、不合适(反动、黄色)的 信息混为一体,质量良莠不齐。增加了信息识别和利用的难度。
30个月全球网站数量翻一番总数已突破1亿大关 【2006年11月03日】
18
2007




正式出版物和非正式信息交流交织在一起,使传统的 人类信息交流链的格局被打破,各方在网络上既可以 是信息的生产者、发布者,也可以是传播者和使用者, 对学术交流环境和信息利用产生了深刻的影响。 网络营造了“地球村”,既极大地促进了人类信息资 源的共享,又带来了一些意想不到的问题,如文化冲 突、信息侵略、信息威慑等。 使用成本低 共享程度高 是信息资源的宝库……
15
2007
2.2 网络信息资源的类型
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

What is TDT?
• Automatic organization of news by events
– Wire services and broadcast news – Organization on the fly--as news arrives – No knowledge of events that have not happened
(Xinhua)
NPR El Mundo ABC AP
So TDT means going from this...
NBC
(Xinhua)
NPR El Mundo ABC AP
…to this
NBC
(Xinhua)
NPR El Mundo ABC AP
What TDT is, summary
• Five technology evaluation tasks
Outline
• • • • • • What is TDT Data Approaches to tracking Evaluation of TDT Score normalization issues Native language comparisons
The Tracking Task
IDF is incremental or retrospective
Vector Space approach to Tracking
• Compare vectors by cosine of angle between the story and the topic.
– Story segmentation – find story boundaries in broadcast news – Topic tracking – given sample stories, find rest on same topic – First story detection – detect onset of new event in the news – Cluster detection – group stories into events (unsupervised) – Story link detection – decide if two stories discuss same event • Tracking and detection on event-based topics – Though most approaches are the same as those used for subject-based tasks • All tasks are on-line (not batch) evaluations – Cluster detection task has a “retrospective” (回顾性的) variation
Vector Space approach to Tracking
• Treat stories as “bags of words” • Really as a vector of weighted features
– Features are word stems (no stopwords) – Weights are a variant of tf-idf
• The system is given one training document Tj per story. • Stories come in sequence S1 … Sn
The Tracking Task
• Stories with similarity above a threshold threshyes/no to the training story are marked YES
• add story S4 to topic Tj and recompute model
• Danger of adapting with a false alarm story.
The Tracking task -- adaptation
• Adaptation
– If sim(Tj, Si) > threshyes/no then story Si is on topic Tj – If sim(Tj, Si) > threshadapt add story Si to topic Tj and recompute model – threshadapt > threshyes/no
• News from Different Sources
Print ASR Audio Manual
TDT data
• TDT4 corpus
– Oct 2000 – Jan 2001
• News from DifferentFra bibliotekSources
Print ASR Audio Foreign Manual English Mandarin Arabic MT Nat MT Nat
Truth N
N
Y
Y
The Tracking Task
• Misses and False Alarms
Truth N
N
Y
Y
The Tracking Task-- Adaptation
• Consider that sim(Tj, S4) > threshadapt
The Tracking Task-- Adaptation
<DOC> <DOCNO> CNN19981002.1600.0051 </DOCNO> <DOCTYPE> NEWS </DOCTYPE> <TXTTYPE> ASRTEXT </TXTTYPE> <TEXT> YOU'RE DETAILS ABOUT PRESIDENT CLINTON'S RELATIONSHIP WITH MONICA LEWINSKI TODAY THE HOUSE JUDICIARY COMMITTEE HAS RELEASED THE LAST MAJOR BATCH OF EVIDENCE COLLECTED BY KEN STARR IN HIS SEVEN MONTH PROBE FORTY SIX HUNDRED PAGES MADE PUBLIC TODAY INCLUDE TRANSCRIPTS OF LINDA TRIP SECRET TAPE RECORDINGS OF CONVERSATIONS WITH HER TESTIMONY BY MOST OF THE MAJOR WITNESSES TO APPEAR BEFORE A GRAND JURY IS ALSO INCLUDED WHILE THIS NEW MATERIAL DOESN'T CONTAIN THE CONTROVERSIAL DETAILS OF PREVIOUSLY RELEASED DOCUMENTS IT DOES ADD COLOR THE CONTACTS BETWEEN PRINT AND LOWENSTEIN
<DOC> <DOCNO> CNN19981002.1600.0051 </DOCNO> <DOCTYPE> NEWS STORY </DOCTYPE> <DATE_TIME> 10/02/1998 16:00:51.26 </DATE_TIME> <BODY> <TEXT> new details are out about president clinton's relationship with monica lewinsky. the house judiciary committee has released the last major batch of evidence collected by ken starr in his investigation. the 4,600 pages made public today include transcripts of linda tripp's secret tape recordings of her conversations with lewinsky. testimony by most of the major witnesses who appeared before the grand jury is also included. while this new material doesn't contain the controversial details of previously released documents, it does add color to the contacts between while this new material doesn't contain the controversial details of previously released documents, it does add color to the contacts between tripp and lewinsky.
• XML feeds • Lots of News sites provide it now • Web content providers can easily create and disseminate feeds of data that include news links, headlines, and summaries.
Outline
• • • • • News Filtering Topic Detection and Tracking TREC filtering task Improving the realism of Topic Tracking Introduction to the Exploration Exploitation Trade-off
相关文档
最新文档