2009-7-26 1
1-3 信息检索的基本原理一、信息检索的基本原理二、信息检索原理的阐释讨论题附录:我国企业人员获取信息的方式
2009-7-26 2
一、信息检索的基本原理检索的基本原理:对信息集合与需求集合的匹配和选择 。
个人问题 特征化 选择与 特征化 信息与知识 表示 匹配 D&I 表示 集合 I
需求集合 D
2009-7-26 3
信息检索基本过程可定义为一个四维组,即 S= (D,Q,T,δ)。 D为文献集合,Q为用户查询,T是标引集合,而 δ为匹配函数 。 δ:
D/× Q/→ R,D/是标引的文献集合,Q/是标引的查询集合,R为函数值集合 。 每个具体的 δ值就表示具体的文献 d关于某次查询 q的相关程度 。
(借助于检索语言 )信息处理中心 σ
查寻 Q 标引 Q’ 输出 ψ(q)
文献 D 标引 D’
2009-7-26 4
二、信息检索基本原理的阐释
1,需求集合
2,信息集合
3,匹配与选择
2009-7-26 5
1、需求集合需求集合涉及人类生存所必需的一切东西,其中包括信息需求 。
信息需求的结构与规律。
⑴ 信息需求是一种运动状态,并表现为三个层次结构。
⑵ 信息需求的心理行为规律包括 Mooers定律,Zipf最少省力法则、马太效应和罗宾汉效应。
⑶ 学生信息需求特征。
信息需求的识别与表达 。
信息需求的处理与加工 。 即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征 。 经过这样处理的信息需求称之为 Query。
2009-7-26 6
2、信息集合信息集合是指有关某一领域的文献或数据的集合 。
信息集合的复杂性 。
信息集合的序化 。
Access point。 每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据 。
我们称之为检索点 。
2009-7-26 7
3、匹配与选择匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息 。
采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典 。 在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件 。
采用向量模型,计量文档向量与查询词串之间的相似度 。
采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档 。
此外,还可以采用神经网络模型,基于命题逻辑模型,聚类模型,
基于规则模型,模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程 。
2009-7-26 8
讨论题
Topic 你了解哪些信息需求和信息系统?
Topic 你在学习方面的信息需求的分布状况 (按降序或升序排列 )?
Topic 你查寻信息的基本途径有哪些?
2009-7-26 9
Topic 你了解哪些信息需求和信息系统?
由于父母培养孩子的方法不当,尤其是在最初三年间,许多孩子不能充分发挥其潜力
信息经济日新月异,但西北地区的信息水平却很低 。
孩子教育费用,抚育费用逐年变化情况 。
肚子饿了,想在兰州市找家饭店却无法弄清孰好孰坏 。
2009-7-26 10
Topic 你在学习方面的信息需求的分布状况?
类型上:教科书,专著,工具书,研究报告,专利文献等;
内容上:专业文献,课外读物 (文学,管理,经济,政治等 )等;
地域上:本单位,外单位,外地等;
语种上:中文,外文,少数民族文字等 。
2009-7-26 11
Topic 你查寻信息的基本途径有哪些?
检索即是一种交流,它可以是内向的,也可以是外向的。
2、同行同事
3、中介
4、技术
5、已记载的知识
1、生存环境
2009-7-26 12
附录:我国企业人员获取信息的方式企业类型获取方式大 中 小 总体情况 (利用比例)
经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员利用图书情报部门 7.69 18.50 18.99 24.04 12.63 17.27 13.10 19.91
国内参观 7.69 10.00 8.86 8.24 11.58 10.99 9.38 9.74
国内会议 9.63 7.00 10.13 8.96 12.63 13.19 10.80 9.72
自行阅读文献 17.31 10.00 7.60 8.97 9.74 9.89 11.46 9.62
通过相关人员 15.39 9.50 11.39 8.96 10.53 9.89 12.44 9.45
通过单位情报服务 5.77 11.00 8.86 9.68 7.37 6.59 7.33 9.09
国内调研 3.85 8.00 2.53 7.89 4.21 10.99 3.53 8.96
通过情报信息网 3.85 6.00 6.33 5.74 4.21 5.50 4.80 5.75
国内信函 11.54 5.50 8.86 4.30 5.26 6.59 8.55 5.46
实地收集信息 11.53 4.50 6.33 3.94 6.32 6.59 8.06 5.01
利用技术市场 1.92 3.00 3.80 3.23 8.42 0 4.71 2.08
国外信函 0 1.00 1.27 2.51 2.11 2.20 1.13 1.90
国外考察学习 1.92 2.00 2.53 1.79 3.16 1.10 2.54 1.63
国外 (际 )会议 0 1.50 0 1.08 0 0 0 0.86
其它方式 1.92 2.50 2.53 0.72 2.11 0 2.19 1.07
1-3 信息检索的基本原理一、信息检索的基本原理二、信息检索原理的阐释讨论题附录:我国企业人员获取信息的方式
2009-7-26 2
一、信息检索的基本原理检索的基本原理:对信息集合与需求集合的匹配和选择 。
个人问题 特征化 选择与 特征化 信息与知识 表示 匹配 D&I 表示 集合 I
需求集合 D
2009-7-26 3
信息检索基本过程可定义为一个四维组,即 S= (D,Q,T,δ)。 D为文献集合,Q为用户查询,T是标引集合,而 δ为匹配函数 。 δ:
D/× Q/→ R,D/是标引的文献集合,Q/是标引的查询集合,R为函数值集合 。 每个具体的 δ值就表示具体的文献 d关于某次查询 q的相关程度 。
(借助于检索语言 )信息处理中心 σ
查寻 Q 标引 Q’ 输出 ψ(q)
文献 D 标引 D’
2009-7-26 4
二、信息检索基本原理的阐释
1,需求集合
2,信息集合
3,匹配与选择
2009-7-26 5
1、需求集合需求集合涉及人类生存所必需的一切东西,其中包括信息需求 。
信息需求的结构与规律。
⑴ 信息需求是一种运动状态,并表现为三个层次结构。
⑵ 信息需求的心理行为规律包括 Mooers定律,Zipf最少省力法则、马太效应和罗宾汉效应。
⑶ 学生信息需求特征。
信息需求的识别与表达 。
信息需求的处理与加工 。 即采用特定的检索语言将信息需求表示出来,换言之,将检索问题或课题进行处理,抽取出主题内容或其他特征 。 经过这样处理的信息需求称之为 Query。
2009-7-26 6
2、信息集合信息集合是指有关某一领域的文献或数据的集合 。
信息集合的复杂性 。
信息集合的序化 。
Access point。 每件信息都包含有其内部和外部的特征即信息的属性,这些特征可以用来作为检索的出发点和匹配的依据 。
我们称之为检索点 。
2009-7-26 7
3、匹配与选择匹配与选择是一种机制,它负责把需求集合与信息集合进行相似性比较,然后根据一定的标准选出符合需要的信息 。
采用布尔模型,一个文档通过一个关键词条的集合来表示,这些词条来自一个词典 。 在查询与文档的匹配过程中,主要看该文档中的词条是否满足查询的条件 。
采用向量模型,计量文档向量与查询词串之间的相似度 。
采用概率论模型,将文档按照与查询的概率相关性的大小进行排序,排在最前面的文档是最有可能被获取的文档 。
此外,还可以采用神经网络模型,基于命题逻辑模型,聚类模型,
基于规则模型,模糊模型和语义模型等,来深入研究查询与文档之间的匹配过程 。
2009-7-26 8
讨论题
Topic 你了解哪些信息需求和信息系统?
Topic 你在学习方面的信息需求的分布状况 (按降序或升序排列 )?
Topic 你查寻信息的基本途径有哪些?
2009-7-26 9
Topic 你了解哪些信息需求和信息系统?
由于父母培养孩子的方法不当,尤其是在最初三年间,许多孩子不能充分发挥其潜力
信息经济日新月异,但西北地区的信息水平却很低 。
孩子教育费用,抚育费用逐年变化情况 。
肚子饿了,想在兰州市找家饭店却无法弄清孰好孰坏 。
2009-7-26 10
Topic 你在学习方面的信息需求的分布状况?
类型上:教科书,专著,工具书,研究报告,专利文献等;
内容上:专业文献,课外读物 (文学,管理,经济,政治等 )等;
地域上:本单位,外单位,外地等;
语种上:中文,外文,少数民族文字等 。
2009-7-26 11
Topic 你查寻信息的基本途径有哪些?
检索即是一种交流,它可以是内向的,也可以是外向的。
2、同行同事
3、中介
4、技术
5、已记载的知识
1、生存环境
2009-7-26 12
附录:我国企业人员获取信息的方式企业类型获取方式大 中 小 总体情况 (利用比例)
经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员经济管理人员技术人员利用图书情报部门 7.69 18.50 18.99 24.04 12.63 17.27 13.10 19.91
国内参观 7.69 10.00 8.86 8.24 11.58 10.99 9.38 9.74
国内会议 9.63 7.00 10.13 8.96 12.63 13.19 10.80 9.72
自行阅读文献 17.31 10.00 7.60 8.97 9.74 9.89 11.46 9.62
通过相关人员 15.39 9.50 11.39 8.96 10.53 9.89 12.44 9.45
通过单位情报服务 5.77 11.00 8.86 9.68 7.37 6.59 7.33 9.09
国内调研 3.85 8.00 2.53 7.89 4.21 10.99 3.53 8.96
通过情报信息网 3.85 6.00 6.33 5.74 4.21 5.50 4.80 5.75
国内信函 11.54 5.50 8.86 4.30 5.26 6.59 8.55 5.46
实地收集信息 11.53 4.50 6.33 3.94 6.32 6.59 8.06 5.01
利用技术市场 1.92 3.00 3.80 3.23 8.42 0 4.71 2.08
国外信函 0 1.00 1.27 2.51 2.11 2.20 1.13 1.90
国外考察学习 1.92 2.00 2.53 1.79 3.16 1.10 2.54 1.63
国外 (际 )会议 0 1.50 0 1.08 0 0 0 0.86
其它方式 1.92 2.50 2.53 0.72 2.11 0 2.19 1.07