需求抽取( II)
认知的方法
上下文方法
民族学作为一种需求工程技术
知识工程的困难
? 将领域知识和运作知识分离
? 建模的问题
? 脆弱性
? 合理性假设
? 表示的问题
? 认识论的不适当性
? 表达能力和可获取性
? 专家的偏见
需求抽取和知识抽取
? 区别,知识抽取涉及发现 ‘ 专家 ’ 知识,
需求抽取涉及发现领域知识
? 需求抽取原理上与知识抽取是类似的
? 拥有共同的困难
? 借鉴和利用知识工程的研究成果和经验
知识抽取技术的发展背景
? 成长于 80年代关于专家系统的工作
? 最初关注于为基于规则的系统,设计专
家的启发式规则
? 后来,针对不同的知识(包括领域不同、
用途不同、形式不同),提出不同的知
识表示语言,和不同的推理机制
? 近期,更关注于问题求解方法
知识抽取客观上的困难
? 专家不习惯描述他们做什么
? 学习的三步曲
? 认知 —— 任务在文字上的复述
? 联想 —— 通过重复进一步加强,文字媒体消失
? 自发 —— 被编译的,无意识地运用
? 过程性和描述性是不同机制
? 通过重复应用,描述性知识变成过程性知识 —— 专家失去了
对他们知道什么的意识,并且不能够可靠地反省出来
? 专家对更高级的认知过程具有很少或几乎没有任何意识
知识知识抽取客观上的困难
? 表示的问题
? 专家没有这样的语言来描述他们的知识
? 不存在任何口语能提供必要的精确表示
? 知识工程师必须和专家一起来创建一种合适的语言
? 不同的知识表示擅长于表示不同的事情
? 认识论的适当性:这种形式化表达专家的知识合适吗?
? 脆弱性
? 知识是被创造出来的,不是被抽取出来的
? 知识模型是现实的抽象,因此不可避免地要带选择性
? 脆弱性是由简化的假设引起的 —— 作为对增加更多的知识的替代,
一个更好的(或更合理的)模型是需要的。
专家的偏见
? 什么是偏见?
? 偏见只在关系到某个参考点时存在
? 能够说“无偏见的”吗?(反映现实或真理)
? 我们不能直接感知现实
? 现实通过心理模型的过滤后得到解释
? 并通过我们的感觉和神经中枢作为载体来传播
? 所以的决策都是部分地基于个人价值系统的
? 偏见的类型
? 动机上的偏见
? 专家乐意讨好交谈者或某些其他的听众
? 认知上的偏见
? 专家不遵循客观的规则或标准
偏见的来源
? 社会压力
? 作为对来自交谈者的言语的或非
言语的线索的反应
? 组思考
? 作为对其他专家的反应的反应
? 印象管理
? 作为对主管、客户等的想象中的
反应的反应
? 带愿望的思考
? 作为对希望或可能的收益的反应
? 错误的解释
? 分析员选择性地进行解释,以支
持她当前的信念
? 错误的表达
? 专家不能准确地按要求的响应模
式给出反应
? 思维定势
? 一旦一个初步的解决方案给出,
与之相矛盾的数据就被忽略了
? 不一致性
? 以前制定的假设被忘记了
? 存在性
? 一些数据比其它一些数据更容易
被招回
? 不确定性的过低估计
可获取性和表达能力
知识的层次
? 将知识建模看作:
? 将一个 Agent的行为作为一
个黑盒子来观察
? 它就像拥有关于它的环境
的,并且它能够合理地使
用的知识那样行为
? 它采取行为来实现事先给
定的目标
? 构造两个模型
? 符号层次:机械化行为的
描述
? 知识层次:这个 Agent关于
世界的知识的描述
环境
行为
知识层模型
符号层模型
观察
观察者
(建模者)
机械化
合理化
Agen
t
知识的层次
? 两步理性
? Agent按两个步骤应用它的知识
? 首先从基于这个任务特征的知识
模型出发,创建一个特定的任务
模型,然后再利用这个任务模型
求解问题
? 因此,我们实际上需要 3个模型
? 领域模型:按系统的方法去谈论
一个领域,带有一个内聚的本体
? 任务模型:按系统的方法谈论目
标,意味着达到这个目标,以及
目标怎样达到
? 问题求解方法:关联实现目标的
任务和领域模型的方式
知识
行为
问题求
解方法
任务特征
典型的技术
? 抽取领域知识
? 卡片分类法
? 抽取运作知识
? 场记分析
? 使用多专家
? Delphi技术
? 个人结构和分类表格
? 自动技术
? 机器学习
卡片分类法
? 分类和合成技术
? 自顶向下的概念分类
? 自底向上的概念聚类
? 过程:
? 从数据开始
? 专家制定分类原则
? 对数据进行分类
场记分析法
? 发源于:心理学,特别是
从行为心理学向认知心理
学的过渡时期
? 主要观点:人的意识和精
神活动是可以观察、了解
和研究的
? 要点:被试验者用“大声
朗读”的方法说出他正在
处理某件事情时的内心意
识过程
场记分析法
? 生成场记的方法
? 大声思考法:要求被试者大声说出他解决问题的思维过程
? 大声意识流法:要求被试者把处理一件事前后的不自觉的意识
也讲出来
? 当场反省法:要求被试者把处理一件事时对自己某些想法的批
判和修正也讲出来
? 事后回顾法:要求被试者在处理完一件事后把自己在处理过程
中的思想活动讲出来
? 行为记录法:由实验者实时记录被试者处理一件事的全部过程
? 记录平讲法:用录音或录像的方法把被试者处理一件事的过程
记下来,事后放给被试者听或看,由被试者边听(看)边予以
评述,实验者再记下这些评述
场记分析法
?其中的主要区别
? 当场讲述还是事后讲述
? 只讲行为过程,还是还要包含意识过程
? 只讲当时的实际思维情况,还是也讲事
后回顾、总结和提高
场记分析方法
? 统计方法
? 以问题为中心的方法
? 目前方法不是很规范,不同的应用采用不
同的方法
从多个专家那里获取知识
? Delphi技术
? 在专家之间的约定难以统一时使用
? 每个专家提交各自自己的判断
? 所有的判断匿名地在所有的专家那里传阅
? 然后每个专家再提交修改后的判断
? 循环直到判断能够集中
? 有中心的组
? 从市场机制中导出的技术
? 将专家集中在一起讨论这个问题
? 讨论可以是结构化的(如,辩论)或非结构化的
从多个专家那里获取知识
? 分类表格技术(以 Kelly的个人结构理论为基础)
? 用于检测术语的差异
? 让专家同意一组实体
? 每个专家提供这些实体的属性和属性值
? 对专家 A的表格中的每个属性,在专家 B的表格中寻找最接
近的匹配(即,存在具有相同的区分函数的属性吗?)
? 然后专家用相互的属性对这些实体进行评价
? 也可用于从单个专家处获取知识
专家的分类表格(双级属性)
正向属性 发烧 1-2
天后出疹
疹一天出

耳后淋巴
结肿大
全身性分

全身症状

有服药史
风疹 1 1 1 1 1 5
麻疹 5 5 5 1 5 5
猩红热 1 1 5 5 5 5
奶疹 5 1 5 5 1 5
药物疹 NIL NIL 5 NIL 1 1
反向属性 3-4天后
出疹
2-3天出

不肿大 局部性分

全身症状

不一定有
机器学习(分析学习)
? 基于归纳的学习
? 主要概念:版本空间、样本(正例、反例)
? 学习过程:从样本中,通过分类属性的划分,学习概念类及其概念的
分类层次
? 基于分析的学习
? 基于类比的学习:概念属性尽可能相同,则可类比;类比的重点不同
会导致不同的类比结果
? 基于案例的学习:以类比推理为基础,组织案例库,支持案例库的检
索和排除二义性,直接用已有的案例类比来解决新问题
? 基于解释的学习
? 前提:给定一个知识库,给定一个实例和一个目标概念。
? 学习过程:用知识库中的知识证明该实例属于该概念
? 学习结果:将上述证明过程进行泛化,则得到一种新的解题过程
机器学习(遗传算法)
? 基于遗传原理的学习
? 起源:自适应系统,将竞争机制引进系统,以便不断
改进和完善系统的工作性能
? 特性:
? 竞争机制,适者生存
? 知识更新的随机性
? 方法
? 爬山法
? 抽样统计和概率计算
机器学习(遗传算法)
? 基本遗传算法
? 给定一个初始知识库
? 计算每个知识单元对外界环境的适应程度
? 根据个知识单元对环境的适应度,计算它们被选中作物种演变
的概率值
? 根据概率值选出一批知识单元
? 运用各种遗传算子于被选中的知识单元,产生一批新的知识单
元,即它们的后代
? 用这批后代去代替知识库中原有的适应度最低的那些知识单元,
实现知识更新
? 把新知识库作用于外界环境,解决新的问题,获取新的反馈信
息,重新计算各知识单元对环境的适应度
机器学习(神经网络)
? 基于神经网络的学习
? 拓扑结构:
? 神经网络是由一组神经元组成的
? 一个神经元为一个输出,多个输入的非线性节点
? 神经元的每个输入端口都有一个权值
? 神经元的输出就是这些输入及其权值的一个函数。
机器学习(神经网络)
输入层 输出层隐层
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
神经
单元
机器学习(神经网络)
? 学习
? 通过大量实例进行归纳学习
? 学习过程修改网络连接上的权值分布,使其
达到一定的稳定状态
? 使用
? 对新数据按学习到的权值进行计算输出值
几种常用知识工程方法的比较
优点 缺点
卡片分类法 简单,易于自动化;抽取分
类知识
需要事先识别概念 / 数
据的语义;不包含执行
知识
场记分析法 心理学方法,“大声朗读”
说出处理某件事情 的内心
活动;嵌入在工作情景中;
利于表示和系统的交互
不是很可靠;
知识反猜法 处理层次型知识;知识表示
成标准形式;抽取结构化知
识;易于自动化
假定只有层次关联
分类表格技术 利于抽取心理模型(包含多
极属性);利于抽取隐含知

要求事先安排好一组元
素;只能抽取分类知识
抽象主义和上下文主义
? 抽象主义
? 建立从领域中抽象出来的模
型:这个模型用于
1,决定我们想要描述的现象的
本体
2,使用这个本体来表达所涉及
的领域
? 假设:知识和理解是独立于
上下文的
? 被自然科学家和工程师广泛
使用
? 虽然许多科学家没有意识到
其中的第 1步涉及到选择
? 逻辑实证主义还是理论驱动
的观察
? 上下文主义
? 强调领域的细节和特性
1,从要研究的领域中收集
天然的数据(丰富的描
述)
2,使用这些数据来支持解
释(但不建立抽象模型)
? 假设:如果离开上下文就
不可能建立有含义的模型
? 被许多社会科学家使用
? 但通常将它们限制为描
述的,而不是预言性的
或规定性的
参与式观察
? 方法
? 观察者将时间用到要
研究的主题上,参与
进去,足够的长时间,
是自己成为其中的一
员(“纵观研究”)
? 注意
? 成为“土生土长的人”
? 优点
? 上下文 化
? 揭示其它方法不能揭
示的细节
? 缺点
? 绝对地化时间
? 产生的“丰富的图示”
但难以分析
民族方法学
? 基础
? 社会世界是有序的
? 社会秩序不会马上变得明
显,也不会是从常识出发
可以描述的
? 社会秩序不能假设具有先
验的结构
? 即,社会秩序只有当观察
者浸入其中的时候才出现
? 强调自然调节的重要性
? 使用成员们自己的分类
? 大多数通常的方法假设预
先存在的分类
? 这可能会误导观察者
? 人种论试图使用主体自己
的分类
? 关系到后现代解构:“不
存在主要的陈述”
? 度量
? 无科学的客观性,所以使
用主体自己的度量理论
民族方法学家的观点
? 需求抽取是一个
社会活动
? 因为它涉及人与
人的交流(通过
讨论、观察等)
? 因为当存在不同
意见时,它涉及
达成一致意见的
协商
? 因为它影响并改
变人类活动系统
? 应用的领域常常是社会世界
? 需要有恢复社会世界的秩序的技术
? 社会秩序不可能立即变得明显和可描述
? 社会秩序不能假设具有事先的结构
? 社会秩序只能通过浸入的方式来理解
? 社会秩序是由参与者的活动来构造的
? 需要目击社会现象的展现
? 不能仅使用预先给定的分类来采集数据
? 需要考虑
? 含义怎样发展并在上下文中进化
? 人们用来使他们周围的世界有意义使用
的方法
民族方法学的方法
? 民族方法学是的一个子领域
? 考察可能在特殊文化背景下不同,但有相同的基本目的或含义的活动
? 比如:不同地方的人由于不同的文化背景夸耀不同的方面来获得社会地位
? 使用非常密切控制的方法
? 交谈分析
? 非话语行为的研究(如:手势、肢体语言)
? 详细录象分析
? 其它观察技术
? 时间 -行动研究:谁在什么地方,什么时候?
? 谈话审查:谁向谁说了什么?
? 工具的使用