人机交互技术编写组 1
第 4章 人机交互技术
人机交互技术编写组 2
本章将主要介绍以下几种人机交互技术,
l 命令行和文本菜单
l 图形用户界面
l 多通道用户界面
l 汉字信息处理
人机交互技术编写组 3
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据用户界面的具体形式
?分为批处理
?联机终端 (命令接口 )
?文本菜单
?WIMP界面
?多媒体用户界面
?多通道用户界面和虚拟现实用户界面
人机交互技术编写组 4
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据根据用户界面中信息载体的类型
?文本为主的字符用户界面 (CUI)
?二维图形为主的图形用户界面 (GUI)
?多媒体用户界面
人机交互技术编写组 5
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据计算机输出信息的形式
?以符号为主的字符界面
?以视觉感知为主的图形用户界面
?兼顾听觉感知的多媒体用户界面
?综合运用多种感观 (包括触觉等 )的虚拟现实技术
人机交互技术编写组 6
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据人机界面中的信息维度,人机交互技术
可以分为,
?一维信息 (主要指文本流,如早期电传式终端 )
?二维信息 (主要是二维图形技术,利用了色彩、
形状、纹理等信息 )
?三维信息 (主要是三维图形技术,但显示技术仍
利用二维平面为主 )和多维信息 (多通道的多维信
息 )空间
人机交互技术编写组 7
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据人机交互中采用的语言
?形式语言,形式语言是一种人工语言,特点是简
洁、严密、高效。
?类自然语言,类自然语言则是介于计算机语言和
自然语言之间。
?自然语言,自然语言的语法成分有更多的规则,
具有多义性、微妙、丰富、灵活的特点。
人机交互技术编写组 8
4.2命令行和文本菜单技术
4.2.1命令行
? 真正意义上的人机交互开始于联机终端的出
现 。
? 用户输入文本命令,系统也以文本的形式表
示对命令的响应。这种人机界面称为命令行
界面。
人机交互技术编写组 9
图 4-1 命令行界面概念模型
人机交互技术编写组 10
命令行交互界面
操作系统 MS-DOS是文本命令行交互界面。
? 例如,需要将所有扩展名为,.AAA”的文件
替换为扩展名为,.BBB”,如果在“我的电
脑”或,WINDOWS资源管理器”中,需要
一个一个地去查找、改名,操作的局限性是
显而易见的。利用命令 rename
[drive:][path] filename1 filename2或 ren
[drive:][path] filename1 filename2,使用通
配符,*”或“?”,就可以方便地更改一
组文件名或扩展名。
人机交互技术编写组 11
命令行交互界面
不同的操作系统要用不同的命令进入命令行界
面。在 Win9x/Me的开始菜单中的运行程序中
键入,command”命令,可进入命令行界面。
在 Win2000/NT的开始菜单中的运行程序中键
入,cmd”命令,可进入命令行界面。
批处理文件(也称为 批处理程序 或 脚本 )。批
处理文件是无格式的文本文件,包含一条或多
条命令,文件扩展名为 bat或 cmd。
人机交互技术编写组 12
4.2.2文本菜单
字符界面下的菜单方式:在菜单方式下用户必
须在有限的一组选项中进行识别和选择,更多
的是响应而不是发出命令。
用户不必记忆功能命令,缩短了用户的培训时
间,减少用户的击键次数,错误处理能力也有
了显著提高。
在这种界面中,人还是被看成操作员,机器做
出被动的反应,人只能使用手这一交互通道用
键盘输入选择信息,通过视觉通道获取信息,
界面输出只能为静态的文本字符。
人机交互技术编写组 13
文本菜单的设计
设计基于文本菜单的系统主要包括两方
面的工作:菜单的生成和显示,内部流
程的控制及错误处理。
【 例 4-2】 图书管理程序的主菜单的 Java语言代码 。
人机交互技术编写组 14
import java.io.*;
public class MenuDemo{
static void display_maintenace_menu() {
System.out.print(“\n\n\t\t<<维护子菜单 >>\n\n”);
System.out.println (“\t1--注册借书者, );
System.out.println (“\t2--注册图书, );
……,
System.out.println (“\t0--返回主菜单, );
}
public static void main(String args[]) throws Exception{
boolean quit=false;
char ch;
do {
display_mainmenu();
ch = (char)System.in.read();
switch (ch)
{
……,//调用相应的处理函数
}
}while(!quit);
Sytem.in.read();
}
}
人机交互技术编写组 15
4.3图形用户界面
图形用户界面又称为 WIMP界面,由窗口
(windows)、图标 (icons)、菜单 m)、指点设备
(pointing device)四位一体,形成桌面
(desktop),如图 4-2所示。
图形用户界面是当前用户界面的主流,广泛应
用于各档台式微机和图形工作站。
比较成熟的商品化系统有 Apple的 Macintosh、
IBM的 PM(Presentation Manager),Microsoft
的 Windows和运行于 Unix环境的 X-Window、
OpenLook和 OSF/Motif等。
人机交互技术编写组 16
W I M P 界面
用
户
手
眼
击 键 / 指点
窗口、图标
菜单、文本
应用例程
图 4-2 WIMP界面概念模型
人机交互技术编写组 17
4.3图形用户界面
图形用户界面的共同特点是以窗口管理
系统为核心,使用键盘和鼠标器作为输
入设备。
窗口管理系统除了基于可重叠多窗口管
理技术外,广泛采用的另一核心技术是
事件驱动 (event-driven)技术。
人机交互技术编写组 18
4.3图形用户界面
WIMP界面可看作是第二代人机界面,
是基于图形方式的人机界面 。
在 WIMP界面中, 人被称为用户, 人机
通过对话进行工作 。
用户只能使用手这一种交互通道输入信
息, 通过视觉通道获取信息 。
在 WIMP界面中, 界面的输出可以为静
态或动态的二维图形或图像等信息 。
人机交互技术编写组 19
4.3图形用户界面
这种方式能同时输出不同种类的信息,
用户也可以在几个工作环境中切换而不
丢失几个工作之间的联系,通过菜单可
以执行控制型和对话型任务。
由于引入了图标、按钮和滚动条技术,
大大减少键盘输入,提高了交互效率。
基于鼠标和图形用户界面的交互技术极
大地推动了计算机技术的普及。
人机交互技术编写组 20
4.3.1图形用户界面的主要思想
图形用户界面的三个重要思想
? 1, 桌面隐喻 (desktop metaphor)
? 2, 所见即所得( What You See Is
What You Get,WYSIWYG)
? 3, 直接操纵 (direct manipulation)
人机交互技术编写组 21
1.桌面隐喻 (desktop metaphor)
桌面隐喻是指在用户界面中用人们熟悉
的桌面上的图例清楚地表示计算机可以
处理的能力。
?图形具有一定的文化和语言独立性,可以提高搜
索目标的效率。
?图形用户界面中的图例可以代表对象、动作、属
性或其他概念。
隐喻的表现方法,
?静态图标
?动画
?视频
人机交互技术编写组 22
隐喻的分类,
? 直接隐喻:隐喻本身就带有操纵的对象
? 如 Word绘图工具中的图标, 每种图标分别代表不同的图
形绘制操作 。
? 工具隐喻:代表所使用的工具
? 如用磁盘图标隐喻存盘操作, 用打印机图标隐喻打印操作
等, 这种隐喻设计简单, 形象直观, 应用也最为普遍 。
? 过程隐喻:其通过描述操作的过程来暗示该操作
? 如 Word中的撤销和恢复图标 。
人机交互技术编写组 23
晦涩的隐喻不仅不能增加可用性,反而
会弄巧成拙。
隐喻的主要缺点,
? 需要占用屏幕空间
? 难以表达和支持比较抽象的信息。
人机交互技术编写组 24
2.所见即所得( WYSIWYG)
在 WYSIWYG交互界面中显示的用户交互行为与应用程
序最终产生的结果是一致的。
非 WYSIWYG的编辑器,用户只能看到文本的控制代码,
对于最后的输出结果缺乏直观的认识。
WYSIWYG的 一些弊端,
? 如果屏幕的空间或颜色的配置方案与硬件设备所提供的配置
不一样,在两者之间就很难产生正确的匹配。
? 文本处理器都提供了定义章、节、小节等的标记,这些标记
显式地标明了对象的属性,但并不是用户最终输出结果的一
部分。
人机交互技术编写组 25
3.直接操纵 (direct anipulation)
直接操纵是指可以把操作的对象、属性、
关系显式地表示出来,用光笔、鼠标、
触摸屏或数据手套等指点设备直接从屏
幕上获取形象化命令与数据的过程。
直接操纵的对象是命令、数据或是对数
据的某种操作。
人机交互技术编写组 26
直接操纵的特性
1,直接操纵的对象是动作或数据的形象隐喻
? 形象隐喻应该与其实际内容相近, 使用户能通过屏幕上的
隐喻直接想象或感知其内容 。
2,用指点和选择代替键盘输入
? 用指点和选择代替键盘输入有两个优点, 一是操作简便,
速度快捷 。
3,操作结果立即可见
? 操作结果立即可见, 用户可以及时修正操作, 逐步往正确
的方向前进 。
4,支持逆向操作
? 用户在使用系统的过程中, 不可避免地会出现一些操作错
误, 通过逆向操作, 用户可以很方便地恢复到出现错误之
前的状态 。
人机交互技术编写组 27
直接操纵的特性
5,借助物理的, 空间的或形象的表示,
而不是单纯的文字或数字的表示 。
6.不具备命令语言界面的某些优点,
?例如从用户界面设计者角度看,设计图形比较繁
琐,需进行大量的测试和实验,
7.表示复杂语义、抽象语义比较困难。
人机交互技术编写组 28
4.3.2设计图形用户界面的原则
1,一般性原则
? (1)界面要具有一致性
? 在同一用户界面中,所有的菜单选择、命令输入、数据显
示和其他功能应保持风格的一致性。
? (2) 常用操作要有快捷方式
? 为常用操作设计快捷方式,不仅会提高用户的工作效率,
还使界面在功能实现上简洁而高效。
? (3)提供简单的错误处理
? 在出现错误时,系统应该能检测出错误,并且提供简单和
容易理解的错误处理功能
? (4) 对操作人员的重要操作要有信息反馈
? 提供信息反馈。对操作人员的重要操作要有信息反馈。
人机交互技术编写组 29
4.3.2设计图形用户界面的原则
1,一般性原则
? (5)操作可逆
? 对大多数动作应允许恢复 (UNDO),对用户出错采取比较
宽容的态度
? (6)设计良好的联机帮助
? 人机界面应该提供上下文敏感的求助系统,让用户及时获
得帮助,尽量用简短的动词和动词短语提示命令。
? (7)合理划分并高效地使用显示屏
? 只显示与上下文有关的信息,允许用户对可视环境进行维
护,如放大、缩小窗口;用窗口分隔不同种类的信息,只
显示有意义的出错信息
? (8)保证信息显示方式与数据输入方式的协调一致
? 尽量减少用户输入的动作,隐藏当前状态下不可用的命令,
允许用户自选输入方式,能够删除错误的输入,允许用户
控制交互过程。
人机交互技术编写组 30
4.3.2设计图形用户界面的原则
2.颜色的使用
? 颜色是一种有效的强化手段,同时具有美学
价值。使用颜色时应注意如下几点,
?(1) 限制同时显示的颜色数,
?(2) 画面中活动对象的颜色应鲜明, 而非活动
对象应暗淡 。
?(3) 尽量避免不相容的颜色放在一起, 如黄与
蓝, 红与绿等, 除非作对比时用 。
?(4) 若用颜色表示某种信息或对象属性, 要使
用户理解这种表示, 并尽量采用通用的表示规则 。
人机交互技术编写组 31
4.3.2设计图形用户界面的原则
3.图标的设计
? 图标是可视地表示实体信息的简洁、抽象的
符号。
? 图标设计是方寸艺术,需要在很小的范围内
表现出图标的内涵, 。
? 设计图标时应该着重考虑视觉冲击力,要使
用简单的颜色,利用眼睛对色彩和网点的空
间混合效果,做出精彩图标 。
人机交互技术编写组 32
4.3.2设计图形用户界面的原则
设计图标时须遵守的原则和方法,
? ( 1)图标的图形应该和目标的外形相似。
尽量避免过于抽象。
? ( 2) 可在图标中附加上简要的文本标注,
使用户明确图标的含义 。
? ( 3)设计图标应尽可能简单,符合常规的
表达习惯,保持图标含义的前后连贯。
人机交互技术编写组 33
4.3.2设计图形用户界面的原则
4.按钮的设计
? 设计按钮应该具有交互性,应该有 3到 6种状态效果,
? 点击时的状态
? 鼠标放在上面但未点击的状态
? 点击前鼠标未放在上面时的状态
? 点击后鼠标未放在上面时的状态
? 不能点击时的状态
? 独立自动变化的状态
? 按钮应具备简洁的图示效果,应能够让使用者产生
功能上的关联反应。属于一个群组的按钮应该风格
统一,功能差异大的按钮应该有所区别。
人机交互技术编写组 34
4.3.2设计图形用户界面的原则
5.屏幕布局的设计
? 设计屏幕布局 (Layout)时应该使各功能区重点突出,
应遵循如下几条原则,
? (1)平衡原则
? 注意屏幕上下左右平衡。
? (2) 预期原则
? 对屏幕上所有对象,如窗口、按钮、菜单等处理应一致化,
使对象的操作结果可以预期。
? (3) 经济原则
? 在提供足够信息量的同时要注意简明、清晰。
? (4) 顺序原则
? 对象显示的顺序应按需要排列。
? (5) 规则化
? 画面应对称, 显示命令, 对话及提示行在一个应用系统的设
计中尽量统一规范 。
人机交互技术编写组 35
4.3.2设计图形用户界面的原则
6.菜单界面的设计
? 菜单在图形界面的应用程序中使用得非常普遍,是
软件界面设计的一个重要组成方面,描述了一个软
件的大致功能和风格。
? 菜单中的选项在功能上与按钮相当,一般具有下列
一种或几种类型的选项:命令项、菜单项和窗口项。
? 菜单的结构一般有单一菜单、线状序列菜单、树状
结构菜单、网状结构菜单等,其中树状结构菜单是
最常见的结构。
人机交互技术编写组 36
菜单的结构
? 单一菜单
? 单一菜单是在几个选项中做出选择,可以有两个或多个选
项,用户可以选中其中一个或确定多个选择 。
? 线状序列菜单
? 把一组相关联的菜单组合在一起,用户清楚地知道如何向
前选择和目前在菜单中所处的位置,并且可以重返以前所
作的选择。
? 树状结构菜单
? 树状菜单是把选项划分为若干类,类似的选项组成一组,
最后形成一个树状结构 。
? 网状结构菜单
? 网状结构菜单允许用户在父辈菜单与子菜单之间切换,而
不必重新回到父辈菜单然后再转到子菜单。
人机交互技术编写组 37
图 4-4 Word中设置字体的界面
人机交互技术编写组 38
4.3.2设计图形用户界面的原则
设计菜单界面时应注意的一般性原则,
? 功能组织菜单, 合理分类, 并力求简短, 前后一致
? 合理组织菜单界面的结构与层次。
? 按一定的规则对菜单项进行排序。
? 菜单选项的标题要力求文字简短、含义明确,并且
最好以关键词开始 。
? 常用选项要设置快捷键 。
? 充分利用菜单选项的使能与禁止、可见与隐藏属性。
? 使用 弹出式菜单 。
人机交互技术编写组 39
4.3.2设计图形用户界面的原则
7.填表输入界面的设计
? 在处理大量相关数据的场合下,需要输入一系列的
数据,这时填表输入界面是最理想的数据输入界面。
? 填表输入界面有以下的特点,
? 有明确的提示,使用户可以不需要学习、训练,也不必记
忆有关的语义、语法规则。
? 填表输入界面充分地利用了屏幕空间。
? 在填表输入方式中,可以充分利用上下文信息,帮助用户
完成输入 。
人机交互技术编写组 40
4.3.2设计图形用户界面的原则
在设计填表输入界面时应遵循的原则
? 一致性
? 保证前后用词、语法一致。
? 有含义的表格标题
? 采用有含义的表格标题,栏目标题要为用户所熟悉。
? 使用易于理解的指导性说明文字
? 采用易于理解的说明性文字,并力求简短。如果确实需要
较多的信息,应为初学者提供一组求助信息。
? 栏目按逻辑分组排序
? 表格布局要直观,栏目按操作逻辑分组排序。
人机交互技术编写组 41
? 表格的组织结构和用户任务相一致
? 把相关的输入字段组织安排在一起, 并按照使用频率, 重
要性, 功能关系或使用顺序来进行表格的排序和分组 。
? 光标移动方便
? 需要一种简单直观的机制来移动光标, 如使用 Tab键或箭
头键 。
? 出错提示
? 系统应提示输入数据的允许范围和输入方法, 对不可接受
的值给出出错信息 。
? 提供帮助
? 界面应该在响应处提供帮助信息, 以解决新用户在不熟悉
的情况下的输入 。
? 表格显示应美观, 清楚, 避免过分拥挤 。
人机交互技术编写组 42
图 4-6 填表输入界面
人机交互技术编写组 43
4.3.4 基本的图形输入原语
在交互设计时,将用户的输入抽象成一
些独立的、基本的逻辑输入单元,这些
抽象的逻辑输入单元称为输入原语,由
这些基本输入原语可以形成复杂的交互。
人机交互技术编写组 44
主要的输入原语,
? 1.定位
? 定位是去确定平面或空间的一个点( x,y)或( x,y,z)的
坐标,是图形交互的最基本的输入原语,许多原语都是建
立在定位的基础上的。
? 2.选择
? 在一个选择集中选出一个元素或几个元素称为选择。
? 3.笔画输入
? 笔画输入用于输入一组顺序的坐标点,笔画输入相当于多
次调用定位输入,输入的一组点常用于显示折线或作为曲
线的控制点。
? 4.数值输入
? 数值输入是要在给定的数字范围内确定一个值。
? 5.字符串输入
人机交互技术编写组 45
4.4多通道用户界面
为适应目前和未来的计算机系统要求, 人
机界面应能支持时变媒体 ( time-varing
media), 实现三维, 非精确及隐含的人
机交互, 而多通道人机界面是达到这一目
的的重要途径 。
80 年 代 后 期 以 来, 多 通 道 用 户 界 面
(Multimodal User Interface)成为人机
交互技术研究的崭新领域, 在国内外受到
高度重视 。
人机交互技术编写组 46
4.4多通道用户界面
多通道用户界面的研究正是为了消除当
前 WIMP/GUI用户界面通信带宽不平衡
的瓶颈,综合采用视线、语音、手势等
新的交互通道、设备和交互技术,使用
户利用多个通道以自然、并行、协作的
方式进行人机对话,通过整合来自多个
通道的、精确的和不精确的输入来捕捉
用户的交互意图,提高人机交互的自然
性和高效性,图 4-10所示。
人机交互技术编写组 47
MMI
用
户
手
嘴
?
眼
手
?
2 D / 3 D
多 媒体信息
应用例程
击键 / 指点 通
语音 道
眼神 整
? 合
图 4-10 多通道人机界面概念模型
人机交互技术编写组 48
多通道人机界面主要解决科学计算可视化,
虚拟现实对计算机系统提出的高效, 三维
和非精确的人机交互要求 。 在多通道人机
界面中, 用户可以使用自然的交互方式,
如语音, 手势, 眼神, 表情等与计算机系
统进行协同工作 。 交互通道之间有串行 /并
行, 互补 /独立等多种关系, 因此人机交互
方式向人与人的交互方式靠拢, 交互的自
然性和高效性得到极大的提高 。
4.4多通道用户界面
人机交互技术编写组 49
4.4多通道用户界面
多通道用户界面主要关注人机界面中用户向计
算机输入信息以及计算机对用户意图的理解,
所要达到的目标可归纳为如下方面,
( 1) 交互的自然性
? 使用户尽可能多地利用已有的日常技能与计算机交互, 降
低认识负荷 。
( 2) 交互的高效性
? 使人机通讯信息交换吞吐量更大, 形式更丰富, 发挥人机
彼此不同的认知潜力 。
( 3 ) 与 传 统 的 用 户 界 面 特 别 是 广 泛 流 行 的
WIMP/GUI兼容 。
人机交互技术编写组 50
4.4.1多通道用户界面的基本特点
使用多个感觉和效应通道
允许非精确的交互
三维和直接操纵
交互的双向性
交互的隐含性
人机交互技术编写组 51
4.4.1多通道用户界面的基本特点
1.使用多个感觉和效应通道
? 感觉通道侧重于多媒体信息的接受,效应通
道侧重于交互过程中控制与信息的输入,两
者密不可分、相互配合。
? 一种通道 (如语音 )不能充分表达用户的意图
时,需辅以其它通道 (如手势指点 )的信息;
有时使用辅助通道以增强表达力。
? 交替而独立地使用不同的通道不是真正意义
上的多通道技术,必须允许充分地并行、协
作的通道配合关系。
人机交互技术编写组 52
4.4.1多通道用户界面的基本特点
2.允许非精确的交互
? 人类语言本身就具有高度模糊性,人类在日
常生活中习惯于并大量使用非精确的信息交
流 。
? 允许使用模糊的表达手段可以避免不必要的
认识负荷, 有利于提高交互活动的自然性和
高效性 。
? 多通道人机交互技术主张以充分性代替精确
性 。
人机交互技术编写组 53
4.4.1多通道用户界面的基本特点
3.三维和直接操纵
? 人类的大多数活动领域具有三维和直接操纵
特点(数学的和逻辑的活动例外)。
? 人生活在三维空间,习惯于看、听和操纵三
维的客观对象,并希望及时看到这种控制的
结果。
? 多通道人机交互的自然性反应了这种本质特
点。
人机交互技术编写组 54
4.4.1多通道用户界面的基本特点
4.交互的双向性
? 人的感觉和效应通道通常具有双向性的特点,
如视觉可看可注视,手可控制、可触及等。
? 多通道用户界面使用户避免生硬的、不自然
的、频繁的、耗时的通道切换,从而提高自
然性和效率。
? 视线跟踪系统可促成视觉交互双向性,听觉
通道利用三维听觉定位器实现交互双向性。
人机交互技术编写组 55
4.4.1多通道用户界面的基本特点
5.交互的隐含性
? 追求交互自然性的多通道用户界面并不需要
用户显式地说明每个交互成分,反之是在自
然的交互过程中隐含地说明。
? 例如,用户的视线自然地落在所感兴趣的对
象之上;又如,用户的手自然地握住被操纵
的目标。
人机交互技术编写组 56
4.4.2多媒体技术
定义
? 多媒体( multimedia)的含义是使用计算机
交互式综合技术和数字通信网技术处理多种
表示媒体,如文本、图形、图像和声音,使
多种信息建立逻辑连接,集成为一个交互系
统。
人机交互技术编写组 57
4.4.2多媒体技术
多媒体技术的组成部分包括,
? 存储与访问技术
? 表现与表达技术
? 实时处理技术
? 接口技术
? 人机交互界面技术等
人机交互技术编写组 58
4.4.2多媒体技术
多媒体技术与人机交互技术
? 多媒体技术使人机交互技术最终要向着更接
近于人的自然方式发展, 使计算机具有听觉
和视觉, 以更自然的方式与人交互 。
? 多媒体技术引入了动画, 音频, 视频等动态
媒体, 大大丰富了计算机表现信息的形式,
拓宽了计算机输出的带宽, 提高了用户接受
信息的效率, 使人们可以得到更直观的信息,
从而简化了用户的操作, 扩展了应用范围 。
人机交互技术编写组 59
4.4.2多媒体技术
? 它能提高人对信息表现形式的选择和控制能力 。
? 能提高信息表现形式与人的逻辑和创造能力的结合
程度, 在顺序, 符号信息以及并行, 联想信息方面
扩展人的信息处理能力 。
? 多媒体信息比单一媒体信息对人具有更大的吸引力,
有利于人对信息的主动探索而不是被动接受 。
? 另外, 由于多媒体所带来的信息冗余性, 重复使用
别的媒体或并行使用多种媒体可消除人机通信过程
中的多义性及噪声 。
人机交互技术编写组 60
4.4.3虚拟现实技术
虚拟现实( Virtual Reality)
? 又称虚拟环境( Virtual Environment)。
? 虚拟现实系统向用户提供沉浸( immerse)和多感
觉通道( multi-sensory)体验。
? 在虚拟现实中,人是主动参与者,复杂系统中可能
有许多参与者共同在以计算机网络系统为基础的虚
拟环境中协同工作。
虚拟现实系统具有三个重要特点,
? 沉浸感( immersion)
? 交互性( interaction)
? 构想性( imagination)
人机交互技术编写组 61
4.4.3虚拟现实技术
虚拟现实中的基本要素,
( 1)计算机生成的虚拟世界(环境)必须是一
个能给人提供视觉、听觉、触觉、嗅觉以及味
觉等多种感官刺激的世界。目前虚拟现实通常
由视觉、听觉和触觉三种刺激构成。
( 2)虚拟现实统实质上是一种高级的人机交互
系统。这里的交互操作是对多通道信息进行的,
并且对沉浸式系统要求采用自然方式的交互操
作,对于非沉浸式系统也可使用常规交互设备
进行交互操作。
人机交互技术编写组 62
虚拟世界的概念模型
虚拟世界的概念模型
? 虚拟现实是人们可以通过视、听、触等信息
通道感受到设计者思想的用户界面,由两部
分组成:一部分是创建的虚拟世界(环境),
另一部分是为介入者(人) 。
? 虚拟世界的核心是强调两者之间的交互操作,
即反映出人在虚拟世界(环境)中的体验。
? 人机交互是虚拟现实的核心。
人机交互技术编写组 63
虚拟现实的概念模型
介
入
者
感知系统
反应系统
虚拟世界
(环境)
感官刺激信号
反应动作
图 4-11 虚拟现实的概念模型
人机交互技术编写组 64
虚拟现实的概念模型
理解虚拟现实的概念模型
? 从虚拟环境对人的作用来看,虚拟现实的概
念模型可以看作为“显示 /检测”模型。
? 从人对虚拟环境的作用来看,也就是从用户
的角度看,上述概念模型可以看作“输入 /
输出”模型。
?输入是指用户感知系统接受虚拟环境提供的各种
感官刺激信号。
?输出是指用户对虚拟环境系统做出的反映动作。
人机交互技术编写组 65
虚拟现实与多媒体及多通道
虚拟现实技术正是一种以集成为主的技术,
其人机界面可以分解为多媒体、多通道界
面。
从本质上说,多媒体用户界面技术侧重解
决计算机信息表现及输出的自然性和多样
性问题,而多通道技术侧重解决计算机信
息输入及理解的自然性和多样性问题。
人机交互技术编写组 66
虚拟现实造型语言 VRML
VRML
? 是一种描述交互式三维世界和对象的文件格式。
VRML允许描述对象并把对象组合到虚拟场景中,可
以实现仿真系统,可模拟动画、具有动力学特性的物
体。
? VRML能构造一个交互的虚拟世界,其中的对象能对
外部事件做出响应,并可在其中任意穿行。
? 可以支持虚拟场景的网上发布,并可实现多用户的实
时参与。
? VRML比高级语言容易掌握,并且无须再去了解
OpenGL3D或者 Directx3D之类的三维图形开发库。
? VRML文件的解释、执行和显示一般由浏览器来完成。
人机交互技术编写组 67
VRML浏览器的概念模型
VRML浏览器概念模型 的组成
? 解释器
? 读取 VRML文件并产生场景图 。
? 场景图
? 场景图包括节点的变换层次和路径图及执行引擎 。
? 执行引擎处理事件, 读取和编辑路径图, 改变节点的变换
层次 。
? 听/视觉展示
? 浏览器的听/视觉展示部分完成变换层次的图形和声音的
产生, 给用户以反馈 。
人机交互技术编写组 68
用户
执行引擎
路径图
*插值器
*感知器
*脚本
变换层次
音频/视频展示
解释器
原型 内建节点
VRML文件 用户输入
VRML浏览器
场景图
?图 4-12 一种
VRML浏览器的
概念模型
人机交互技术编写组 69
4.4.4眼动跟踪( Eye-Gaze Tracking)
与视觉有关的人机交互自始至终都离不开
视线的控制。
如果能通过视线的用户盯着感兴趣的目标,
计算机便“自动”将光标置于其上,人机
交互将更为直接,也省去了上述交互过程
中的大部分步骤。
人机交互技术编写组 70
4.4.4眼动跟踪
早期的视线跟踪技术首先应用于心理学
研究、助残等领域,后来被应用于图像
压缩及人机交互技术。
视线跟踪技术有强迫式与非强迫式、穿
戴式与非穿戴式、接触式与非接触式之
分。
视线追踪主要用于军事领域(如飞行员
观察记录),阅读及帮助残疾人通信等。
人机交互技术编写组 71
1.眼动的主要形式
眼动有三种主要形式 (在人机交互中,眼动跟踪
主要利用跳动和注视,
? 跳动( Saccades)
? 在正常的视觉观察过程中,眼动表现为在一系列被观察目标
上的停留及在这些停留点之间的飞速跳跃。
? 在注视点之间的飞速跳跃称为眼跳动。
? 注视( Fixations)
? 停留时间至少持续 100ms以上的称为注视。在注视中,眼也
不是绝对静止不动,会有微小运动,但大小一般不会超过 1°
视角。
? 绝大多数信息只有在注视时才能获得并进行加工。
? 平滑尾随跟踪( Smooth Pursuit)
? 缓慢、联合追踪的眼动通常称为平滑尾随跟踪。
人机交互技术编写组 72
2.眼动跟踪的基本要求
在人机交互中眼动跟踪技术必须满足以下几
点要求, 才能满足实际需求,
? 不能妨碍视野 。
? 不要与用户接触, 对用户基本无干扰 。
? 精度要高 。
? 动态范围要从 1弧分 ( 六十分之一弧度 ) 到 45o。
? 反映速度要快, 实时响应 。
? 能与获取的身体和头部运动相配合 。
? 定位校正简单 。
? 可作为计算机的标准外设 。
人机交互技术编写组 73
3.眼动跟踪的基本原理
利用红外发光二极管发出红外线,采用图像处理技术和能
锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外
线图象点的连续变化情况,得到视线变化的数据,从而达
到视线追踪的目的。
从视线跟踪装置得到的原始数据需要经过进一步的处理才
能用于人机交互。
数据处理的目的是滤除噪声、识别定位及局部校准与补偿
等,最重要的是提取出用于人机交互所必需的眼睛定位坐
标。
但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈
的移动所造成的数据中断,存在许多干扰信号,提取有意
眼动数据非常困难。解决此问题的办法之一是利用眼动的
某种先验模型加以弥补。
人机交互技术编写组 74
4.米达斯接触问题与解决方法
“米达斯接触( Midas Touch)”问题
? 如果鼠标器光标总是随着用户的视线移动,可能会
引起用户的厌烦,因为用户可能希望能随便看着什
么而不必非“意味着”什么,更不希望每次转移视
线都可能启动一条计算机命令。
避免“米达斯接触”问题的方法:在理想情况
下,应当在用户希望发出控制时,界面及时地
处理其视输入,而在相反的情况下则忽略其视
线的移动。
可采用其他通道(如键盘或语音)进行配合。
人机交互技术编写组 75
4.4.5手势识别( gesture recognition)
一个简单的手势蕴涵着丰富的信息,人与人
可以通过手势传达大量的信息,实现高速的
通信。
将手势运用于计算机能够很好地改善人机交
互的效率。
在多数情况下我们笼统地认为手势是人的上
肢 (包括手臂、手和手指 )的运动状态。
人机交互技术编写组 76
手势的分类
交互性手势与操作性手势
? 在交互性手势中手的运动表示特定的信息 (如乐队指
挥 ),靠视觉来感知;操作性手势不表达任何信息
(如弹琴 )。
自主性手势和非自主性手势
? 自主性手势与语音配合用来加强或补充某些信息 (如
演讲者用手势描述动作、空间结构等信息 )。
离心手势和向心手势
? 离心手势直接针对说话人,有明确的交流意图,向
心手势只是反应说话人的情绪和内心的愿望。
人机交互技术编写组 77
计算机识别和解释手势
利用计算机识别和解释手势输入是将手势应用于
人机交互的关键前提,识别手势的手段有,
? 鼠标器和笔
? 优点是仅利用软件算法来实现,从而适合于一般桌面系统。
? 缺点是只能识别手的整体运动而不能识别手指的动作。
? 数据手套
? 主要优点是可以测定手指的姿势和手势。
? 相对而言较为昂贵,并且有时会给用户带来不便。
? 计算机视觉
? 利用摄像机输入手势,优点是不干扰用户,这是一种很有前
途的技术。
? 在技术上存在很多困难,还难以胜任手势识别和理解的任务。
人机交互技术编写组 78
主要手势识别技术
? 模板匹配技术
? 一种最简单的识别技术,将传感器输入的原始数据与预先存
储的模板进行匹配,通过度量两者之间的相似度完成识别任
务。
? 神经网络技术
? 一种较新的模式识别技术,具有自组织和自学习能力,具有
分布性特点,抗噪声能力比较强,能处理不完整的模式,并
具有模式推广能力。
? 统计分析技术
? 通过统计样本特征向量来确定分类器的一种基于概率的分类
方法。在模式识别中一般采用贝叶斯极大似然理论确定分类
函数。
人机交互技术编写组 79
实用的手势识别
目前较为实用的手势识别是基于数据手
套。因为数据手套不仅可以输入包括三
维空间运动在内的较为全面的手势信息,
而且比基于计算机视觉的手势在技术上
要容易实现。
人机交互技术编写组 80
4.4.6三维输入
许多应用 ( 如虚拟现实系统 ) 需要三维空间定位
技术:三维空间控制器的共同特点是具有六个自
由度, 分别描述三维对象的宽度, 深度, 高度,
俯仰角, 转动角, 偏转角 。
通过控制这六个参数, 用户可以在屏幕上平移三
维对象或光标, 也可沿三个坐标轴转动三维对象 。
三维空间控制器, 视线跟踪器, 数据手套等输入
设备产生的空间位置是相对的 。
在三维用户交互中必须便于用户在三维空间中观
察、比较、操作、改变三维空间的状态。
人机交互技术编写组 81
三维空间的交互操作方式
直接操纵
? 由六个自由度、三维输入装置控制的三维光标将使
三维交互操作更自然和方便。
? 三维光标必须有深度感,即必须考虑光标与观察者距离。
离观察者近的时候较大,离观察者远的时候较小。
? 确定光标在三维空间的方向,这种定向操作必须自然且方
便操作;为保持三维用户界面的空间感,光标在遇到物体
时不能进入到物体内部。三维光标的实现需要大量的计算,
对硬件的要求较高,编程接口也比二维光标复杂得多。
人机交互技术编写组 82
三维空间的交互操作方式
三维 widgets
? 三维 widgets即三维交互界面中的一些小工
具。用户可以通过直接控制它们使界面或界
面中的三维对象发生改变。
? 三维 widget包括在三维空间中漂浮的菜单、
用于拾取物体的手的三维图标、平移和旋转
指示器等 。
人机交互技术编写组 83
采用三视图输入技术,实现三维的输入
如果输入一个三维点,只要在两个视图
上把点的对应位置指定后便唯一确定了
三维空间中的一个点;把直线段上两端
点在三视图上输入后便可决定三维空间
的一条直线;把一个面上的各顶点在三
视图上输入后,也唯一确定了三维空间
中的一个面;如果把一个多面体上的各
面均用上述方法输入,也就在三维空间
中输入了一个多面体。
人机交互技术编写组 84
4.4.7语音识别( speech recognition)
语音识别是计算机通过识别和理解过程把
语音信号转变为相应的文本文件或命令的
技术。
语音识别又是一门交叉学科,它与声学、
语音学、语言学、数字信号处理理论、信
息论、计算机科学等众多学科紧密相连。
人机交互技术编写组 85
语音识别涉及的技术
数字化语音信号的转换和量化涉及到信号表示问
题,需要研究如何使系统在传感器与环境的变化
中保持性能的稳定,以适应这些变化。
各种语音必须被恰当地建模,目前采用的最广泛
的建模技术是隐马尔科夫模型( HMM)。
最后是语言的约束问题。
语音识别技术所涉及的领域包括:信号处理、模
式识别、概率论和信息论、发声机理和听觉机理、
人工智能等等。
目前主流的语音识别技术是基于统计的模式识别
的基本理论,如图 4-13所示。
人机交互技术编写组 86
预处理
模型库
测度估计特征提取
语音
输入
参考模型
测试特征
后处理
识别
结果
模型库
图 4-13 语音识别系统的处理流程
人机交互技术编写组 87
语音识别系统的组成
语音特征提取
? 从语音信号中提取语音的特征,既可以获得语音的
本质特征,也起到数据压缩的作用。
? 输入的模拟语音信号首先要进行预处理,包括预滤
波、采样和量化、加窗、端点检测、预加重等。
声学模型
? 声学模型对应于语音到音节概率的计算 。 在识别时
将输入的语音特征同声学模型 ( 模式 ) 进行匹配与
比较, 得到最佳的识别结果 。
? 目前采用的最广泛的建模技术是隐马尔科夫模型
HMM建模和上下文相关建模 。
人机交互技术编写组 88
隐马尔科夫模型 HMM建模
? 马尔可夫模型是一个离散时域有限状态自动机,隐马
尔可夫模型 HMM是指这一马尔可夫模型的内部状态外
界不可见,外界只能看到各个时刻的输出值。
? 语音识别中使用 HMM通常是用从左向右单向、带自环、
带跨越的拓扑结构来对识别基元建模,一个音素就是
一个三至五状态的 HMM,一个词就是构成词的多个音
素的 HMM串行起来构成的 HMM,而连续语音识别的
整个模型就是词和静音组合起来的 HMM。
语音识别系统的组成
人机交互技术编写组 89
上下文相关建模
? 上下文相关建模方法在建模时考虑了协同发音的影
响。
? 协同发音是指一个音受前后相邻音的影响而发生变
化,从发声机理上看就是人的发声器官在一个音转
向另一个音时只能逐渐变化,从而使得后一个音的
频谱与其他条件下的频谱产生差异。
? 上下文相关模型能更准确地描述语音,只考虑前一
音的影响的称为 Bi-Phone,考虑前一音和后一音的
影响的称为 Tri-Phone。
? 英语的上下文相关建模通常以音素为基元,由于有
些音素对其后音素的影响是相似的,因而可以通过
音素解码状态的聚类进行模型参数的共享。
语音识别系统的组成
人机交互技术编写组 90
语言模型
语言模型计算音节到字的概率。语言模型主要分为,
? 规则模型
? 统计模型
? 统计语言模型是用概率统计的方法来揭示语言单位内在的
统计规律,其中 N-Gram模型简单有效,被广泛使用。
听写机
? 大词汇量、非特定人、连续语音识别系统通常称为
听写机。其架构就是建立在声学模型和语言模型基
础上的 HMM拓扑结构。
对话系统
? 对话系统往往是面向一个狭窄领域、词汇量有限的
系统 。
语音识别系统的组成
人机交互技术编写组 91
语音识别技术在实际使用中达到了较好的效果,
但如何克服影响语音的各种因素还需要更深入
地分析。目前听写机系统还不能完全实用化以
取代键盘的输入,但识别技术的成熟同时推动
了更高层次的语音理解技术的研究。由于英语
与汉语有着不同的特点,针对英语提出的技术
在汉语中如何使用也是一个重要的研究课题,
四声等汉语本身特有的问题也有待解决。
语音识别技术存在问题
人机交互技术编写组 92
4.4.8表情识别
面部表情是人体语言的一部分 。
人的面部表情不是孤立的, 它与情绪之间存在
着千丝万缕的联系 。
人的各种情绪变化以及对冷热的感觉都是非常
复杂的高级神经活动, 如何感知, 记录, 识别
这些变化过程是表情识别的关键 。
到目前为止, 国际上关于表情分析与识别的研
究工作可以分为基于心理学的和基于计算机识
别的两类 。
人机交互技术编写组 93
计算机面部表情的识别的三个步骤
表情的跟踪
? 以某种方式将表情信息从外界摄取出来。
表情的编码
? 即对面部表情进行编码。基于面部运动确定表情的
思想,Ekman和 Friesen于 1978年提出了一个面部动
作编码系统( Facial Action Coding System,
FACS),它是基于对所有引起面部动作的脸的“动
作单元”的枚举编制而成的。
表情的识别
? 面部表情的识别可以通过对 FACS中的那种预定义的
面部运动的分类来进行,而不是独立地确定每一个
点。
人机交互技术编写组 94
4.4.9手写识别
发展手写识别技术并嵌入到各种设备中,将是
手写识别技术未来发展的重要方向之一。
世界上绝大多数语言的字符都可以用 Unicode的
形式来表示。
联机手写识别技术的优点是不需专门学习与训
练、不必记忆编码规则、安装后即可手写输入
汉字,是最简单方便的输入方式。同时符合人
的书写习惯,可以一面思考、一面书写,不会
打断思维的连续性,是最自然的输入方式。
人机交互技术编写组 95
手写识别的形式和约束
脱机( off-line,又称离线)识别
? 脱机识别就是机器对于已经写好或印刷好的静态的
语言文本图像的识别。
联机( on-line,又称在线)识别
? 联机识别是指用笔在输入板上写,用户一边写,机
器一边进行识别,可实时人机交互。
手写体识别的方法和识别率取决于对手写约束
的层次,这些约束主要是手写的类型、写字者
的数量、词汇量的大小以及空间的布局。显然,
约束越宽识别越困难。
人机交互技术编写组 96
1.联机手写识别
联机手写文字的识别过程,
? 预处理、归一化、特征抽取、特征匹配
汉字 手写
输入板 预处理
模式表达
(特征提取
)
判别
(分类或
句法分析
)
字典
(特征模板集合或句法
规则集合)
汉字代码
图 4-14 联机手写识别原理框图
人机交互技术编写组 97
2.脱机手写识别
脱机手写识别比印刷体汉字识别、联机手写体
识别都要困难。
脱机手写识别得到的描述则是点阵图像,要得
到笔段的点阵通常需要细化运算。
细化会损失一些信息,并且不可能得到时间顺
序信息。
脱机识别中,笔画与笔画之间经常粘连,很难
拆分,而且笔段经过与另一笔段交叉分成两段
后,也难以分清是否应该连起来。
人机交互技术编写组 98
汉字识别的方法
结构识别
? 结构识别方法的出发点是汉字的组成结构。
汉字是由笔划 (点、横、竖、撇、捺等 )、偏
旁、部首构成,通过把复杂的汉字模式分解
为简单的子模式直至基本模式元素,对子模
式的判定以及基于符号运算的匹配算法,实
现对复杂模式的识别。
? 结构识别法的优点是区分相似字的能力强,
缺点是抗干扰能力差。
人机交互技术编写组 99
汉字识别的方法
统计识别
? 统计识别方法是将汉字看为一个整体,其所有的特
征是从整体上经过大量的统计而得到的,然后按照
一定准则所确定的决策函数进行分类判决。统计识
别的特点是抗干扰性强,缺点是细分能力较弱。
神经网络
? 神经网络具有学习能力和快速并行实现的特点,因
此可以通过神经网络分类器的推广能力准则和特征
提取器的有效特征提取准则,对手写字符进行识别。
人机交互技术编写组 100
影响汉字识别率的因素
笔顺问题
? 书写习惯影响笔划的书写顺序, 单纯通过串匹配进
行识别难以达到理想效果 。 对汉字进行描述时, 仅
仅采用一维串也就显得不够, 必须利用一些二维方
法来描述, 但其会极大地增加匹配的难度 。
连笔问题
? 对于结构识别而言,连笔一方面使笔划种类大大增
加,甚至达到难以归纳的程度;另一方面,连笔又
使得笔段抽取难度大增,连笔会增加一些冗余笔段,
连笔造成的畸变又会使笔段方向严重离散。
人机交互技术编写组 101
相似字区分
? 汉字种类繁多,很多汉字彼此之间非常相似,例如
,己、已、巳, 三个字相差只在细微之间。手写汉
字的变形十分严重,怎样能使识别系统抓住微小的
差别,是一个非常值得研究的问题。
对抗干扰能力的要求
? 书写时候,笔划的畸变、丢失,多余笔段 (如笔锋 )
的插入,字的倾斜,部件间相对位置、大小的变化,
经常出现,会造成基元提取和识别的错误 。
影响汉字识别率的因素
人机交互技术编写组 102
4.4.10数字墨水( digital ink)
数字墨水是一种新的人机界面技术,它
借鉴手写识别技术的同时,克服了它的
许多局限性。
数字墨水在数学上是通过三阶贝塞尔曲
线来描述笔输入的笔迹,它的记录格式
与图像和文本格式都不同。
这种存储方式使得数字墨水文件的大小
很小,从而可以更有效地进行存储。
人机交互技术编写组 103
数字墨水的处理
数字墨水的表示
压缩和显示
智能的墨水分析技术
墨水标记和注解技术
墨水的智能操作
墨水存储
墨水搜索
人机交互技术编写组 104
数字墨水的解析
墨水解析技术是数字墨水技术中的亮点,
它可以将笔输入的文字串解析成单字,
从而将复杂的语句级手写识别化繁为简,
分解成语句解析和单字识别两个部分。
可以对记录下来的数字墨水进行结构化
和深度分析,分析目的不是要去解决
“写的是什么字”,而是要解决“到底
在写什么,以及是如何写的”。
人机交互技术编写组 105
数字墨水的保存格式
数字墨水可以用墨水格式保存( ink文件),用
户不再需要利用其他 Windows应用程序来把手
绘、手写的笔迹转换为别的格式来保存、发送
和编辑。同样,由于 Windows平台将数字墨水
定义为基本数据类型之一,如同文本得到操作
系统级的支持一样,数字墨水在不同应用软件
之间的交换也变得非常容易。
数字墨水的数据格式比图像数据格式所占的空
间小得多,而且数字墨水记录的是结构化的信
息,可以进行全文搜索。
人机交互技术编写组 106
数字墨水的使用
当前,微软已实现了数字墨水技术对英
文、德文、法文、韩文、日文、简体和
繁体中文等语言的支持。 Windows XP
Tablet PC Edition拥有强大而简单的数字
化墨水控件和 API,方便软件开发商将笔
墨功能扩展到其现有和即将推出的软件
中,就如同集成目前的键盘和鼠标一样
简单。
人机交互技术编写组 107
数字墨水的价值
它结合了个人电脑强大的计算处理能力以及纸
的易用性。
它“还墨水以本色”,人类不再需要扭曲自己
最自然的写作方式,在机器所设置的“行”或
“框, 中按机器的要求书写,而是随心所欲、
随意勾画。
将成为许多崭新应用的底层支持,这些应用将
把人类传统的手写和手绘发挥得淋漓尽致。
人机交互技术编写组 108
4.5汉字信息处理技术
汉字信息处理主要是研究汉字的属性、
编码、输入方法、词处理、字形存储等
基本理论和技术,提高汉字字符处理系
统的性能,加强汉语理解和高层次应用
研究。
人机交互技术编写组 109
4.5.1文字信息的计算机处理过程
图 4-17 文字信息的计算机处理过程
人机交互技术编写组 110
4.5.2汉字编码
国标码,GB2312-80,信息交换用汉字编码字
符集,
? 是目前国内所有汉字系统的统一标准。
? 每个国标码都对应着一个惟一的汉字或符号。
? 国标码共有字符 7445个,包括汉字和其他字符。其
中一级汉字有 3755个,按汉语拼音顺序排列;二级
汉字有 3008个,按部首和笔画排列;其他字符有常
用符号、序号,GB1988图形字符集、希腊字符、制
表符等。
? 是一个四位十六进制数编码,前两位表示行 (0~93),
后两位表示列 (0~93),分别用双 7位二进制数表示,
即两个字节的最高位为 0。
人机交互技术编写组 111
汉字的编码
区位码
? 区位码是一个四位的十进制数,前两位叫做区码
(1~94),后两位叫做位码 (1~94),分别用双 2位十
进制数表示,不足两位时前面补 0。
机内码
? 是计算机内部实际使用的表示汉字的代码,在微机
中多用两字节 (最高位为 1)代码作为机内码。
BIG5
? 我国台湾地区的计算机界实行的汉字编码字符集,
包含了 420个图形符号和 13070个汉字(不包含简化
汉字)。
人机交互技术编写组 112
汉字的编码
GBK
?, 汉字内码扩展规范,,国家于 1995年 12
月 15日将它确定为技术规范指导性文件。
? GBK共有 20902个 GB汉字。包括了 GB码简体
汉字和 BIG5繁体汉字。
? GBK向下与 GB2312编码兼容,向上支持 ISO
10646.1国际标准。
? 与 Unicode组织的 Unicode编码完全兼容。
人机交互技术编写组 113
4.5.3汉字输入方法
键盘输入
? 利用键盘、根据一定的编码规则来输入汉字。
? 常用汉字编码
? 音码
? 形码
? 音形混合码
? 数码等
非键盘输入
? 联机手写输入
? 语音输入
? 光电扫描输入
人机交互技术编写组 114
目前主要键盘中文输入法
流水码(对应码)
音码
形码
声形码
混合输入法
数字键盘输入技术
人机交互技术编写组 115
目前主要键盘中文输入法
流水码 ( 对应码 )
? 以各种编码表作为输入依据
? 因为每个汉字只有一个编码, 所以重码率几乎为零,
效率高, 可以高速盲打,
? 缺点是需要的记忆量极大, 而且基本上没有什么规
律 。
? 常见的流水码有区位码、电报码、内码等。这种方
法适用于某些特殊用户,如电报员等。
? 在计算机中输入汉字时,这类输入法已经基本淘汰。
人机交互技术编写组 116
目前主要键盘中文输入法
音码
? 是按照汉字的拼音来进行输入汉字的, 不需要特殊
记忆, 符合人的思维习惯, 只要会拼音就可以输入
汉字 。
? 缺点,
? 同音字太多, 重码率高, 输入效率低 。
? 对用户的发音要求较高 。
? 很难处理不认识的生字 。
? 常用的输入法
? 全拼双音, 双拼双音, 新全拼, 新双拼, 智能 ABC,微软
拼音等
? 新的拼音输入法在模糊音处理、自动造词、兼容性
等方面都有很大提高,有些输入法还支持整句输入,
使拼音输入速度大幅度提高。
人机交互技术编写组 117
目前主要键盘中文输入法
形码
? 形码是一种按汉字的字形 ( 字根, 笔画, 部首 ) 来
规定为基本的输入编码, 再由这些编码组合成汉字
的输入方法 。
? 传统的形码有五笔字型、郑码等;台湾的仓颉、大
易等;香港的纵横、快码等。
? 形码的优点:重码少,不受方言干扰,只要经过一
段时间的训练,输入汉字的效率会有大的提高。
? 形码的缺点:需要记忆的东西较多,长时间不用会
忘掉。
人机交互技术编写组 118
目前主要键盘中文输入法
声形码
? 声形码吸取了音码和形码的优点,将二者混
合使用。
? 常见的声形码有钱码、丁码、二笔等。
? 声码主要是用来代替传统形码的识别码
? 但由于存在形与声的相互转换和必须同时掌
握形和声,在技术上已经显得落后。
人机交互技术编写组 119
目前主要键盘中文输入法
混合输入法
? 某些汉字系统同时采用音、形、义多种方法
输入,并结合了一些智能化的输入功能。很
多智能输入法把拼音输入法和某种形码输入
法结合起来,使一种输入法中包含多种输入
方法。
? 以万能五笔为例,它包含五笔、拼音、中译
英、英译中等多种输入法。全部输入法只在
一个输入法窗口里,不需要来回切换。
人机交互技术编写组 120
目前主要键盘中文输入法
数字键盘输入技术
? 最常用的输入法称为 T9输入法,Text on 9 Keys( 9
键输入文字)” 。这里的 9键泛指手机、双向寻呼
机、信息家电、移动计算设备等小型电子产品上的
标准按键。
? 采用了与语言数据库相集成的专用软件,利用标准
的 9按键,可以直观、简捷、快速地输入文字信息。
? T9算法能够根据字母组合的可能性,自动筛选输入
的不同字母,即时拼写出正确的词语。
? 它还可以输入标点符号,并提供了包含大部分姓名
的名字库。
人机交互技术编写组 121
目前主要键盘中文输入法
数字键盘输入技术
? 流行的 T9数字键盘输入法利用了对有意义文字的预
先智能判断技术,实行快速输入。
? 在汉字拼音输入法中引入 T9输入技术后,也可以用
于拼音的智能预先判别,而且由于拼音比英文单词
相对简单,组合也比英文单词少很多,所以比 T9的
英文输入法更便捷。
? T9目前可以支持汉语、英语、法语、德语、日语、
韩语、意大利语等 17种语言。
? T9输入法已经成为全球手机文字输入的标准之一。
? 诺基亚、西门子、松下、飞利浦等公司的产品均支
持此种输入法。
人机交互技术编写组 122
4.5.4非键盘输入法
非键盘输入方式是通过手写、听、听写、
读听写等方式输入汉字。
主要有几类,
? 手写输入
? 语音识别
? 光电扫描输入
人机交互技术编写组 123
非键盘汉字输入法
1,手写输入法
? 手写输入法是一种笔式环境下的手写中文识
别输入法 。
? 市场上的手写输入产品的正楷手写识别率均
已达到 98%以上,连笔书写识别率也能达到
95%左右。
? 采用人工自学习和智能学习功能,可以识别
书写者本人常用的简体字、异体字,提高了
输入准确率和输入速度。
人机交互技术编写组 124
非键盘汉字输入法
2.语音输入法
? 语音输入法是将声音通过话筒转换成文字的一种输
入方法, 是汉字输入法的发展趋势之一 。
? 目前语音输入产品大多数采用 IBM开发的 ViaVoice
98/ViaVoice 2000语音识别技术, 尽管这种输入
方法受口音等因素限制识别率还不是很高, 但由于
其使用方便, 输入速度快, 受许多用户欢迎 。
? 语音输入法虽然使用很方便, 但错字率仍然比较高,
特别是一些未经训练的专业名词以及生僻字 。
? 如果普通话口音不标准, 只要用语音训练程序, 进
行一段时间的训练, 也可以实现文字输入 。
人机交互技术编写组 125
非键盘汉字输入法
3.光电扫描输入法 OCR(光学字符识别技术)
? 光电扫描输入是借助扫描仪输入汉字,能够把复印
和编辑结合在一起。
? 其特点是扫描输入速度快,但应用范围较窄。
? 把要输入的文稿通过扫描仪转化为图形进行识别,
原稿的印刷质量越高,识别的准确率就越高,一般
最好是印刷体的文字,比如图书、杂志等。
? 如果原稿的纸张较薄,在扫描时纸张背面的图形、
文字可能也透射过来,干扰最后的识别效果。
人机交互技术编写组 126
比较项目
传统键盘输入
(传统五笔)
联机手写输
入法
语音输入
法
光电扫描输
入法
基本要求
五笔、键盘
知识
规范书写汉
字
比较标准
的读音
只用于印刷体
文件
入门时间
2-7天
10分钟以内
10分钟以
内
10分钟以内
输入汉字速
度
120字 /分钟
30字 /分钟
150字 /分
钟
1000字 /分钟
正确率
(识别率)
100%
95%以上
90%
和印刷清晰度
相关
价格
100元以下
200-800元
800元
400元以上
实用程度
安装携带方
便,普通电
脑
不易安装携
带,受识别
技术限制,
普通电脑
不易安装携
带,修改比
较麻烦,多
媒体电脑
不易安装携带,
后期编辑工作
多,需扫描仪
表 4-1 汉字输入方法比较表
人机交互技术编写组 127
习题
用 Java语言编程实现一个图书管理系统
的文本菜单 。
用可视化开发工具实现一个程序框架, 设
计多级菜单和快捷键, 工具栏和状态栏并
在状态栏中显示鼠标所在的坐标 。
第 4章 人机交互技术
人机交互技术编写组 2
本章将主要介绍以下几种人机交互技术,
l 命令行和文本菜单
l 图形用户界面
l 多通道用户界面
l 汉字信息处理
人机交互技术编写组 3
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据用户界面的具体形式
?分为批处理
?联机终端 (命令接口 )
?文本菜单
?WIMP界面
?多媒体用户界面
?多通道用户界面和虚拟现实用户界面
人机交互技术编写组 4
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据根据用户界面中信息载体的类型
?文本为主的字符用户界面 (CUI)
?二维图形为主的图形用户界面 (GUI)
?多媒体用户界面
人机交互技术编写组 5
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据计算机输出信息的形式
?以符号为主的字符界面
?以视觉感知为主的图形用户界面
?兼顾听觉感知的多媒体用户界面
?综合运用多种感观 (包括触觉等 )的虚拟现实技术
人机交互技术编写组 6
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据人机界面中的信息维度,人机交互技术
可以分为,
?一维信息 (主要指文本流,如早期电传式终端 )
?二维信息 (主要是二维图形技术,利用了色彩、
形状、纹理等信息 )
?三维信息 (主要是三维图形技术,但显示技术仍
利用二维平面为主 )和多维信息 (多通道的多维信
息 )空间
人机交互技术编写组 7
4.1人机交互技术概述
人机交互技术发生的历史及发展趋势
? 根据人机交互中采用的语言
?形式语言,形式语言是一种人工语言,特点是简
洁、严密、高效。
?类自然语言,类自然语言则是介于计算机语言和
自然语言之间。
?自然语言,自然语言的语法成分有更多的规则,
具有多义性、微妙、丰富、灵活的特点。
人机交互技术编写组 8
4.2命令行和文本菜单技术
4.2.1命令行
? 真正意义上的人机交互开始于联机终端的出
现 。
? 用户输入文本命令,系统也以文本的形式表
示对命令的响应。这种人机界面称为命令行
界面。
人机交互技术编写组 9
图 4-1 命令行界面概念模型
人机交互技术编写组 10
命令行交互界面
操作系统 MS-DOS是文本命令行交互界面。
? 例如,需要将所有扩展名为,.AAA”的文件
替换为扩展名为,.BBB”,如果在“我的电
脑”或,WINDOWS资源管理器”中,需要
一个一个地去查找、改名,操作的局限性是
显而易见的。利用命令 rename
[drive:][path] filename1 filename2或 ren
[drive:][path] filename1 filename2,使用通
配符,*”或“?”,就可以方便地更改一
组文件名或扩展名。
人机交互技术编写组 11
命令行交互界面
不同的操作系统要用不同的命令进入命令行界
面。在 Win9x/Me的开始菜单中的运行程序中
键入,command”命令,可进入命令行界面。
在 Win2000/NT的开始菜单中的运行程序中键
入,cmd”命令,可进入命令行界面。
批处理文件(也称为 批处理程序 或 脚本 )。批
处理文件是无格式的文本文件,包含一条或多
条命令,文件扩展名为 bat或 cmd。
人机交互技术编写组 12
4.2.2文本菜单
字符界面下的菜单方式:在菜单方式下用户必
须在有限的一组选项中进行识别和选择,更多
的是响应而不是发出命令。
用户不必记忆功能命令,缩短了用户的培训时
间,减少用户的击键次数,错误处理能力也有
了显著提高。
在这种界面中,人还是被看成操作员,机器做
出被动的反应,人只能使用手这一交互通道用
键盘输入选择信息,通过视觉通道获取信息,
界面输出只能为静态的文本字符。
人机交互技术编写组 13
文本菜单的设计
设计基于文本菜单的系统主要包括两方
面的工作:菜单的生成和显示,内部流
程的控制及错误处理。
【 例 4-2】 图书管理程序的主菜单的 Java语言代码 。
人机交互技术编写组 14
import java.io.*;
public class MenuDemo{
static void display_maintenace_menu() {
System.out.print(“\n\n\t\t<<维护子菜单 >>\n\n”);
System.out.println (“\t1--注册借书者, );
System.out.println (“\t2--注册图书, );
……,
System.out.println (“\t0--返回主菜单, );
}
public static void main(String args[]) throws Exception{
boolean quit=false;
char ch;
do {
display_mainmenu();
ch = (char)System.in.read();
switch (ch)
{
……,//调用相应的处理函数
}
}while(!quit);
Sytem.in.read();
}
}
人机交互技术编写组 15
4.3图形用户界面
图形用户界面又称为 WIMP界面,由窗口
(windows)、图标 (icons)、菜单 m)、指点设备
(pointing device)四位一体,形成桌面
(desktop),如图 4-2所示。
图形用户界面是当前用户界面的主流,广泛应
用于各档台式微机和图形工作站。
比较成熟的商品化系统有 Apple的 Macintosh、
IBM的 PM(Presentation Manager),Microsoft
的 Windows和运行于 Unix环境的 X-Window、
OpenLook和 OSF/Motif等。
人机交互技术编写组 16
W I M P 界面
用
户
手
眼
击 键 / 指点
窗口、图标
菜单、文本
应用例程
图 4-2 WIMP界面概念模型
人机交互技术编写组 17
4.3图形用户界面
图形用户界面的共同特点是以窗口管理
系统为核心,使用键盘和鼠标器作为输
入设备。
窗口管理系统除了基于可重叠多窗口管
理技术外,广泛采用的另一核心技术是
事件驱动 (event-driven)技术。
人机交互技术编写组 18
4.3图形用户界面
WIMP界面可看作是第二代人机界面,
是基于图形方式的人机界面 。
在 WIMP界面中, 人被称为用户, 人机
通过对话进行工作 。
用户只能使用手这一种交互通道输入信
息, 通过视觉通道获取信息 。
在 WIMP界面中, 界面的输出可以为静
态或动态的二维图形或图像等信息 。
人机交互技术编写组 19
4.3图形用户界面
这种方式能同时输出不同种类的信息,
用户也可以在几个工作环境中切换而不
丢失几个工作之间的联系,通过菜单可
以执行控制型和对话型任务。
由于引入了图标、按钮和滚动条技术,
大大减少键盘输入,提高了交互效率。
基于鼠标和图形用户界面的交互技术极
大地推动了计算机技术的普及。
人机交互技术编写组 20
4.3.1图形用户界面的主要思想
图形用户界面的三个重要思想
? 1, 桌面隐喻 (desktop metaphor)
? 2, 所见即所得( What You See Is
What You Get,WYSIWYG)
? 3, 直接操纵 (direct manipulation)
人机交互技术编写组 21
1.桌面隐喻 (desktop metaphor)
桌面隐喻是指在用户界面中用人们熟悉
的桌面上的图例清楚地表示计算机可以
处理的能力。
?图形具有一定的文化和语言独立性,可以提高搜
索目标的效率。
?图形用户界面中的图例可以代表对象、动作、属
性或其他概念。
隐喻的表现方法,
?静态图标
?动画
?视频
人机交互技术编写组 22
隐喻的分类,
? 直接隐喻:隐喻本身就带有操纵的对象
? 如 Word绘图工具中的图标, 每种图标分别代表不同的图
形绘制操作 。
? 工具隐喻:代表所使用的工具
? 如用磁盘图标隐喻存盘操作, 用打印机图标隐喻打印操作
等, 这种隐喻设计简单, 形象直观, 应用也最为普遍 。
? 过程隐喻:其通过描述操作的过程来暗示该操作
? 如 Word中的撤销和恢复图标 。
人机交互技术编写组 23
晦涩的隐喻不仅不能增加可用性,反而
会弄巧成拙。
隐喻的主要缺点,
? 需要占用屏幕空间
? 难以表达和支持比较抽象的信息。
人机交互技术编写组 24
2.所见即所得( WYSIWYG)
在 WYSIWYG交互界面中显示的用户交互行为与应用程
序最终产生的结果是一致的。
非 WYSIWYG的编辑器,用户只能看到文本的控制代码,
对于最后的输出结果缺乏直观的认识。
WYSIWYG的 一些弊端,
? 如果屏幕的空间或颜色的配置方案与硬件设备所提供的配置
不一样,在两者之间就很难产生正确的匹配。
? 文本处理器都提供了定义章、节、小节等的标记,这些标记
显式地标明了对象的属性,但并不是用户最终输出结果的一
部分。
人机交互技术编写组 25
3.直接操纵 (direct anipulation)
直接操纵是指可以把操作的对象、属性、
关系显式地表示出来,用光笔、鼠标、
触摸屏或数据手套等指点设备直接从屏
幕上获取形象化命令与数据的过程。
直接操纵的对象是命令、数据或是对数
据的某种操作。
人机交互技术编写组 26
直接操纵的特性
1,直接操纵的对象是动作或数据的形象隐喻
? 形象隐喻应该与其实际内容相近, 使用户能通过屏幕上的
隐喻直接想象或感知其内容 。
2,用指点和选择代替键盘输入
? 用指点和选择代替键盘输入有两个优点, 一是操作简便,
速度快捷 。
3,操作结果立即可见
? 操作结果立即可见, 用户可以及时修正操作, 逐步往正确
的方向前进 。
4,支持逆向操作
? 用户在使用系统的过程中, 不可避免地会出现一些操作错
误, 通过逆向操作, 用户可以很方便地恢复到出现错误之
前的状态 。
人机交互技术编写组 27
直接操纵的特性
5,借助物理的, 空间的或形象的表示,
而不是单纯的文字或数字的表示 。
6.不具备命令语言界面的某些优点,
?例如从用户界面设计者角度看,设计图形比较繁
琐,需进行大量的测试和实验,
7.表示复杂语义、抽象语义比较困难。
人机交互技术编写组 28
4.3.2设计图形用户界面的原则
1,一般性原则
? (1)界面要具有一致性
? 在同一用户界面中,所有的菜单选择、命令输入、数据显
示和其他功能应保持风格的一致性。
? (2) 常用操作要有快捷方式
? 为常用操作设计快捷方式,不仅会提高用户的工作效率,
还使界面在功能实现上简洁而高效。
? (3)提供简单的错误处理
? 在出现错误时,系统应该能检测出错误,并且提供简单和
容易理解的错误处理功能
? (4) 对操作人员的重要操作要有信息反馈
? 提供信息反馈。对操作人员的重要操作要有信息反馈。
人机交互技术编写组 29
4.3.2设计图形用户界面的原则
1,一般性原则
? (5)操作可逆
? 对大多数动作应允许恢复 (UNDO),对用户出错采取比较
宽容的态度
? (6)设计良好的联机帮助
? 人机界面应该提供上下文敏感的求助系统,让用户及时获
得帮助,尽量用简短的动词和动词短语提示命令。
? (7)合理划分并高效地使用显示屏
? 只显示与上下文有关的信息,允许用户对可视环境进行维
护,如放大、缩小窗口;用窗口分隔不同种类的信息,只
显示有意义的出错信息
? (8)保证信息显示方式与数据输入方式的协调一致
? 尽量减少用户输入的动作,隐藏当前状态下不可用的命令,
允许用户自选输入方式,能够删除错误的输入,允许用户
控制交互过程。
人机交互技术编写组 30
4.3.2设计图形用户界面的原则
2.颜色的使用
? 颜色是一种有效的强化手段,同时具有美学
价值。使用颜色时应注意如下几点,
?(1) 限制同时显示的颜色数,
?(2) 画面中活动对象的颜色应鲜明, 而非活动
对象应暗淡 。
?(3) 尽量避免不相容的颜色放在一起, 如黄与
蓝, 红与绿等, 除非作对比时用 。
?(4) 若用颜色表示某种信息或对象属性, 要使
用户理解这种表示, 并尽量采用通用的表示规则 。
人机交互技术编写组 31
4.3.2设计图形用户界面的原则
3.图标的设计
? 图标是可视地表示实体信息的简洁、抽象的
符号。
? 图标设计是方寸艺术,需要在很小的范围内
表现出图标的内涵, 。
? 设计图标时应该着重考虑视觉冲击力,要使
用简单的颜色,利用眼睛对色彩和网点的空
间混合效果,做出精彩图标 。
人机交互技术编写组 32
4.3.2设计图形用户界面的原则
设计图标时须遵守的原则和方法,
? ( 1)图标的图形应该和目标的外形相似。
尽量避免过于抽象。
? ( 2) 可在图标中附加上简要的文本标注,
使用户明确图标的含义 。
? ( 3)设计图标应尽可能简单,符合常规的
表达习惯,保持图标含义的前后连贯。
人机交互技术编写组 33
4.3.2设计图形用户界面的原则
4.按钮的设计
? 设计按钮应该具有交互性,应该有 3到 6种状态效果,
? 点击时的状态
? 鼠标放在上面但未点击的状态
? 点击前鼠标未放在上面时的状态
? 点击后鼠标未放在上面时的状态
? 不能点击时的状态
? 独立自动变化的状态
? 按钮应具备简洁的图示效果,应能够让使用者产生
功能上的关联反应。属于一个群组的按钮应该风格
统一,功能差异大的按钮应该有所区别。
人机交互技术编写组 34
4.3.2设计图形用户界面的原则
5.屏幕布局的设计
? 设计屏幕布局 (Layout)时应该使各功能区重点突出,
应遵循如下几条原则,
? (1)平衡原则
? 注意屏幕上下左右平衡。
? (2) 预期原则
? 对屏幕上所有对象,如窗口、按钮、菜单等处理应一致化,
使对象的操作结果可以预期。
? (3) 经济原则
? 在提供足够信息量的同时要注意简明、清晰。
? (4) 顺序原则
? 对象显示的顺序应按需要排列。
? (5) 规则化
? 画面应对称, 显示命令, 对话及提示行在一个应用系统的设
计中尽量统一规范 。
人机交互技术编写组 35
4.3.2设计图形用户界面的原则
6.菜单界面的设计
? 菜单在图形界面的应用程序中使用得非常普遍,是
软件界面设计的一个重要组成方面,描述了一个软
件的大致功能和风格。
? 菜单中的选项在功能上与按钮相当,一般具有下列
一种或几种类型的选项:命令项、菜单项和窗口项。
? 菜单的结构一般有单一菜单、线状序列菜单、树状
结构菜单、网状结构菜单等,其中树状结构菜单是
最常见的结构。
人机交互技术编写组 36
菜单的结构
? 单一菜单
? 单一菜单是在几个选项中做出选择,可以有两个或多个选
项,用户可以选中其中一个或确定多个选择 。
? 线状序列菜单
? 把一组相关联的菜单组合在一起,用户清楚地知道如何向
前选择和目前在菜单中所处的位置,并且可以重返以前所
作的选择。
? 树状结构菜单
? 树状菜单是把选项划分为若干类,类似的选项组成一组,
最后形成一个树状结构 。
? 网状结构菜单
? 网状结构菜单允许用户在父辈菜单与子菜单之间切换,而
不必重新回到父辈菜单然后再转到子菜单。
人机交互技术编写组 37
图 4-4 Word中设置字体的界面
人机交互技术编写组 38
4.3.2设计图形用户界面的原则
设计菜单界面时应注意的一般性原则,
? 功能组织菜单, 合理分类, 并力求简短, 前后一致
? 合理组织菜单界面的结构与层次。
? 按一定的规则对菜单项进行排序。
? 菜单选项的标题要力求文字简短、含义明确,并且
最好以关键词开始 。
? 常用选项要设置快捷键 。
? 充分利用菜单选项的使能与禁止、可见与隐藏属性。
? 使用 弹出式菜单 。
人机交互技术编写组 39
4.3.2设计图形用户界面的原则
7.填表输入界面的设计
? 在处理大量相关数据的场合下,需要输入一系列的
数据,这时填表输入界面是最理想的数据输入界面。
? 填表输入界面有以下的特点,
? 有明确的提示,使用户可以不需要学习、训练,也不必记
忆有关的语义、语法规则。
? 填表输入界面充分地利用了屏幕空间。
? 在填表输入方式中,可以充分利用上下文信息,帮助用户
完成输入 。
人机交互技术编写组 40
4.3.2设计图形用户界面的原则
在设计填表输入界面时应遵循的原则
? 一致性
? 保证前后用词、语法一致。
? 有含义的表格标题
? 采用有含义的表格标题,栏目标题要为用户所熟悉。
? 使用易于理解的指导性说明文字
? 采用易于理解的说明性文字,并力求简短。如果确实需要
较多的信息,应为初学者提供一组求助信息。
? 栏目按逻辑分组排序
? 表格布局要直观,栏目按操作逻辑分组排序。
人机交互技术编写组 41
? 表格的组织结构和用户任务相一致
? 把相关的输入字段组织安排在一起, 并按照使用频率, 重
要性, 功能关系或使用顺序来进行表格的排序和分组 。
? 光标移动方便
? 需要一种简单直观的机制来移动光标, 如使用 Tab键或箭
头键 。
? 出错提示
? 系统应提示输入数据的允许范围和输入方法, 对不可接受
的值给出出错信息 。
? 提供帮助
? 界面应该在响应处提供帮助信息, 以解决新用户在不熟悉
的情况下的输入 。
? 表格显示应美观, 清楚, 避免过分拥挤 。
人机交互技术编写组 42
图 4-6 填表输入界面
人机交互技术编写组 43
4.3.4 基本的图形输入原语
在交互设计时,将用户的输入抽象成一
些独立的、基本的逻辑输入单元,这些
抽象的逻辑输入单元称为输入原语,由
这些基本输入原语可以形成复杂的交互。
人机交互技术编写组 44
主要的输入原语,
? 1.定位
? 定位是去确定平面或空间的一个点( x,y)或( x,y,z)的
坐标,是图形交互的最基本的输入原语,许多原语都是建
立在定位的基础上的。
? 2.选择
? 在一个选择集中选出一个元素或几个元素称为选择。
? 3.笔画输入
? 笔画输入用于输入一组顺序的坐标点,笔画输入相当于多
次调用定位输入,输入的一组点常用于显示折线或作为曲
线的控制点。
? 4.数值输入
? 数值输入是要在给定的数字范围内确定一个值。
? 5.字符串输入
人机交互技术编写组 45
4.4多通道用户界面
为适应目前和未来的计算机系统要求, 人
机界面应能支持时变媒体 ( time-varing
media), 实现三维, 非精确及隐含的人
机交互, 而多通道人机界面是达到这一目
的的重要途径 。
80 年 代 后 期 以 来, 多 通 道 用 户 界 面
(Multimodal User Interface)成为人机
交互技术研究的崭新领域, 在国内外受到
高度重视 。
人机交互技术编写组 46
4.4多通道用户界面
多通道用户界面的研究正是为了消除当
前 WIMP/GUI用户界面通信带宽不平衡
的瓶颈,综合采用视线、语音、手势等
新的交互通道、设备和交互技术,使用
户利用多个通道以自然、并行、协作的
方式进行人机对话,通过整合来自多个
通道的、精确的和不精确的输入来捕捉
用户的交互意图,提高人机交互的自然
性和高效性,图 4-10所示。
人机交互技术编写组 47
MMI
用
户
手
嘴
?
眼
手
?
2 D / 3 D
多 媒体信息
应用例程
击键 / 指点 通
语音 道
眼神 整
? 合
图 4-10 多通道人机界面概念模型
人机交互技术编写组 48
多通道人机界面主要解决科学计算可视化,
虚拟现实对计算机系统提出的高效, 三维
和非精确的人机交互要求 。 在多通道人机
界面中, 用户可以使用自然的交互方式,
如语音, 手势, 眼神, 表情等与计算机系
统进行协同工作 。 交互通道之间有串行 /并
行, 互补 /独立等多种关系, 因此人机交互
方式向人与人的交互方式靠拢, 交互的自
然性和高效性得到极大的提高 。
4.4多通道用户界面
人机交互技术编写组 49
4.4多通道用户界面
多通道用户界面主要关注人机界面中用户向计
算机输入信息以及计算机对用户意图的理解,
所要达到的目标可归纳为如下方面,
( 1) 交互的自然性
? 使用户尽可能多地利用已有的日常技能与计算机交互, 降
低认识负荷 。
( 2) 交互的高效性
? 使人机通讯信息交换吞吐量更大, 形式更丰富, 发挥人机
彼此不同的认知潜力 。
( 3 ) 与 传 统 的 用 户 界 面 特 别 是 广 泛 流 行 的
WIMP/GUI兼容 。
人机交互技术编写组 50
4.4.1多通道用户界面的基本特点
使用多个感觉和效应通道
允许非精确的交互
三维和直接操纵
交互的双向性
交互的隐含性
人机交互技术编写组 51
4.4.1多通道用户界面的基本特点
1.使用多个感觉和效应通道
? 感觉通道侧重于多媒体信息的接受,效应通
道侧重于交互过程中控制与信息的输入,两
者密不可分、相互配合。
? 一种通道 (如语音 )不能充分表达用户的意图
时,需辅以其它通道 (如手势指点 )的信息;
有时使用辅助通道以增强表达力。
? 交替而独立地使用不同的通道不是真正意义
上的多通道技术,必须允许充分地并行、协
作的通道配合关系。
人机交互技术编写组 52
4.4.1多通道用户界面的基本特点
2.允许非精确的交互
? 人类语言本身就具有高度模糊性,人类在日
常生活中习惯于并大量使用非精确的信息交
流 。
? 允许使用模糊的表达手段可以避免不必要的
认识负荷, 有利于提高交互活动的自然性和
高效性 。
? 多通道人机交互技术主张以充分性代替精确
性 。
人机交互技术编写组 53
4.4.1多通道用户界面的基本特点
3.三维和直接操纵
? 人类的大多数活动领域具有三维和直接操纵
特点(数学的和逻辑的活动例外)。
? 人生活在三维空间,习惯于看、听和操纵三
维的客观对象,并希望及时看到这种控制的
结果。
? 多通道人机交互的自然性反应了这种本质特
点。
人机交互技术编写组 54
4.4.1多通道用户界面的基本特点
4.交互的双向性
? 人的感觉和效应通道通常具有双向性的特点,
如视觉可看可注视,手可控制、可触及等。
? 多通道用户界面使用户避免生硬的、不自然
的、频繁的、耗时的通道切换,从而提高自
然性和效率。
? 视线跟踪系统可促成视觉交互双向性,听觉
通道利用三维听觉定位器实现交互双向性。
人机交互技术编写组 55
4.4.1多通道用户界面的基本特点
5.交互的隐含性
? 追求交互自然性的多通道用户界面并不需要
用户显式地说明每个交互成分,反之是在自
然的交互过程中隐含地说明。
? 例如,用户的视线自然地落在所感兴趣的对
象之上;又如,用户的手自然地握住被操纵
的目标。
人机交互技术编写组 56
4.4.2多媒体技术
定义
? 多媒体( multimedia)的含义是使用计算机
交互式综合技术和数字通信网技术处理多种
表示媒体,如文本、图形、图像和声音,使
多种信息建立逻辑连接,集成为一个交互系
统。
人机交互技术编写组 57
4.4.2多媒体技术
多媒体技术的组成部分包括,
? 存储与访问技术
? 表现与表达技术
? 实时处理技术
? 接口技术
? 人机交互界面技术等
人机交互技术编写组 58
4.4.2多媒体技术
多媒体技术与人机交互技术
? 多媒体技术使人机交互技术最终要向着更接
近于人的自然方式发展, 使计算机具有听觉
和视觉, 以更自然的方式与人交互 。
? 多媒体技术引入了动画, 音频, 视频等动态
媒体, 大大丰富了计算机表现信息的形式,
拓宽了计算机输出的带宽, 提高了用户接受
信息的效率, 使人们可以得到更直观的信息,
从而简化了用户的操作, 扩展了应用范围 。
人机交互技术编写组 59
4.4.2多媒体技术
? 它能提高人对信息表现形式的选择和控制能力 。
? 能提高信息表现形式与人的逻辑和创造能力的结合
程度, 在顺序, 符号信息以及并行, 联想信息方面
扩展人的信息处理能力 。
? 多媒体信息比单一媒体信息对人具有更大的吸引力,
有利于人对信息的主动探索而不是被动接受 。
? 另外, 由于多媒体所带来的信息冗余性, 重复使用
别的媒体或并行使用多种媒体可消除人机通信过程
中的多义性及噪声 。
人机交互技术编写组 60
4.4.3虚拟现实技术
虚拟现实( Virtual Reality)
? 又称虚拟环境( Virtual Environment)。
? 虚拟现实系统向用户提供沉浸( immerse)和多感
觉通道( multi-sensory)体验。
? 在虚拟现实中,人是主动参与者,复杂系统中可能
有许多参与者共同在以计算机网络系统为基础的虚
拟环境中协同工作。
虚拟现实系统具有三个重要特点,
? 沉浸感( immersion)
? 交互性( interaction)
? 构想性( imagination)
人机交互技术编写组 61
4.4.3虚拟现实技术
虚拟现实中的基本要素,
( 1)计算机生成的虚拟世界(环境)必须是一
个能给人提供视觉、听觉、触觉、嗅觉以及味
觉等多种感官刺激的世界。目前虚拟现实通常
由视觉、听觉和触觉三种刺激构成。
( 2)虚拟现实统实质上是一种高级的人机交互
系统。这里的交互操作是对多通道信息进行的,
并且对沉浸式系统要求采用自然方式的交互操
作,对于非沉浸式系统也可使用常规交互设备
进行交互操作。
人机交互技术编写组 62
虚拟世界的概念模型
虚拟世界的概念模型
? 虚拟现实是人们可以通过视、听、触等信息
通道感受到设计者思想的用户界面,由两部
分组成:一部分是创建的虚拟世界(环境),
另一部分是为介入者(人) 。
? 虚拟世界的核心是强调两者之间的交互操作,
即反映出人在虚拟世界(环境)中的体验。
? 人机交互是虚拟现实的核心。
人机交互技术编写组 63
虚拟现实的概念模型
介
入
者
感知系统
反应系统
虚拟世界
(环境)
感官刺激信号
反应动作
图 4-11 虚拟现实的概念模型
人机交互技术编写组 64
虚拟现实的概念模型
理解虚拟现实的概念模型
? 从虚拟环境对人的作用来看,虚拟现实的概
念模型可以看作为“显示 /检测”模型。
? 从人对虚拟环境的作用来看,也就是从用户
的角度看,上述概念模型可以看作“输入 /
输出”模型。
?输入是指用户感知系统接受虚拟环境提供的各种
感官刺激信号。
?输出是指用户对虚拟环境系统做出的反映动作。
人机交互技术编写组 65
虚拟现实与多媒体及多通道
虚拟现实技术正是一种以集成为主的技术,
其人机界面可以分解为多媒体、多通道界
面。
从本质上说,多媒体用户界面技术侧重解
决计算机信息表现及输出的自然性和多样
性问题,而多通道技术侧重解决计算机信
息输入及理解的自然性和多样性问题。
人机交互技术编写组 66
虚拟现实造型语言 VRML
VRML
? 是一种描述交互式三维世界和对象的文件格式。
VRML允许描述对象并把对象组合到虚拟场景中,可
以实现仿真系统,可模拟动画、具有动力学特性的物
体。
? VRML能构造一个交互的虚拟世界,其中的对象能对
外部事件做出响应,并可在其中任意穿行。
? 可以支持虚拟场景的网上发布,并可实现多用户的实
时参与。
? VRML比高级语言容易掌握,并且无须再去了解
OpenGL3D或者 Directx3D之类的三维图形开发库。
? VRML文件的解释、执行和显示一般由浏览器来完成。
人机交互技术编写组 67
VRML浏览器的概念模型
VRML浏览器概念模型 的组成
? 解释器
? 读取 VRML文件并产生场景图 。
? 场景图
? 场景图包括节点的变换层次和路径图及执行引擎 。
? 执行引擎处理事件, 读取和编辑路径图, 改变节点的变换
层次 。
? 听/视觉展示
? 浏览器的听/视觉展示部分完成变换层次的图形和声音的
产生, 给用户以反馈 。
人机交互技术编写组 68
用户
执行引擎
路径图
*插值器
*感知器
*脚本
变换层次
音频/视频展示
解释器
原型 内建节点
VRML文件 用户输入
VRML浏览器
场景图
?图 4-12 一种
VRML浏览器的
概念模型
人机交互技术编写组 69
4.4.4眼动跟踪( Eye-Gaze Tracking)
与视觉有关的人机交互自始至终都离不开
视线的控制。
如果能通过视线的用户盯着感兴趣的目标,
计算机便“自动”将光标置于其上,人机
交互将更为直接,也省去了上述交互过程
中的大部分步骤。
人机交互技术编写组 70
4.4.4眼动跟踪
早期的视线跟踪技术首先应用于心理学
研究、助残等领域,后来被应用于图像
压缩及人机交互技术。
视线跟踪技术有强迫式与非强迫式、穿
戴式与非穿戴式、接触式与非接触式之
分。
视线追踪主要用于军事领域(如飞行员
观察记录),阅读及帮助残疾人通信等。
人机交互技术编写组 71
1.眼动的主要形式
眼动有三种主要形式 (在人机交互中,眼动跟踪
主要利用跳动和注视,
? 跳动( Saccades)
? 在正常的视觉观察过程中,眼动表现为在一系列被观察目标
上的停留及在这些停留点之间的飞速跳跃。
? 在注视点之间的飞速跳跃称为眼跳动。
? 注视( Fixations)
? 停留时间至少持续 100ms以上的称为注视。在注视中,眼也
不是绝对静止不动,会有微小运动,但大小一般不会超过 1°
视角。
? 绝大多数信息只有在注视时才能获得并进行加工。
? 平滑尾随跟踪( Smooth Pursuit)
? 缓慢、联合追踪的眼动通常称为平滑尾随跟踪。
人机交互技术编写组 72
2.眼动跟踪的基本要求
在人机交互中眼动跟踪技术必须满足以下几
点要求, 才能满足实际需求,
? 不能妨碍视野 。
? 不要与用户接触, 对用户基本无干扰 。
? 精度要高 。
? 动态范围要从 1弧分 ( 六十分之一弧度 ) 到 45o。
? 反映速度要快, 实时响应 。
? 能与获取的身体和头部运动相配合 。
? 定位校正简单 。
? 可作为计算机的标准外设 。
人机交互技术编写组 73
3.眼动跟踪的基本原理
利用红外发光二极管发出红外线,采用图像处理技术和能
锁定眼睛的特殊摄像机,通过分析人眼虹膜和瞳孔中红外
线图象点的连续变化情况,得到视线变化的数据,从而达
到视线追踪的目的。
从视线跟踪装置得到的原始数据需要经过进一步的处理才
能用于人机交互。
数据处理的目的是滤除噪声、识别定位及局部校准与补偿
等,最重要的是提取出用于人机交互所必需的眼睛定位坐
标。
但是由于眼动存在固有的抖动,以及眼睛眨动、头部剧烈
的移动所造成的数据中断,存在许多干扰信号,提取有意
眼动数据非常困难。解决此问题的办法之一是利用眼动的
某种先验模型加以弥补。
人机交互技术编写组 74
4.米达斯接触问题与解决方法
“米达斯接触( Midas Touch)”问题
? 如果鼠标器光标总是随着用户的视线移动,可能会
引起用户的厌烦,因为用户可能希望能随便看着什
么而不必非“意味着”什么,更不希望每次转移视
线都可能启动一条计算机命令。
避免“米达斯接触”问题的方法:在理想情况
下,应当在用户希望发出控制时,界面及时地
处理其视输入,而在相反的情况下则忽略其视
线的移动。
可采用其他通道(如键盘或语音)进行配合。
人机交互技术编写组 75
4.4.5手势识别( gesture recognition)
一个简单的手势蕴涵着丰富的信息,人与人
可以通过手势传达大量的信息,实现高速的
通信。
将手势运用于计算机能够很好地改善人机交
互的效率。
在多数情况下我们笼统地认为手势是人的上
肢 (包括手臂、手和手指 )的运动状态。
人机交互技术编写组 76
手势的分类
交互性手势与操作性手势
? 在交互性手势中手的运动表示特定的信息 (如乐队指
挥 ),靠视觉来感知;操作性手势不表达任何信息
(如弹琴 )。
自主性手势和非自主性手势
? 自主性手势与语音配合用来加强或补充某些信息 (如
演讲者用手势描述动作、空间结构等信息 )。
离心手势和向心手势
? 离心手势直接针对说话人,有明确的交流意图,向
心手势只是反应说话人的情绪和内心的愿望。
人机交互技术编写组 77
计算机识别和解释手势
利用计算机识别和解释手势输入是将手势应用于
人机交互的关键前提,识别手势的手段有,
? 鼠标器和笔
? 优点是仅利用软件算法来实现,从而适合于一般桌面系统。
? 缺点是只能识别手的整体运动而不能识别手指的动作。
? 数据手套
? 主要优点是可以测定手指的姿势和手势。
? 相对而言较为昂贵,并且有时会给用户带来不便。
? 计算机视觉
? 利用摄像机输入手势,优点是不干扰用户,这是一种很有前
途的技术。
? 在技术上存在很多困难,还难以胜任手势识别和理解的任务。
人机交互技术编写组 78
主要手势识别技术
? 模板匹配技术
? 一种最简单的识别技术,将传感器输入的原始数据与预先存
储的模板进行匹配,通过度量两者之间的相似度完成识别任
务。
? 神经网络技术
? 一种较新的模式识别技术,具有自组织和自学习能力,具有
分布性特点,抗噪声能力比较强,能处理不完整的模式,并
具有模式推广能力。
? 统计分析技术
? 通过统计样本特征向量来确定分类器的一种基于概率的分类
方法。在模式识别中一般采用贝叶斯极大似然理论确定分类
函数。
人机交互技术编写组 79
实用的手势识别
目前较为实用的手势识别是基于数据手
套。因为数据手套不仅可以输入包括三
维空间运动在内的较为全面的手势信息,
而且比基于计算机视觉的手势在技术上
要容易实现。
人机交互技术编写组 80
4.4.6三维输入
许多应用 ( 如虚拟现实系统 ) 需要三维空间定位
技术:三维空间控制器的共同特点是具有六个自
由度, 分别描述三维对象的宽度, 深度, 高度,
俯仰角, 转动角, 偏转角 。
通过控制这六个参数, 用户可以在屏幕上平移三
维对象或光标, 也可沿三个坐标轴转动三维对象 。
三维空间控制器, 视线跟踪器, 数据手套等输入
设备产生的空间位置是相对的 。
在三维用户交互中必须便于用户在三维空间中观
察、比较、操作、改变三维空间的状态。
人机交互技术编写组 81
三维空间的交互操作方式
直接操纵
? 由六个自由度、三维输入装置控制的三维光标将使
三维交互操作更自然和方便。
? 三维光标必须有深度感,即必须考虑光标与观察者距离。
离观察者近的时候较大,离观察者远的时候较小。
? 确定光标在三维空间的方向,这种定向操作必须自然且方
便操作;为保持三维用户界面的空间感,光标在遇到物体
时不能进入到物体内部。三维光标的实现需要大量的计算,
对硬件的要求较高,编程接口也比二维光标复杂得多。
人机交互技术编写组 82
三维空间的交互操作方式
三维 widgets
? 三维 widgets即三维交互界面中的一些小工
具。用户可以通过直接控制它们使界面或界
面中的三维对象发生改变。
? 三维 widget包括在三维空间中漂浮的菜单、
用于拾取物体的手的三维图标、平移和旋转
指示器等 。
人机交互技术编写组 83
采用三视图输入技术,实现三维的输入
如果输入一个三维点,只要在两个视图
上把点的对应位置指定后便唯一确定了
三维空间中的一个点;把直线段上两端
点在三视图上输入后便可决定三维空间
的一条直线;把一个面上的各顶点在三
视图上输入后,也唯一确定了三维空间
中的一个面;如果把一个多面体上的各
面均用上述方法输入,也就在三维空间
中输入了一个多面体。
人机交互技术编写组 84
4.4.7语音识别( speech recognition)
语音识别是计算机通过识别和理解过程把
语音信号转变为相应的文本文件或命令的
技术。
语音识别又是一门交叉学科,它与声学、
语音学、语言学、数字信号处理理论、信
息论、计算机科学等众多学科紧密相连。
人机交互技术编写组 85
语音识别涉及的技术
数字化语音信号的转换和量化涉及到信号表示问
题,需要研究如何使系统在传感器与环境的变化
中保持性能的稳定,以适应这些变化。
各种语音必须被恰当地建模,目前采用的最广泛
的建模技术是隐马尔科夫模型( HMM)。
最后是语言的约束问题。
语音识别技术所涉及的领域包括:信号处理、模
式识别、概率论和信息论、发声机理和听觉机理、
人工智能等等。
目前主流的语音识别技术是基于统计的模式识别
的基本理论,如图 4-13所示。
人机交互技术编写组 86
预处理
模型库
测度估计特征提取
语音
输入
参考模型
测试特征
后处理
识别
结果
模型库
图 4-13 语音识别系统的处理流程
人机交互技术编写组 87
语音识别系统的组成
语音特征提取
? 从语音信号中提取语音的特征,既可以获得语音的
本质特征,也起到数据压缩的作用。
? 输入的模拟语音信号首先要进行预处理,包括预滤
波、采样和量化、加窗、端点检测、预加重等。
声学模型
? 声学模型对应于语音到音节概率的计算 。 在识别时
将输入的语音特征同声学模型 ( 模式 ) 进行匹配与
比较, 得到最佳的识别结果 。
? 目前采用的最广泛的建模技术是隐马尔科夫模型
HMM建模和上下文相关建模 。
人机交互技术编写组 88
隐马尔科夫模型 HMM建模
? 马尔可夫模型是一个离散时域有限状态自动机,隐马
尔可夫模型 HMM是指这一马尔可夫模型的内部状态外
界不可见,外界只能看到各个时刻的输出值。
? 语音识别中使用 HMM通常是用从左向右单向、带自环、
带跨越的拓扑结构来对识别基元建模,一个音素就是
一个三至五状态的 HMM,一个词就是构成词的多个音
素的 HMM串行起来构成的 HMM,而连续语音识别的
整个模型就是词和静音组合起来的 HMM。
语音识别系统的组成
人机交互技术编写组 89
上下文相关建模
? 上下文相关建模方法在建模时考虑了协同发音的影
响。
? 协同发音是指一个音受前后相邻音的影响而发生变
化,从发声机理上看就是人的发声器官在一个音转
向另一个音时只能逐渐变化,从而使得后一个音的
频谱与其他条件下的频谱产生差异。
? 上下文相关模型能更准确地描述语音,只考虑前一
音的影响的称为 Bi-Phone,考虑前一音和后一音的
影响的称为 Tri-Phone。
? 英语的上下文相关建模通常以音素为基元,由于有
些音素对其后音素的影响是相似的,因而可以通过
音素解码状态的聚类进行模型参数的共享。
语音识别系统的组成
人机交互技术编写组 90
语言模型
语言模型计算音节到字的概率。语言模型主要分为,
? 规则模型
? 统计模型
? 统计语言模型是用概率统计的方法来揭示语言单位内在的
统计规律,其中 N-Gram模型简单有效,被广泛使用。
听写机
? 大词汇量、非特定人、连续语音识别系统通常称为
听写机。其架构就是建立在声学模型和语言模型基
础上的 HMM拓扑结构。
对话系统
? 对话系统往往是面向一个狭窄领域、词汇量有限的
系统 。
语音识别系统的组成
人机交互技术编写组 91
语音识别技术在实际使用中达到了较好的效果,
但如何克服影响语音的各种因素还需要更深入
地分析。目前听写机系统还不能完全实用化以
取代键盘的输入,但识别技术的成熟同时推动
了更高层次的语音理解技术的研究。由于英语
与汉语有着不同的特点,针对英语提出的技术
在汉语中如何使用也是一个重要的研究课题,
四声等汉语本身特有的问题也有待解决。
语音识别技术存在问题
人机交互技术编写组 92
4.4.8表情识别
面部表情是人体语言的一部分 。
人的面部表情不是孤立的, 它与情绪之间存在
着千丝万缕的联系 。
人的各种情绪变化以及对冷热的感觉都是非常
复杂的高级神经活动, 如何感知, 记录, 识别
这些变化过程是表情识别的关键 。
到目前为止, 国际上关于表情分析与识别的研
究工作可以分为基于心理学的和基于计算机识
别的两类 。
人机交互技术编写组 93
计算机面部表情的识别的三个步骤
表情的跟踪
? 以某种方式将表情信息从外界摄取出来。
表情的编码
? 即对面部表情进行编码。基于面部运动确定表情的
思想,Ekman和 Friesen于 1978年提出了一个面部动
作编码系统( Facial Action Coding System,
FACS),它是基于对所有引起面部动作的脸的“动
作单元”的枚举编制而成的。
表情的识别
? 面部表情的识别可以通过对 FACS中的那种预定义的
面部运动的分类来进行,而不是独立地确定每一个
点。
人机交互技术编写组 94
4.4.9手写识别
发展手写识别技术并嵌入到各种设备中,将是
手写识别技术未来发展的重要方向之一。
世界上绝大多数语言的字符都可以用 Unicode的
形式来表示。
联机手写识别技术的优点是不需专门学习与训
练、不必记忆编码规则、安装后即可手写输入
汉字,是最简单方便的输入方式。同时符合人
的书写习惯,可以一面思考、一面书写,不会
打断思维的连续性,是最自然的输入方式。
人机交互技术编写组 95
手写识别的形式和约束
脱机( off-line,又称离线)识别
? 脱机识别就是机器对于已经写好或印刷好的静态的
语言文本图像的识别。
联机( on-line,又称在线)识别
? 联机识别是指用笔在输入板上写,用户一边写,机
器一边进行识别,可实时人机交互。
手写体识别的方法和识别率取决于对手写约束
的层次,这些约束主要是手写的类型、写字者
的数量、词汇量的大小以及空间的布局。显然,
约束越宽识别越困难。
人机交互技术编写组 96
1.联机手写识别
联机手写文字的识别过程,
? 预处理、归一化、特征抽取、特征匹配
汉字 手写
输入板 预处理
模式表达
(特征提取
)
判别
(分类或
句法分析
)
字典
(特征模板集合或句法
规则集合)
汉字代码
图 4-14 联机手写识别原理框图
人机交互技术编写组 97
2.脱机手写识别
脱机手写识别比印刷体汉字识别、联机手写体
识别都要困难。
脱机手写识别得到的描述则是点阵图像,要得
到笔段的点阵通常需要细化运算。
细化会损失一些信息,并且不可能得到时间顺
序信息。
脱机识别中,笔画与笔画之间经常粘连,很难
拆分,而且笔段经过与另一笔段交叉分成两段
后,也难以分清是否应该连起来。
人机交互技术编写组 98
汉字识别的方法
结构识别
? 结构识别方法的出发点是汉字的组成结构。
汉字是由笔划 (点、横、竖、撇、捺等 )、偏
旁、部首构成,通过把复杂的汉字模式分解
为简单的子模式直至基本模式元素,对子模
式的判定以及基于符号运算的匹配算法,实
现对复杂模式的识别。
? 结构识别法的优点是区分相似字的能力强,
缺点是抗干扰能力差。
人机交互技术编写组 99
汉字识别的方法
统计识别
? 统计识别方法是将汉字看为一个整体,其所有的特
征是从整体上经过大量的统计而得到的,然后按照
一定准则所确定的决策函数进行分类判决。统计识
别的特点是抗干扰性强,缺点是细分能力较弱。
神经网络
? 神经网络具有学习能力和快速并行实现的特点,因
此可以通过神经网络分类器的推广能力准则和特征
提取器的有效特征提取准则,对手写字符进行识别。
人机交互技术编写组 100
影响汉字识别率的因素
笔顺问题
? 书写习惯影响笔划的书写顺序, 单纯通过串匹配进
行识别难以达到理想效果 。 对汉字进行描述时, 仅
仅采用一维串也就显得不够, 必须利用一些二维方
法来描述, 但其会极大地增加匹配的难度 。
连笔问题
? 对于结构识别而言,连笔一方面使笔划种类大大增
加,甚至达到难以归纳的程度;另一方面,连笔又
使得笔段抽取难度大增,连笔会增加一些冗余笔段,
连笔造成的畸变又会使笔段方向严重离散。
人机交互技术编写组 101
相似字区分
? 汉字种类繁多,很多汉字彼此之间非常相似,例如
,己、已、巳, 三个字相差只在细微之间。手写汉
字的变形十分严重,怎样能使识别系统抓住微小的
差别,是一个非常值得研究的问题。
对抗干扰能力的要求
? 书写时候,笔划的畸变、丢失,多余笔段 (如笔锋 )
的插入,字的倾斜,部件间相对位置、大小的变化,
经常出现,会造成基元提取和识别的错误 。
影响汉字识别率的因素
人机交互技术编写组 102
4.4.10数字墨水( digital ink)
数字墨水是一种新的人机界面技术,它
借鉴手写识别技术的同时,克服了它的
许多局限性。
数字墨水在数学上是通过三阶贝塞尔曲
线来描述笔输入的笔迹,它的记录格式
与图像和文本格式都不同。
这种存储方式使得数字墨水文件的大小
很小,从而可以更有效地进行存储。
人机交互技术编写组 103
数字墨水的处理
数字墨水的表示
压缩和显示
智能的墨水分析技术
墨水标记和注解技术
墨水的智能操作
墨水存储
墨水搜索
人机交互技术编写组 104
数字墨水的解析
墨水解析技术是数字墨水技术中的亮点,
它可以将笔输入的文字串解析成单字,
从而将复杂的语句级手写识别化繁为简,
分解成语句解析和单字识别两个部分。
可以对记录下来的数字墨水进行结构化
和深度分析,分析目的不是要去解决
“写的是什么字”,而是要解决“到底
在写什么,以及是如何写的”。
人机交互技术编写组 105
数字墨水的保存格式
数字墨水可以用墨水格式保存( ink文件),用
户不再需要利用其他 Windows应用程序来把手
绘、手写的笔迹转换为别的格式来保存、发送
和编辑。同样,由于 Windows平台将数字墨水
定义为基本数据类型之一,如同文本得到操作
系统级的支持一样,数字墨水在不同应用软件
之间的交换也变得非常容易。
数字墨水的数据格式比图像数据格式所占的空
间小得多,而且数字墨水记录的是结构化的信
息,可以进行全文搜索。
人机交互技术编写组 106
数字墨水的使用
当前,微软已实现了数字墨水技术对英
文、德文、法文、韩文、日文、简体和
繁体中文等语言的支持。 Windows XP
Tablet PC Edition拥有强大而简单的数字
化墨水控件和 API,方便软件开发商将笔
墨功能扩展到其现有和即将推出的软件
中,就如同集成目前的键盘和鼠标一样
简单。
人机交互技术编写组 107
数字墨水的价值
它结合了个人电脑强大的计算处理能力以及纸
的易用性。
它“还墨水以本色”,人类不再需要扭曲自己
最自然的写作方式,在机器所设置的“行”或
“框, 中按机器的要求书写,而是随心所欲、
随意勾画。
将成为许多崭新应用的底层支持,这些应用将
把人类传统的手写和手绘发挥得淋漓尽致。
人机交互技术编写组 108
4.5汉字信息处理技术
汉字信息处理主要是研究汉字的属性、
编码、输入方法、词处理、字形存储等
基本理论和技术,提高汉字字符处理系
统的性能,加强汉语理解和高层次应用
研究。
人机交互技术编写组 109
4.5.1文字信息的计算机处理过程
图 4-17 文字信息的计算机处理过程
人机交互技术编写组 110
4.5.2汉字编码
国标码,GB2312-80,信息交换用汉字编码字
符集,
? 是目前国内所有汉字系统的统一标准。
? 每个国标码都对应着一个惟一的汉字或符号。
? 国标码共有字符 7445个,包括汉字和其他字符。其
中一级汉字有 3755个,按汉语拼音顺序排列;二级
汉字有 3008个,按部首和笔画排列;其他字符有常
用符号、序号,GB1988图形字符集、希腊字符、制
表符等。
? 是一个四位十六进制数编码,前两位表示行 (0~93),
后两位表示列 (0~93),分别用双 7位二进制数表示,
即两个字节的最高位为 0。
人机交互技术编写组 111
汉字的编码
区位码
? 区位码是一个四位的十进制数,前两位叫做区码
(1~94),后两位叫做位码 (1~94),分别用双 2位十
进制数表示,不足两位时前面补 0。
机内码
? 是计算机内部实际使用的表示汉字的代码,在微机
中多用两字节 (最高位为 1)代码作为机内码。
BIG5
? 我国台湾地区的计算机界实行的汉字编码字符集,
包含了 420个图形符号和 13070个汉字(不包含简化
汉字)。
人机交互技术编写组 112
汉字的编码
GBK
?, 汉字内码扩展规范,,国家于 1995年 12
月 15日将它确定为技术规范指导性文件。
? GBK共有 20902个 GB汉字。包括了 GB码简体
汉字和 BIG5繁体汉字。
? GBK向下与 GB2312编码兼容,向上支持 ISO
10646.1国际标准。
? 与 Unicode组织的 Unicode编码完全兼容。
人机交互技术编写组 113
4.5.3汉字输入方法
键盘输入
? 利用键盘、根据一定的编码规则来输入汉字。
? 常用汉字编码
? 音码
? 形码
? 音形混合码
? 数码等
非键盘输入
? 联机手写输入
? 语音输入
? 光电扫描输入
人机交互技术编写组 114
目前主要键盘中文输入法
流水码(对应码)
音码
形码
声形码
混合输入法
数字键盘输入技术
人机交互技术编写组 115
目前主要键盘中文输入法
流水码 ( 对应码 )
? 以各种编码表作为输入依据
? 因为每个汉字只有一个编码, 所以重码率几乎为零,
效率高, 可以高速盲打,
? 缺点是需要的记忆量极大, 而且基本上没有什么规
律 。
? 常见的流水码有区位码、电报码、内码等。这种方
法适用于某些特殊用户,如电报员等。
? 在计算机中输入汉字时,这类输入法已经基本淘汰。
人机交互技术编写组 116
目前主要键盘中文输入法
音码
? 是按照汉字的拼音来进行输入汉字的, 不需要特殊
记忆, 符合人的思维习惯, 只要会拼音就可以输入
汉字 。
? 缺点,
? 同音字太多, 重码率高, 输入效率低 。
? 对用户的发音要求较高 。
? 很难处理不认识的生字 。
? 常用的输入法
? 全拼双音, 双拼双音, 新全拼, 新双拼, 智能 ABC,微软
拼音等
? 新的拼音输入法在模糊音处理、自动造词、兼容性
等方面都有很大提高,有些输入法还支持整句输入,
使拼音输入速度大幅度提高。
人机交互技术编写组 117
目前主要键盘中文输入法
形码
? 形码是一种按汉字的字形 ( 字根, 笔画, 部首 ) 来
规定为基本的输入编码, 再由这些编码组合成汉字
的输入方法 。
? 传统的形码有五笔字型、郑码等;台湾的仓颉、大
易等;香港的纵横、快码等。
? 形码的优点:重码少,不受方言干扰,只要经过一
段时间的训练,输入汉字的效率会有大的提高。
? 形码的缺点:需要记忆的东西较多,长时间不用会
忘掉。
人机交互技术编写组 118
目前主要键盘中文输入法
声形码
? 声形码吸取了音码和形码的优点,将二者混
合使用。
? 常见的声形码有钱码、丁码、二笔等。
? 声码主要是用来代替传统形码的识别码
? 但由于存在形与声的相互转换和必须同时掌
握形和声,在技术上已经显得落后。
人机交互技术编写组 119
目前主要键盘中文输入法
混合输入法
? 某些汉字系统同时采用音、形、义多种方法
输入,并结合了一些智能化的输入功能。很
多智能输入法把拼音输入法和某种形码输入
法结合起来,使一种输入法中包含多种输入
方法。
? 以万能五笔为例,它包含五笔、拼音、中译
英、英译中等多种输入法。全部输入法只在
一个输入法窗口里,不需要来回切换。
人机交互技术编写组 120
目前主要键盘中文输入法
数字键盘输入技术
? 最常用的输入法称为 T9输入法,Text on 9 Keys( 9
键输入文字)” 。这里的 9键泛指手机、双向寻呼
机、信息家电、移动计算设备等小型电子产品上的
标准按键。
? 采用了与语言数据库相集成的专用软件,利用标准
的 9按键,可以直观、简捷、快速地输入文字信息。
? T9算法能够根据字母组合的可能性,自动筛选输入
的不同字母,即时拼写出正确的词语。
? 它还可以输入标点符号,并提供了包含大部分姓名
的名字库。
人机交互技术编写组 121
目前主要键盘中文输入法
数字键盘输入技术
? 流行的 T9数字键盘输入法利用了对有意义文字的预
先智能判断技术,实行快速输入。
? 在汉字拼音输入法中引入 T9输入技术后,也可以用
于拼音的智能预先判别,而且由于拼音比英文单词
相对简单,组合也比英文单词少很多,所以比 T9的
英文输入法更便捷。
? T9目前可以支持汉语、英语、法语、德语、日语、
韩语、意大利语等 17种语言。
? T9输入法已经成为全球手机文字输入的标准之一。
? 诺基亚、西门子、松下、飞利浦等公司的产品均支
持此种输入法。
人机交互技术编写组 122
4.5.4非键盘输入法
非键盘输入方式是通过手写、听、听写、
读听写等方式输入汉字。
主要有几类,
? 手写输入
? 语音识别
? 光电扫描输入
人机交互技术编写组 123
非键盘汉字输入法
1,手写输入法
? 手写输入法是一种笔式环境下的手写中文识
别输入法 。
? 市场上的手写输入产品的正楷手写识别率均
已达到 98%以上,连笔书写识别率也能达到
95%左右。
? 采用人工自学习和智能学习功能,可以识别
书写者本人常用的简体字、异体字,提高了
输入准确率和输入速度。
人机交互技术编写组 124
非键盘汉字输入法
2.语音输入法
? 语音输入法是将声音通过话筒转换成文字的一种输
入方法, 是汉字输入法的发展趋势之一 。
? 目前语音输入产品大多数采用 IBM开发的 ViaVoice
98/ViaVoice 2000语音识别技术, 尽管这种输入
方法受口音等因素限制识别率还不是很高, 但由于
其使用方便, 输入速度快, 受许多用户欢迎 。
? 语音输入法虽然使用很方便, 但错字率仍然比较高,
特别是一些未经训练的专业名词以及生僻字 。
? 如果普通话口音不标准, 只要用语音训练程序, 进
行一段时间的训练, 也可以实现文字输入 。
人机交互技术编写组 125
非键盘汉字输入法
3.光电扫描输入法 OCR(光学字符识别技术)
? 光电扫描输入是借助扫描仪输入汉字,能够把复印
和编辑结合在一起。
? 其特点是扫描输入速度快,但应用范围较窄。
? 把要输入的文稿通过扫描仪转化为图形进行识别,
原稿的印刷质量越高,识别的准确率就越高,一般
最好是印刷体的文字,比如图书、杂志等。
? 如果原稿的纸张较薄,在扫描时纸张背面的图形、
文字可能也透射过来,干扰最后的识别效果。
人机交互技术编写组 126
比较项目
传统键盘输入
(传统五笔)
联机手写输
入法
语音输入
法
光电扫描输
入法
基本要求
五笔、键盘
知识
规范书写汉
字
比较标准
的读音
只用于印刷体
文件
入门时间
2-7天
10分钟以内
10分钟以
内
10分钟以内
输入汉字速
度
120字 /分钟
30字 /分钟
150字 /分
钟
1000字 /分钟
正确率
(识别率)
100%
95%以上
90%
和印刷清晰度
相关
价格
100元以下
200-800元
800元
400元以上
实用程度
安装携带方
便,普通电
脑
不易安装携
带,受识别
技术限制,
普通电脑
不易安装携
带,修改比
较麻烦,多
媒体电脑
不易安装携带,
后期编辑工作
多,需扫描仪
表 4-1 汉字输入方法比较表
人机交互技术编写组 127
习题
用 Java语言编程实现一个图书管理系统
的文本菜单 。
用可视化开发工具实现一个程序框架, 设
计多级菜单和快捷键, 工具栏和状态栏并
在状态栏中显示鼠标所在的坐标 。