1.3 资源发现系统使用情况调研
随着学术研究的飞速发展以及学术资源数据的爆发式增长,图书馆的学术资源查询与搜索系统从OPAC系统(针对馆藏资源)→数据库导航系统→数据整合系统→现在的资源发现系统,在不断升级以满足用户对学术资源查询效率与准确的要求。在聚焦研究内容之前,我们对资源发现系统进行了全面调研,旨在找出现有系统的优点与不足,抓住用户痛点,针对调研结果制定研究内容并进行实验,提出改进和完善资源发现系统的实际可行方案。
初次调研在2016年底,在撰写这份研究报告过程中,又补充了调研数据。截至2020年11月的数据,全国39所“985工程”高校,均拥有资源发现系统。在《高校图书馆资源发现系统中文检索性能比较分析》[18]一文的基础上,借助Primo、Summon官网[19,20]的订阅用户表、各大学图书馆网站,对各大学的资源发现系统使用情况再次进行验证和更新,得出了表1-1的内容。
表1-1 国内“985”工程高校图书馆资源发现系统使用情况

续表

续表

*注:调研发现所有“985”高校图书馆都应用了资源发现系统,且依据自身需求,使用一套或两套资源发现系统。
资源发现系统与网络搜索环境类似,能够满足用户对图书馆信息全面发现和即时获取的期望,弥补了图书馆信息资源碎片化管理的缺陷。为满足差异化的使用习惯,高校图书馆一般既提供资源发现系统的入口,又提供不同通往各类数据库的链接,如表1-2所示。以某“985”高校为例,该校以“丽娃搜索”为入口,点击中文发现,则链接到超星资源发现系统;点击英文发现,则链接到Summon英文资源发现系统。如图1-2所示。

图1-2 某高校学术资源搜索入口(丽娃搜索为资源发现系统入口)
表1-2 某高校学术数据库资源收录情况

为了进一步了解资源发现系统的用户使用情况,我们面向科研需求比较高的硕士研究生、博士生和青年教师进行了问卷调查及访谈。由于疫情影响,考虑问卷发放的难度、问卷质量等因素,本次调研的调查范围限定在某“985”高校。表1-3为图书馆资源发现系统的主要考核指标。其中我们将着重从用户能够直观感受到的几个方面入手,包括界面与检索功能、资源获取功能以及图书馆个性化需求。
表1-3 资源发现系统考核指标[17]

1.3.1 资源发现系统问卷调查
本次问卷分为上、下两部分进行分期投放,问卷一共包含6个问题,其中的3个问题为多选题,主要了解用户的学术检索频率,及各类不同学术检索系统的使用情况(包括资源发现系统以及各类数据库);另外3个问题则为单选题,了解对于用户来说,不同检索系统在资源和功能上是否具有显著差异。
此次调研面向研究生及青年教师,共发放问卷一235份,回收235份,回收率100%,有效率100%。
调查显示,被测群体查找学术资料时最常用的三个检索系统为中国知网、CNKI学术搜索与Web of Science。
图1-3和图1-4主要为被测对象的中文数据库以及英文数据库的使用情况统计。由图易知,知网为中文数据库中主要使用的数据库,使用人数达132人;英文数据库则以Web of Science为主达100人。调研发现,86.67%的被测对象学术检索频率较高,达到一周三天及以上,是否能快速获得所需资料能够大大提高科研效率;76.3%的被测对象表示在对同一个研究课题进行学术检索需要用到2个以上数据源才能收集到所需资料;有96.3%的被测对象表示在查阅中、英文资料时需要分别使用不同的数据源。

图1-3 中文学术检索系统使用情况

图1-4 英文学术检索系统使用情况
初步调研发现,被测群体对知网以及Web of Science两个数据库的依赖程度较高,在进行学术研究时仅使用丽娃搜索或仅使用数据库并不能满足日常资料查找要求。
针对第一份问卷的了解情况,我们设计了第二份问卷,问卷建立在使用过丽娃搜索进行中文和英文学术资源检索的基础上,如果均未使用过,则请被测对象登录校园图书馆,并进行中、英文资源检索体验之后进行答卷。此次问卷共发放85份,有效问卷85份,回收率100%,有效率100%。
图书馆资源发现系统聚合功能的实现分为两个步骤,一是获得尽可能广泛的数据源,二是元数据的整合与互操作处理。这两个步骤共同决定图书馆资源发现系统聚合功能强大与否,并与用户的使用感受直接关联。69.41%的被测对象认为超星和Summon中所收录的文献以及资料不够充足,缺少一些电子图书资料;65.88%的被测对象表示资源发现系统中能够看到文献,但可能会因为数据库没有收录该文献,无法查看全文或下载而感到不满。
被测群体对资源发现系统中各类资源的需求程度按大小排序依次为电子图书、开放性数据、政府文件、相关新闻报道、会议记录、开放课程以及合作项目资源,统计结果如表1-4所示。
表1-4 聚合来源平均得分情况

在众多来源中,电子图书、开放数据、政府文件以及相关新闻等资源在用户中的认可度较高,故高校应加强这些资源的建设,并将其整合到资源发现系统中;能否找到高质量的可靠数据源是决定研究效率以及效果的关键因素。根据调研,被测对象希望能够在检索相关字段时与公共数据关联,能够及时得到该类数据描述以及位置信息。政策性数据获取的及时与否对科研工作者来说同样重要。
当检索词涉及专家时,被测对象希望从资源发现系统中获取的专家相关信息按照重要程度依次为:研究领域、发表成果、所在机构、主持的科研项目、合作对象、师承流派,而这些内容必须通过关联人物数据集才能获得。
表1-5 专家学者聚合信息平均得分情况

整体而言,本次问卷调查中的被测群体对网络资源的关联表现出明显的兴趣,希望资源发现系统可以聚合多种细粒度的网络资源,选择范围向多元化方向发展。
资源发现系统新增功能调研中,63.53%的被测对象希望资源发现系统提供检索词简介功能,帮助明确查找需求;58.82%被测对象希望系统提供检索词提示与纠错,并且提示结果符合检索人的需求;57.65%的被测对象希望可以在个人账户界面查询检索历史。可以发现,排名在前的功能需求几乎都存在于检索层面,说明部分被测对象对于自己的检索需求并不明确,并非通过输入某期刊或某文章的题名、作者名进行学术资料查找,而是希望能够针对某一研究课题的信息进行广泛了解,构建知识体系。47.06%被测对象希望资源发现系统能够新增学术群体以及学术社区功能,将有用的资源通过系统中的社交分享平台分享给他人。
经过提炼总结,我们可以发现现有的图书馆资源发现系统中存在以下几个问题:
1)对资源发现系统认知薄弱
大部分硕士研究生并不清楚资源发现系统的概念、原理、功能,无法区分资源发现系统与普通数据库的区别,且图书馆资源发现系统的使用率不高。除了资源发现系统本身的问题,可能有以下两个外部原因:一是校方对资源发现系统的宣传力度不够:在图书馆主页界面,我们可以看到“丽娃搜索”字样,但对其作用和功能没有详细的介绍和解释,这种可供理解的文字说明是非常必要的,如多数数据库都附有使用手册,给首次接触的使用者提供更多信息等。二是在培养研究生数据能力时,大多数课程专注于文献综述的撰写方法、信息处理方法等,只介绍数据的获取方式,不涉及数据源之间的对比甄别。要增加资源发现系统的使用率,首先应在学生中普及资源发现系统的相关概念,有了使用体验,才能进一步根据反馈对其功能、界面等内部条件进行优化。
2)资源发现系统中资源不够丰富
从第一份问卷看出,多数同学查阅资料需要用到多个数据源,查阅中文文献和英文文献也会使用不同数据源,这意味着学术文献的查找需求非常多样化。第二份问卷中,使用者对不同聚合来源的需求程度排序为电子图书>开放数据>政府文件>相关新闻>会议记录>开放课程>项目资源。经调研人员调研发现,丽娃搜索具有单独的电子资源查找引擎,可供查找馆内订购的各种中外文电子资源,这些资源也已整合进中文资源发现系统,电子图书仍排在同学们需求的第一位,有两个原因:①同学们对资源发现系统的功能了解不全面,不知道丽娃搜索有这项功能。②学校购买的电子图书资源种类仍不充分。开放数据、政府文件、相关新闻等都属于互联网开放信息,但就个人而言,独立查找相关信息和数据费时费力,如果能够将这部分信息与资源发现系统相整合能很大程度上提高科研工作的效率。
3)检索结果与关键词匹配度不高
大部分学术工作者在进行资料查找时往往不知道确定的名称、作者名等精确信息,而是通过关键词的组合检索,希望能够获得尽可能多的关联信息。对资源发现系统新增功能选项进行分析可以看出,使用者对检索功能要求较高,希望通过检索词简介、检索词提示纠错等方式提升检索结果精度。但同时问卷“选出资源发现系统能够满足的功能”选项中,“检索结果与关键词的相关程度很高”选项的选择率不足60%,该选项选择率低,说明资源发现系统与检索需求的匹配程度并不理想,是重点需要改进的方面。
4)对资源发现系统的功能需求向多样化发展
除基础的检索功能外,使用者开始对资源发现系统有更高的要求。重点表现为:
(1)学术工作往往是群体性、交流性质的,一半以上使用者表示希望能够建立自己的学术小组,能够将有用的资源通过系统中的社区分享平台分享给其他组员。
(2)希望能在个人账号界面查询检索历史。检索历史功能在各种浏览器以及视频播放软件中是基础性功能,能够使用户快速定位搜索、观看进度,这对学术工作者来说同样有价值。
(3)能够在资源发现系统中根据个人使用习惯和学科背景进行检索偏好设置。偏好设置功能已广泛应用于电商平台、社交平台。在这些领域,资源推送作为数据库常用的功能之一,已经被用户普遍认可。但在学术检索过程中用户倾向于针对具体问题独立获取信息,不希望被新推送提醒所打扰,只希望检索过程中返回结果优先考虑使用者感兴趣的领域、期刊等。
1.3.2 资源发现系统访谈调查
相较硕士研究生,博士生与教师人群科研经历更丰富,对于各类学术资料查找工具更加熟悉。本次调研共邀请15名博士研究生和4名教师进行访谈,深度了解科研人群对资源发现系统的使用情况、与其他网络学术资源搜索引擎对比,进一步了解用户体验以及对系统功能和服务的使用偏好。
访谈问题及结果总结如表1-6所示。
表1-6 博士生与教师人群资源发现系统可用性调研访谈步骤

续表


图1-5 系统满意度评分
博士生与教师等受访者群体对资源发现系统的满意度评分结果如图1-5所示。针对满意度的结果分析可知,博士生与教师等用户群体对资源发现系统的满意度不高,较为适中,分析原因如下。
1)资源发现系统可替代性高
近年来,学术搜索引擎鳞次栉比,知网、万方等数据库针对用户体验做出了多次系统的更新和迭代。相较之下,高校的图书馆资源发现系统可替代性非常高。从用户体验角度看,主要体现在以下几个方面:
(1)与万方等成熟数据库相比,资源发现系统的用户知名度不够高,往往在引进资源发现系统前,用户对资源发现系统的功能所知甚少。
(2)与谷歌学术等免费学术搜索引擎相比,资源发现系统获取原文步骤烦琐,其以“预聚合”为资源整合方式,实际可能需要文献传递才能获取原文,有时甚至无法获取原文。此外,资源发现系统不具备通过原文直接链接到原出版社或原机构的功能,可能使用户错失大量文献资源,如相关的会议报告、报表等。
因此,从用户体验视角来看,资源发现系统并不能满足学者便捷、高效的资料查找需求。
2)中文资源覆盖率低
现阶段,资源发现系统在我国的“本土化”进程相对缓慢,相比较英文文献,中文文献的检索结果差强人意。从非结构化数据处理的角度看,中文的词与词之间没有明显的分界线,且由于汉语言博大精深,处理过程中容易产生一词多义、一义多词等歧义问题。这种情况在所有的非结构化数据应用中普遍存在,而映射到资源发现系统中,将会大幅影响检索效果。从元数据规范的角度看,非结构化数据库存在格式不匹配、内容不统一等问题,可能出现检索结果不全、链接不稳定甚至链接失败等问题。
3)元数据质量影响检索效果
现有的资源发现系统过于强调获取元数据的数量,反而忽视了元数据的质量[21],元数据相关程度低,导致检索结果中存在大量低质量、内容与检索需求无关的信息,降低了信息检索的准确性。元数据的质量可以从两个层面进行衡量:从数据获取角度,元数据来源复杂多样,如果审核不慎,可能导致数据冗余,不利于数据的整合和重组。从数据规范角度看,元数据的规范不够清晰,存在字段不统一等问题。

图1-6 用户检索问题关键词词频
通过对访谈内容中提到的检索问题进行关键词词频统计,选择出现频率最高的前6个如图1-6所示。检索问题主要为检索结果的相关性不够、检索结果没有直接显示是否可以下载、检索结果文献的及时性不高、检索要素不明确、检索结果默认排序不明确。出现上述检索问题的原因及建议的解决方案如下。
(1)从检索结果相关性来看,判断检索结果是否相关是一个主观性较强的问题,用户有时自己本身也不能准确理解自身需求。因此在进行检索设计时,应结合用户画像对检索结果进行排序,赋予不同的权重。帮助用户找准需求,提出问题,准确寻找解决路径。
(2)从资源获取方式来看,检索结果是否能直接获取是用户是否点击进入资源详情页面的重要因素。在资源发现系统中,资源可以通过两个方式进行获取,如果图书馆购买了相关元数据的数据源,则进入数据源(即相关数据库)进行资源获取;如果图书馆未购买相关数据源,可能以“文献传递”方式进行获取或者不能获取。要解决根本问题,必须对电子资源进行规范化整合与管理。电子资源的管理和发布到最终展示和获取是一个复杂的流程。资源发现系统区分订购与未订购的电子资源,对于订购电子资源还需进行进一步的配置分析以及规范化管理。此外,在检索列表(标题)页,应该对资源能否获取、获取方式进行说明或进行排序,以便于用户取舍。
根据访谈结果,用户所关注的个性化服务及功能主要为个人浏览记录、知识推荐及个人空间的使用,结果以网状图展示如图1-7。
用户画像是个性化服务的基础,对于用户来说,建立在用户画像上的服务能够最大程度帮助用户过滤其不感兴趣的无用信息;对于平台来说,用户画像有助于接收用户的隐形反馈,获得改进服务的建议。
知识推荐服务以用户画像为基础为用户进行个性化的信息推荐。在推荐过程中根据用户行为对画像进行不断更新,提高推荐的时效性、有效性和准确性,进一步优化用户的使用体验。

图1-7 常用个性化服务与功能网状图
用户个人空间,即在线虚拟学术空间,主要功能为收藏、标注、订阅等。网络虚拟学术社区类似于学术界的豆瓣,用户可以通过个人空间对资源进行标记,设置资源偏好,接收订阅信息。
智能辅助检索能够将每一次用户检索的检索轨迹,如关键词、作者等信息与系统内置数据库进行智能匹配,改进资源的排序方式,优化检索效果[22]。
根据访谈结果,我们可以发现,由于拥有海量的元数据,资源发现系统在最近几年逐渐被认知,但在元数据的整合、用户检索体验等方面,还有提升的空间。类似于谷歌、百度等单一检索框的一站式检索,资源发现系统应越来越注重个性化服务和功能,融入相关度排序、分面导航、检索词提示和纠错、文献标注、文献评论以及可视化等功能,全面实现交互性的用户体验。
访谈的意义在于,根据访谈结果,我们可以从用户角度进一步了解用户对资源发现系统的认识和期望,从而完善和改进资源发现系统的服务与功能。
根据上述分析结果发现,可以改进的方面包括以下三点。
1)检索功能的优化
检索功能主要可以从检索结果及排序方式两个方面进行优化,如上文分析所说,检索结果主要从元数据的质量、规划性、元数据整合等方面进行改进,通过语义检索挖掘文本深层含义,提高资源,尤其是中文资源与用户需求的匹配程度。排序方式可以根据用户画像与系统数据的匹配程度进行优化,系统数据包括被引用的次数、元数据的时效性等,对各项内容进行复权和综合打分,从而对返回检索结果并进行排序。
2)加强开放数据信息服务
开放数据信息服务是将分散在网络上多种形式、多种内容(如政府、企业开放数据或网友共享的开放数据)的数字资源服务,通过元数据整合,能够有效地与资源发现系统中其他资源相关联。在整合开放数据资源时,需要注意开放数据信息服务与相关服务的一体化,如:开放数据的元数据是否与其他资源的元数据进行整合并与其他资源同时在检索结果中出现等,只有融合了数据信息与服务的一站式开放数据信息服务,才能更好地满足用户的需求。
3)个性化和精准化的知识发现服务
用户画像是个性化服务的基础,用户画像不仅能够对原有的用户基本信息等静态数据进行解读,还能够对动态行为数据进行分析,从而联合挖掘出用户的深层潜在特征。如上文所述,基于用户基本信息和行为数据的用户画像,不仅能够为用户提供个性化的知识发现服务,还能反过来根据用户特征进行资源发现系统服务的改进。