谷子专题

面向概念检索的农史信息门户的设计与构建

作者: 刘竟

导师: 侯汉清

学位: 博士

学位授予单位: 南京农业大学

学位年度: 2008

发表时间: 2008-06-01

页数: 152

中图分类号: TP393.092

关键词: 农史;学科信息门户;网络资源采集;知识组织系统;自动标引与自动分类;智能搜索引擎;个性化服务

摘要: 近几年,农史领域又出现了一种新型的研究资料,即农史网络信息资源,诸如数字化的农业古籍、农史论文题录库和全文库、农史研究网页/网站、数字博物馆中的图像视频文件等。网络中,多种类型的农史电子信息资源迅速激增,逐渐受到农史科研人员、教师、学生及爱好者的重视。为了解决农史网络信息资源散乱、无序的问题,本文拟采用图书馆学、情报学信息组织的理论和方法,对农史学科信息门户的设计和构建进行研究。 农史学科信息门户的工作流程,包括资源采集、资源加工和提供服务三个部分。因此,本文沿着这一流程,对农史学科信息门户的设计和构建进行了研究和论述。首先,对国内外学科信息门户的研究及建设现状进行了介绍,对比分析了国内外著名学科信息门户的差距,并对我国学科信息门户的改进提出了建议,为农史学科信息门户的完善和构建提供了借鉴;其后,对农史学科信息门户的资源采集、资源加工过程中的资源描述和组织机制分别进行了研究;同时,为了克服普通搜索引擎基于关键词字面检索准确率低的问题,实现农史网页的概念检索,对农史门户网页智能搜索引擎的设计和构建进行了研究和论述;最后,对农史学科信息门户的用户服务进行了研究,并介绍了农史学科信息门户实验网站的实现情况。 本文对农史学科信息门户设计和构建的研究,综合运用了文献调研法、个案分析法、比较分析法及系统构建法等多种研究方法。本项研究的主要工作,包括以下几个方面: (1)国内外学科信息门户的对比分析。为了使将要构建的农史学科信息门户更加完善,本文对SOSIG、BUBL LINK、LII、CSDL学科信息门户体系、CALIS重点学科网络资源导航库等10个国内外著名学科信息门户的元数据框架、分类法和叙词表的使用、浏览和检索功能、增值服务等进行了对比分析,发现我国学科信息门户仍存在着一些不足:所建成的学科信息门户数量少,社会科学、人文科学领域还是空白;没有利用规范的主题词表对资源进行组织,无法实现概念检索;用户服务方式单一等。本文建议我国学科信息门户:通过多种途径开展学科信息门户建设,扩大学科信息门户的规模和数量;采用规范的主题词表对资源进行标引,并在门户中提供词表导航或主题词转换接口,以实现概念检索;提供更加全面、完善的用户服务,增加具有特色的个性化服务。 (2)农史网络资源的选择和收集研究。根据农史学科研究范围和农史网络资源的特点,研究和制订了农史门户网络资源的选择政策、评价标准,总结和探讨了在因特网中收集和发现农史资源的方法和策略。 (3)农史叙词表的构建及其在农史门户中的使用方法研究。本文尝试采用整合现有词表、计算机自动构建、人工辅助等多途径相结合的方法构建可用于农史门户资源描述和组织的农史叙词表。其中计算机自动构建方法,综合利用了模式匹配、字面相似度和语词同现计算相关度等方法。通过多种方法构建得到一个覆盖农史领域的、可揭示概念之间等同、等级和相关关系的农史叙词表,包括农史词条6581个,其中,叙词3507个,非叙词3074个。同时,在农史门户网站中设计和构建了农史词表引擎,为农史门户资源标引人员和用户提供概念检索工具。 (4)农史学科信息门户元数据框架设计。按照标准、开放和可扩展的原则,根据农史学科信息门户的用户需求和门户管理需要,以DC元数据集为基础,制订出了一套适用于农史学科信息门户的、能有效帮助描述、识别、评估及管理农史网络资源的元数据体系。包括描述型元数据和管理型元数据。其中描述型元数据,结合用户需求,对DC元数据进行了一定的扩展,增加了“推荐级别”、“资源评论”及“资源被点击次数”三个元素;管理型元数据是按照农史门户管理的需要自行设计的,包括记录编目者、记录编目日期和记录更新日期。 (5)农史门户网页智能搜索引擎的构建。农史门户网页智能搜索引擎包括农史网页采集、网页智能加工、检索及用户接口四个模块。其中,农史网页的采集,采取了利用WebZIP网页离线浏览软件,对农史门户中经过严格筛选的高质量农史网站中的网页进行下载,作为农史门户网页智能搜索引擎的资源范围;农史网页智能加工包括网页自动标引与自动分类,对于农史网页自动分类,采用的是基于农史类别词知识库的自动分类方法。同时,在对农史门户网页智能搜索引擎设计和研究的基础上,初步构建了农史门户网页智能搜索引擎和农史网页自动标引与自动分类实验系统,实现了农史网页的概念检索。 (6)农史门户用户服务的设计和构建。根据农史科研人员、教师、学生及爱好者的信息需求,利用WEB2.0的思想和相关技术,对农史学科信息门户的服务功能进行了设计。并利用ASP动态网站开发技术,初步构建了农史学科信息门户实验网站,为农史用户提供农史资源分类目录浏览、资源类型浏览、检索、个性化定制、学科论坛、用户推荐、用户反馈、资源评论、资源更新、学科最新动态、农史词表引擎等细致、完善的服务。 本文的创新点主要体现在以下三个方面: (1)本项研究将农史领域的文献整理研究从传统文献拓展和延伸到网络环境下农史信息资源的整理和组织中。针对目前农史网络资源分布散乱的现状,本文对农史网络信息资源的组织进行了研究。通过对网络中有学术价值的、高质量农史资源进行收集、整理、加工和组织,为农史用户提供一个获取和交流学术资源的新平台,提高农史网络资源的有序性和用户对农史网络资源的利用效率,推动农史研究的发展。 (2)在国内首次设计和构建了农史门户。本文从农史学科教师、学生、研究人员及爱好者的信息需求出发,结合农史学科的研究内容、研究热点、发展趋势,制订和设计了规范、合理的农史门户资源选择和评价标准、资源发现策略、元数据框架以及知识组织系统,将传统情报检索语言应用于农史门户资源组织,利用WEB2.0的思想和相关技术,设计和构建了农史门户实验网站,为用户提供多种形式的农史网络资源服务和资源发现工具。 (3)为了克服普通搜索引擎基于关键词字面检索准确率低的问题,实现农史网页的概念检索,本文将学科信息门户与搜索引擎结合,充分利用农史门户收集到的高质量网站和网页自动标引与自动分类技术,设计和初步开发了基于农史门户的网页智能搜索引擎。 农史学科信息门户的构建是一项复杂的系统工程。本文仅是对农史学科信息门户构建的基本问题进行了探讨和研究,尚有一些不足,同时,对于农史学科信息门户的个性化服务和可持续发展等问题,仍需今后深入研究。

链接地址: http://kns.cnki.net/kns/detail/detail.aspx?FileName=2009076478.nh&DbName=CDFD2009