互联网的迅速普及,计算机、手机等硬件成本的降低,网络带宽的不断增加,各种网络的不断出现、提速和融合,使得信息的制作与传播进入了一个前所未有的“高速”时代。规模庞大、质量参差、位置分散、真假难辨、格式各异、语言混杂、形态迥异、关联复杂的各类信息呈“喷井式”增长。人类所面临的信息匮乏问题已经不在是主要问题,取而代之的是如何快速获取有效信息。信息检索是研究大规模环境下信息的有效获取、存储、组织、挖掘和访问的一门学科,其目标是为用户快速提供满足其需求的信息。 信息检索的应用非常广泛,最典型的是Web搜索引擎,如Google、百度等等。由于它们的成功,Google、百度等搜索引擎有时候会被看成是信息检索系统的代名词。实际上,信息检索的应用远远不止这些搜索引擎。第一,搜索只是信息检索的一个典型应用。仅仅是搜索应用还有很多。比如,生活搜索、商品搜索、个人搜索、企业搜索、移动搜索、博客搜索、软件搜索等等搜索系统。第二,除了搜索之外,信息检索的典型应用还包括信息推荐和过滤、信息分类和聚类、信息抽取、问答系统等等。因此,信息检索技术广泛用于社交网络、新闻推荐、商品推荐、情报分析、内容聚合等场合。第三,近年来,随着传统的以非结构化数据为主的信息检索与以结构化数据为主的数据挖掘两门学科的逐渐融合,很多传统的数据挖掘应用领域中也广泛地用到信息检索技术,比如商业智能领域。 网络舆情主要指网络中反映出的人们针对事件、任务、产品等的意见、看法、观点、情绪和态度。舆情计算是指从网络数据中挖掘出这些信息的过程,具有巨大的学术价值和商业应用价值。舆情计算可以看成信息检索的一个重要应用。 本方向主要研究信息检索与舆情计算,包括信息检索的基本理论、模型和算法,信息检索的性能优化,舆情计算中的信息获取、分析和挖掘。课题组在信息获取、信息检索模型、词项依存、查询意图分析、搜索日志挖掘、相关反馈、查询推荐、信息抽取、网络文本分类、倾向性分析、话题发现与跟踪、问答分析等问题上进行了一系列独立的研究,在包括SIGIR、CIKM、EMNLP等在内的国内外重要会议和期刊上发表了100余篇学术论文,并承担国家973、863、自然科学基金、国家科技支撑、国家242等重要课题,相关系统在多个重要部门获得实际应用。
|