数据挖掘深度学习研究利用大数据挖掘技术进行社会态势预测和分析,是信息内容安全的重要组成部分,也是信息内容安全工程实验室的重要研究方向。
大数据挖掘与社会态势面向网络社会态势感知和大数据分析需求,主要研究社交网络挖掘,用户行为挖掘,数据流挖掘,文本挖掘和分布式数据挖掘基础算法和关键技术,包括社交网络信息扩散建模、社会交互规律分析、海量社会媒体实时感知与知识发现、社会态势定位与计算,面向大规模Web文本的实体抽取、关系识别、事件发现以及深度语义理解,数据流频繁项挖掘和聚类分类,基于Hadoop平台的大数据挖掘算法等,并研究以上方法在社会态势感知与处理中的应用,包括社会态势预测,热点发现和内容安全等,为国家网络空间信息安全管理与社会态势预测提供理论和技术支撑。
数据挖掘和社会态势研究近年来取得了丰硕的研究成果,在包括TKDE, KDD, AAAI, WWW, CIKM和ICDM等国际主要期刊和会议上发表论文几十篇,获得863高科技计划,中科院先导专项等研究计划的支持。
1. 社交网络挖掘
社交网络挖掘通过对社交网络中的链接结构和文本内容进行挖掘分析,有效整合多元数据,提取关键信息,寻找社交网络事件演变规律。社交网络挖掘分析重点包括网络结构的演化分析,网络节点的行为预测和网络关键节点的挖掘。从宏观把握社交网络的结构和演化规律,同时敏锐的感知社交网络的发展动态,有效控制社交网络关键性节点。社交网络分析挖掘是认知和管理社交网络的重要手段,也是社交网络安全保障的关键技术。社交网络挖掘分析是实验室近年来的热点研究方向,取得了丰硕的研究成果,在多个国际顶级会议和期刊上发表了多篇论文。
2. 用户行为分析挖掘
用户行为分析是一种从用户历史行为数据中挖掘有用信息的技术,其实质是通过挖掘用户在网络产生的各种数据,为每个用户建模。通常情况下,随时间变化的用户行为受多种因素的影响,如用户自身的习惯,外部事件和社会因素。用户行为动态演变分析研究基于多因素的用户动态行为预测模型,模型同时考虑用户自身因素的影响、社会因素的影响以及行为项目的信息。解决行为数据的稀疏性、冷启动问题以及掌握用户行为的动态性。
3. 数据流挖掘
数据流挖掘是细粒度内容实时处理的重要支撑技术,研究内容包括数据流频繁项挖掘,面数据流分类索引,数据流查询技术,以及数据流多通道联合计算模型,目前正在开展面向下一代GB/s大数据流动态分类系统研究,突破大数据流模式动态连续变化、GB/S流量实时响应这两大挑战,解决大数据流的实时分类问题,为基于GB/s高速数据流的实时分类提供理论和技术支撑,研究成果服务于实时计算场景,包括骨干网络流量管理,在线广告投放、微博趋势分析等领域。
4. 深度学习模型
研究多层非线性模型来模拟人脑学习和分析的神经网络,利用深度模型直接从原始底层数据中非监督地学习更有效的特征表达,支撑面向大数据的机器学习应用,服务国家信息安全。
5. 社会态势预测
研究社会媒体数据流的态势预测技术,社会态势大数据挖掘平台,网络安全态势分析技术,解决社会态势数据规模大、多元异构、信息零碎, TB级社会态势数据分布式统计分析与内容挖掘难题,实现社会态势的有效预测和溯源等。