年间,北京大学计算机科学技术研究所的万小军博士相继以第一作者身份在国际顶级学术会议上发表(含已接收)6篇高质量的学术论文。这些论文关注全新研究领域――互联网舆情监控的应用,部分研究成果已被应用于实践,产生了可观的效益。
万小军博士所发表的6篇论文包括:人工智能领域顶级会议IJCAI2007一篇(Oral Paper)、人工智能领域顶级会议AAAI2007一篇(Oral Paper)、自然语言处理领域顶级会议ACL2007一篇(Oral Paper)、信息检索领域顶级会议SIGIR2007一篇(Oral Paper)、互联网领域顶级会议WWW2006、WWW2007各一篇(Poster Paper)。
万博士的上述成果源于互联网舆情监控的应用需求。互联网舆情监控是一个新的研究领域,也是近年的研究热点,涉及互联网、自然语言处理、人工智能等技术,实际应用中面临一系列的新问题。万小军博士勇于挑战,刻苦努力,在导师及课题组其他老师的指导和帮助下,攻克了一个个难关,在相关领域取得了创新成果,不仅发表了多篇国际一流水平的学术论文,还成功地将成果应用于实际产品中,形成了多项专利,并大大提高了产品的竞争力,在国内外众多产品中脱颖而出,在国内权威机构获得应用。
万小军博士师从王选院士、肖建国教授,攻读博士期间从事自然语言处理与信息检索领域的研究,主要研究内容包括文档信息抽取(摘要、关键词)、文本情感分析、主题检测与追踪、Web内容挖掘等。2006年7月,获北京大学理学博士学位,同年进入计算机所从事科研工作。
北大计算机科学技术研究所近年来一直提倡并坚持科研与应用并重,坚持产学研相结合,初步形成了科研服务于应用,应用为科研提出新挑战的良性循环,高水平学术论文数量逐年提高,承担国家项目能力迅速提升,并通过不同层次的专利形成了较好的知识产权保护体系,为北大创建世界一流大学做出贡献。
万小军博士的主要论文简介如下:
1. IJCAI2007文章“Manifold-Ranking Based Topic-Focused Multi-Document Summarization”, 提出了利用新颖的半监督学习算法-簇排列(Manifold-Ranking)的方法进行主题相关的多文档摘要,取得了较好的效果,获得了评审的好评。
2. AAAI2007文章“Single Document Summarization with Document Expansion”,利用文档扩展机制改进单文档摘要,并分析了文档扩展方法。评审认为这是一个有趣的和重要的思想。
3. ACL2007文章“Towards an Iterative Reinforcement Approach for Simultaneous Document Summarization and Keyword Extraction”, 提出了对文档摘要和关键词进行统一抽取的图学习模型,该模型可以自然地引入词语之间的语义关系,能够同时改善文档摘要和关键词抽取效果。
4. SIGIR2007文章“CollabSum: Exploiting Multiple Document Clustering for Collaborative Single Document Summarizations”, 提出了协同单文档摘要的概念,利用文档聚类得到相关文档集,对相关文档集中的所有文档进行协同式摘要。评审认为这是一篇很优秀的论文 (“This is a really excellent paper, both in the ideas and in the evaluation of those ideas”),四个评审的总体打分分别为5, 5, 5, 4 (满分为6)。
5. WWW2007文章 “Learning Information Diffusion Process on the Web”,这篇文章对互联网舆情预警系统中话题传播过程分析这个新颖的功能进行了定义和解决。
6. WWW2006文章 “Using Proportional Transportation Similarity with learned element semantics for XML document clustering”,这篇文章介绍了利用均衡运输相似度模型进行XML聚类的技术