智能视觉青年前沿研讨会

智能视觉青年前沿研讨会

2015617杭州

特邀讲者

白翔教授
华中科技大学教授,主要研究方向为计算机视觉与机器学习。已发表顶级期刊/会议20余篇。担任Frontier of Computer Science青年编委;国际期刊Neurocomputing编委和Pattern Recognition Letter客座编委,中国图象图形学会图像视频处理与通信专业委员会秘书长。12年获得国家自然科学基金优秀青年基金,新世纪优秀人才和全国优博论文提名,14年获洪山区十大杰出青年。

董伟生副教授
西安电子科技大学副教授,主要研究方向为图像稀疏表示、计算机视觉与模式识别。已发表论文30余篇,其中IJCV、TIP、CVPR等权威期刊和会议论文10余篇,2篇论文入选ESI 0.1%高引论文,论文被引用1260余次,SCI他引累计320余次。获IEEE VCIP国际会议最佳论文奖,陕西省科学技术一等奖(排名第二)。

纪荣嵘教授
闽江学者特聘教授,厦门大学信息学院院长助理、智能多媒体技术实验室主任,主要研究方向为大数据搜索与分析。担任PLOS ONE、Neurocomputing、ACM Trans. on Intelligent Systems and Technology、IEEE Multimedia Magazine等国际期刊的副编辑与客座编辑。获2007年度微软学者奖,2011年度ACM Multimedia最佳论文奖,2014年度国家自然科学基金优秀青年基金。

张兆翔副教授
北京航空航天大学计算机学院副教授、计算机应用技术系副主任,主要研究方向为智能视频分析和类脑信息处理。近五年来在国际主流学术期刊与会议上发表论文95篇,SCI收录期刊论文28篇,其中计算机学会推荐A/B类期刊会议论文21篇。国际步态与行为分析研讨会主要发起人。入选2013年度“教育部新世纪优秀人才支持计划”,2014年度“微软青年铸星计划”。

吴建鑫教授
南京大学教授,主要研究领域为计算机视觉和机器学习等。在重要国际期刊和会议上发表论文60余篇,他引3700余次(据Google Scholar统计)。入选中组部青年海外高层次人才引进计划,曾任ICCV、ACCV领域主席及若干国际会议组织委员会成员。获2005年度教育部自然科学一等奖(第五完成人),2014年度国家自然科学基金委优秀青年科学基金项目。

章国锋副教授
浙江大学计算机辅助设计与图形学国家重点实验室副教授,主要研究方向为三维视觉与增强现实。在重要国际学术期刊和会议上发表论文20余篇,其中TPAMI、TVCG、TIP、TMM、CVPR、ICCV、ECCV等国际权威期刊和会议论文15篇。获2010年度计算机学会优秀博士学位论文奖,2011年度全国百篇优秀博士学位论文奖,以及2011年度教育部高等学校科学研究优秀成果奖科学技术进步奖一等奖(第四完成人)。

张敏灵教授
东南大学计算机科学与工程学院教授,主要研究机器学习、数据挖掘方面的专家。《Machine Learning》客座编辑,在ICML'14、ACML'12、ICML/COLT'10等组织主题Workshop并担任程序委员会共同主席,应邀担任PRICAI'16程序主席。获2012年度国家优秀青年科学基金、2013年度教育部新世纪优秀人才支持计划。

耿新教授
东南大学计算机科学与工程学院教授、副院长,东南大学模式学习与挖掘实验室主任,主要研究方向为模式识别、机器学习与计算机视觉。在重要国际学术期刊和会议发表论文40余篇。主持多项国家自然科学基金项目,江苏省杰出青年基金获得者。任CCF青年工作委员会委员兼秘书,《Frontiers of Computer Science》青年编委。

张道强教授
南京航空航天大学教授,主要研究领域为机器学习、数据挖掘。《PLOS ONE》等期刊编委,《Neuroimage》等几十种学术期刊审稿专家,及 IJCAI等十几个国际会议的程序委员会委员。中国人工智能学会机器学习专委会常委。获《Pattern Recognition》2006-2010年高引用论文奖、国际会议PRICAI’06及STMI’12最佳论文奖,2006年全国优秀博士学位论文提名奖,2014年度国家自然科学基金优秀青年基金。

曹汛副教授
南京大学电子科学与工程学院副教授,主要从事图像和视频处理、计算机视觉以及计算机图形学方向的研究。已发表论文22篇,申请36项国际和中国发明专利,23项已获授权。高等学校科学研究优秀成果奖。获2012年度国家技术发明一等奖(第四完成人)、2011年度教育部“高等学校科学研究优秀成果奖”技术发明一等奖(第二完成人)、2014年度国家自然科学基金优秀青年基金。

 

日程安排

 

2015617星期三
地 点:紫金港校区图书信息中心B楼CAD&CG国家重点实验室402会议室
主持人:章国锋副教授

8:30-9:00 报告题目:场景文字识别研究  报告人:白翔教授  华中科技大学

9:00-9:30 报告题目:Image Restoration via Simultaneous Sparse Coding: Where Structured Sparsity Meets Gaussian Scale Mixture

       报告人:董伟生副教授  西安电子科技大学

9:30-10:00 报告题目:Structured, Discriminative, 3D Scene Parsing

      报告人:纪荣嵘教授  厦门大学

10:00-10:15 休息

10:15-10:45 报告题目:20 Years Review of Model Based Vehicle Interpretation

        报告人:张兆翔副教授  北京航空航天大学

10:45-11:15 报告题目:Deep Spatial Pyramid 报告人:吴建鑫教授  南京大学

13:30-14:00 报告题目:Large-Scale Structure-from-Motion & SLAM 报告人:章国锋副教授  浙江大学

14:00-14:30 报告题目:Disambiguation-free partial label learning 报告人:张敏灵教授  东南大学

14:30-15:00 报告题目:Pre-release Prediction of Crowd Opinion on Movies by Label Distribution Learning

        报告人:耿新教授  东南大学

15:00-15:15 休息

15:15-15:45 报告题目:Multi-Atlas Learning for Brain Image Segmentation and Classification

        报告人:张道强教授  南京航空航天大学

15:45-16:15 报告题目:High Resolution Spectral Video Acquisition

        报告人:曹汛副教授  南京大学

 

附:学术报告详细信息

学术报告1场景文字识别研究
摘要着智能终端的普及和移动互联网的飞速发展,场景文字识别(Photo OCR)越来越引起学术界和工业界的重视。图片中的文字包含丰富的高层语义,因此如何去检测和识别自然场景中的文字具有广泛的技术应用前景。在这次报告中,我将首先介绍场景文字检测和识别的基本方法、前沿技术以及相关应用。然后,我将介绍我们在此领域的最新研究成果,包括:基于字符定位的场景文字识别算法(CVPR14);基于对称性的文字区域检测算法(CVPR15); 及场景文字语种识别方法(ICDAR15)等。
讲者简介白翔,华中科技大学教授。先后于华中科技大学获本科、硕士、博士学位。读博期间获微软学者奖。09年被聘为副教授留校,12年获得国家自然科学基金优秀青年基金,新世纪优秀人才和全国优博论文提名。于13年底破格提升为教授,14年获洪山区十大杰出青年,被IEEE评选为资深会员。已发表顶级期刊/会议20余篇。担任Frontier of Computer Science青年编委;国际期刊Neurocomputing编委和Pattern Recognition Letter客座编委。20多个国际知名期刊如PAMI、IJCV等审稿人,多个国际顶级会议如CVPR,ICCV,NIPS等的TPC。中国图象图形学会图像视频处理与通信专业委员会秘书长。

学术报告2Image Restoration via Simultaneous Sparse Coding: Where Structured Sparsity Meets Gaussian Scale Mixture
摘要:In image processing, sparse coding has been known to be relevant to both variational and Bayesian approaches. The regularization parameter in variational image restoration is intrinsically connected with the shape parameter of sparse coefficients’ distribution in Bayesian methods. How to set those parameters in a principled yet spatially adaptive fashion turns out to be a challenging problem especially for the class of nonlocal image models. In this talk, I will propose a structured sparse coding framework to address this issue—more specifically, a nonlocal extension of Gaussian scale mixture (GSM) model is developed using simultaneous sparse coding (SSC) and its applications into image restoration are explored. It is shown that the variances of sparse coefficients (the field of scalar multipliers of Gaussians)—if treated as a latent variable—can be jointly estimated along with the unknown sparse coefficients via the method of alternating optimization. When applied to image restoration, our experimental results have shown that the proposed SSC–GSM technique can both preserve the sharpness of edges and suppress undesirable artifacts. Thanks to its capability of achieving a better spatial adaptation, SSC–GSM based image restoration often delivers reconstructed images with higher subjective/objective qualities than other competing approaches.
讲者简介董伟生,西安电子科技大学副教授。2004年本科毕业于华中科技大学,2010年博士毕业于西安电子科技大学,2009.1-2010.6在香港理工大学进行合作研究;2012.8-2013.2在微软亚洲研究院进行访问研究。主要研究方向为图像稀疏表示、计算机视觉和模式识别,发表论文30余篇,其中IJCV、TIP、CVPR等权威期刊和会议论文10余篇,2篇论文入选ESI 0.1%高引论文,论文被引用1260余次,SCI他引累计320余次。曾获IEEE VCIP国际会议最佳论文奖,陕西省科学技术一等奖(排名第二)。

学术报告3Structured, Discriminative, 3D Scene Parsing
摘要In this talk, I will review some of our recent progress in 3D scene parsing. More specially, I will focus on the issue of semantic inference and segmentation of 3D point cloud data. This problem differs significantly from the traditional research on image-based semantic segmentation in three-fold, i.e., (1) the lack of sufficient training instances manually or collaboratively collected (such as LabelMe or ImageNet-Seg), (2) the lack of robust nearest neighborhood search technique for finding similar superverxels in the feature space, and (3) the lack of efficient and accurate inference model. In this talk, we will analyze and discuss some preliminary results on our solution to the above three challenges.
讲者简介纪荣嵘,闽江学者特聘教授,哈尔滨工业大学博士,2010年至2013年于美国哥伦比亚大学担任博士后研究员。目前任职于厦门大学信息科学与技术学院智能科学与技术系,担任信息学院院长助理、智能多媒体技术实验室主任。主要研究方向为大数据搜索与分析,共发表SCI国际期刊50余篇(如IJCV、IEEE Trans. Image Processing、IEEE Trans. Multimedia、IEEE Trans. CSVT、IEEE Trans. GRS)。其中ACM\IEEE汇刊20余篇、CCF A类国际会议长文20余篇(如CVPR、ICCV、IJCAI、AAAI、ACM Multimedia等),Google Scholar引用1500余次,H指数20、I10指数40。获2007年微软学者奖与2011年ACM Multimedia最佳论文奖,担任包括PLOS ONE、Neurocomputing、ACM Trans. on Intelligent Systems and Technology、IEEE Multimedia Magazine在内的十余个SCI国际期刊的副编辑与客座编辑。获2014年国家自然科学基金优秀青年基金。

学术报告420 Years Review of Model Based Vehicle Interpretation
摘要 Model based vision is an important and classical topic in the field of computer vision over many years. Since the pioneering work of Roberts 1965, great progress has achieved from then on. We specifically focus on model based vehicle interpretation in traffic scene surveillance scenes, which have inherent properties to be suitable for model based methods. In this talk, we will give a brief review of the work of model based vehicle interpretation in the past 20 years in our group. We would introduce the problem of model based object recognition, the solution for model pose initialization, all kinds of fitness evaluation between the model and image evidences, and the optimization procedure to recover both shape and pose parameters of vehicles. Experimental results and demos are shown to demonstrate the performance of our approaches.
讲者简介张兆翔,博士,副教授,IEEE高级会员,计算机学会YOCSEF委员,计算机学会计算机视觉专委会委员,人工智能学会模式识别专委会委员。2004年毕业于中国科学技术大学,获得电路与系统专业学士学位;2004年进入中国科学院自动化研究所硕博连读,于2009年获得工学博士学位;2009年入职北京航空航天大学计算机学院,历任讲师、副教授、硕士生导师、计算机应用技术系副主任。张兆翔博士一直从事智能视频分析、类脑信息处理方向研究,在可用信息建模和基于模型的物体识别问题上开展了系统工作,在面向国家公共安全和智慧城市监管需求的系统平台上取得验证与示范应用,近五年来在国际主流学术期刊与会议上发表论文95篇,SCI收录期刊论文28篇,其中计算机学会推荐A/B类期刊会议论文21篇,担任了ICPR、AVSS、PCM等多个国际会议的程序委员会委员,SCI期刊《Neurocomputing》副主编,《Frontiers of Computer Science》青年副主编和TPAMI、TIP、TCSVT、PR等20余个本领域主流期刊的审稿人,是国际步态与行为分析研讨会主要发起人,2012年入选北京航空航天大学“蓝天新星人才计划”;2013年入选“北京市青年英才计划”;2013年入选“教育部新世纪优秀人才支持计划”,2014年入选“微软青年铸星计划”。

学术报告5Deep Spatial Pyramid
摘要 In this talk I will show that by carefully making good choices for various detailed but important factors in a visual recognition framework using deep learning features, one can achieve a simple, efficient, yet highly accurate image classification system. We first list 5 important factors, based on both existing researches and ideas proposed in this paper. These important detailed factors include: 1) matrix normalization is more effective than unnormalized or vector normalization, 2) the proposed natural deep spatial pyramid is very effective, and 3) a very small size in Fisher Vectors surprisingly achieves higher accuracy than normally used large values. Along with other choices (convolutional activations and multiple scales), the proposed DSP framework is not only intuitive and efficient, but also achieves excellent classification accuracy on many benchmark datasets. For example, DSP's accuracy on SUN397 is 59.78%, significantly higher than previous state-of-the-art (53.86%).
讲者简介吴建鑫,南京大学教授,博士生导师,入选中组部青年海外高层次人才引进计划(青年千人计划),2014年获得国家自然科学基金委优秀青年科学基金项目支持。主要从事计算机视觉和机器学习等领域的研究工作。在重要国际期刊如TPAMI,IJCV,AIJ,JMLR等以及重要国际会议如ICCV、CVPR、ICML等发表论文六十余篇。曾担任国际会议ICCV、ACCV等的领域主席及若干国际会议组织委员会成员,并多次担任重要国际会议、期刊等的资深程序会、程序委员会成员、或期刊审稿人。曾获得教育部自然科学一等奖(2005年度,第五完成人)。据Google Scholar统计,发表的论文被60余个国家和地区的学者他引3700余次。

学术报告6Large-Scale Structure-from-Motion & SLAM
摘要:摄像机跟踪是计算机视觉领域的基本问题,有着广泛的应用。尽管摄像机跟踪已经研究了很多年了,理论上的研究也达到了一定的成熟度,但是在实际应用中仍有不少问题还没得到很好的解决。特别是如何解决循环回路的高效稳定跟踪,避免重建误差累积;如何将多视频序列匹配起来并注册到同一个世界坐标系下;如何在大尺度场景下进行实时的摄像机跟踪。本次讲座将介绍我们过去几年在这方面的研究成果以及在增强现实等方面的应用。
讲者简介章国锋,浙江大学计算机学院的副教授,博士生导师。主要从事摄像机跟踪、三维重建、增强现实、视频分割与编缉等方面的研究工作,已在国际顶级期刊(IEEE TPAMI, IEEE TVCG, IEEE TIP, IEEE TMM)和计算机视觉顶级会议(CVPR、ICCV、ECCV)上发表了15篇高水平论文。尤其在摄像机跟踪与深度恢复方面的研究取得了一系列重要成果,在国内外有较大影响力。搭建的摄像机自动跟踪系统ACTS(http://www.zjucvg.net/acts/acts.html)于2009年7月底在网上发布,受到了国内外同行的广泛关注和好评。获2010年度计算机学会优秀博士学位论文奖,2011年度全国百篇优秀博士学位论文奖,以及2011年度教育部高等学校科学研究优秀成果奖科学技术进步奖一等奖(第4完成人)。

学术报告7Disambiguation-free partial label learning
摘要:  Partial label learning deals with the problem where each training example is associated with a set of candidate labels, among which only one is correct. The common strategy is to try to disambiguate their candidate labels, such as by identifying the ground-truth label iteratively or by treating each candidate label equally. Nevertheless, the above disambiguation strategy is prone to be misled by the false positive label(s) within candidate label set. In this paper, a new disambiguation-free approach to partial label learning is proposed by employing the well-known error-correcting output codes (ECOC) techniques. Specifically, to build the binary classifier with respect to each column coding, any partially labeled example will be regarded as a positive or negative training example only if its candidate label set entirely falls into the coding dichotomy. Experiments on controlled and real-world data sets clearly validate the effectiveness of the proposed approach.
讲者简介张敏灵,东南大学计算机科学与工程学院教授。分别于2001年、2004年和2007年于南京大学计算机科学与技术系获学士、硕士和博士学位。主要研究领域为机器学习、数据挖掘。现任中国人工智能学会机器学习专委会常务委员、中国计算机学会人工智能与模式识别专委会委员等。担任《Machine Learning》客座编辑,ECML PKDD'09等国际会议讲座报告人,在ICML'14、ACML'12、ICML/COLT'10等组织主题Workshop并担任程序委员会共同主席。应邀担任PRICAI'16程序主席、IJCAI'15/'13、ICDM'15、SDM'13、ACML'14/'13等国际会议高级程序委员,以及ICML'14、AAAI'13/'12、ECML PKDD'14/'13等国际会议程序委员。获国家优秀青年科学基金(2012年)、教育部新世纪优秀人才支持计划(2013年)等。

学术报告8Pre-release Prediction of Crowd Opinion on Movies by Label Distribution Learning
摘要This talk introduces an interesting problem: is it possible to predict the crowd opinion about a movie before the movie is actually released? The crowd opinion is here expressed by the distribution of ratings given by a sufficient amount of people. Consequently, the pre-release crowd opinion prediction can be regarded as a Label Distribution Learning (LDL) problem. In order to solve this problem, a Label Distribution Support Vector Regressor (LDSVR) is proposed. The basic idea of LDSVR is to fit a sigmoid function to each component of the label distribution simultaneously by a multi-output support vector machine. Experimental results show that LDSVR can accurately predict people’s rating distribution about a movie just based on the pre-release metadata of the movie.
讲者简介耿新,现为东南大学计算机科学与工程学院教授、博导、副院长,东南大学模式学习与挖掘(PALM)实验室(http://palm.seu.edu.cn/)主任。主要从事模式识别、机器学习、计算机视觉等方面的研究。主持多项国家自然科学基金项目,江苏省杰出青年基金获得者。在重要国际学术期刊和会议发表论文40余篇。现为CCF青年工作委员会委员兼秘书,江苏省计算机学会理事、青年工作委员会主任,CCF YOCSEF南京分论坛主席,CCF人工智能与模式识别专委会、计算机视觉专业组委员,中国人工智能学会机器学习专委会、模式识别专委会委员,江苏省计算机学会/微型电脑应用协会人工智能专委会常委,澳大利亚科学与工业捐赠基金(SIEF)项目评阅人,《Frontiers of Computer Science》青年编委。

学术报告9Multi-Atlas Learning for Brain Image Segmentation and Classification
摘要近年来,机器学习技术在脑影像分析及计算机辅助脑疾病诊断中受到越来越多的关注。本报告介绍我们利用机器学习技术开展基于多图谱(Atlas)脑影像分割和分类研究方面所取得的一些最新进展。具体包括:介绍基于多Atlas的脑图像分割研究现状,并给出一种基于图框架和稀疏学习的多标签融合方法及其推广;介绍一类利用多Atlas的特征表示方法,进一步针对多Atlas数据呈现出的结构信息,介绍两种能有效利用多Atlas特征的分类方法。
讲者简介张道强,工学博士,南京航空航天大学教授,博士生导师。分别于1999年和2004年在南京航空航天大学计算机科学与工程系获学士和博士学位。2004年起留校任教,2008年破格晋升为教授,主要研究方向为机器学习和模式识别技术及应用。2010年至2012年在美国北卡罗莱纳大学教堂山分校(UNC-Chapel Hill)从事脑影像分析及脑疾病早期诊断研究。先后主持多项国家和省部级基金,已在国内外核心期刊和会议上发表100余篇论文,论文累计被他引4000余次(Google Scholar数据),研究成果获得多次国际奖项,包括国际期刊《Pattern Recognition》2006-2010年高引用论文奖、国际会议PRICAI’06及STMI’12最佳论文奖等。目前担任《PLOS ONE》等期刊编委,《Neuroimage》等几十种学术期刊的审稿专家,及IJCAI等十几个国际会议的程序委员会委员。任中国人工智能学会机器学习专委会常委、中国计算机学会人工智能与模式识别专委会委员等职务。先后获得或入选2006年全国优秀博士学位论文提名奖,2008年江苏省“青蓝工程”优秀青年骨干教师,2008年南航优秀青年教师奖和“校园年度人物”,2012年霍英东基金会第十三届高等院校青年教师奖,2013年江苏省“333工程”高层次人才,2013年江苏省杰出青年基金及2014年国家自然科学基金优秀青年年江苏省杰出青年基金及2014年国家自然科学基金优秀青年基金。

学术报告10:  High Resolution Spectral Video Acquisition
摘要Spectral capture technique collects information with more color channels than traditional trichromatic sensing. Therefore, it provides more detailed properties of the light source and the scene. Possible applications span across lots of fields such as remote sensing, materials science, bio-photonics, environmental monitoring, and so on. Spectral capture technique needs to record massive data in spatial, temporal and spectral domains, traditional spectral capture systems suffer from temporal and spatial scanning, thus is not suitable for video capture. Nowadays, with rapid development in sampling theory and electronic techniques, spectral video acquisition is becoming tractable. In this talk, we present recent progresses on the high resolution spectral video acquisition. Prism-Mask Image Spectrometer (PMIS) is proposed which accomplishes high quality video capture in three domains: spectral (1nm), spatial (one mega-pixels) and temporal (real-time) resolution. Both the optical principle and the prototype setup of the PMIS are introduced. In the end, a bunch of machine vision applications (object tracking, skin detection, automatic white balance, etc) based on PMIS are also discussed.
讲者简介曹汛,Xun Cao received his ME and Ph.D. degrees from Tsinghua University, Beijing, China and he is now an Associate Professor of the EE Department, Nanjing University. He has been a visiting researcher at Philips Research, Aachen, Germany in 2008 and Microsoft Research Asia, in 2009 and 2010, and a visiting scholar at The University of Texas at Austin. His research interests include Image Based Modeling and Rendering, 2D-to-3D Conversion and Computational Photography.