乱色渐欲迷人眼,学习才能得主题
论文:Modeling How People Extract Color Themes from Images
会议:CHI2013
作者:Sharon Lin, Pat Hanrahan
继上一篇报告了CHI2013的论文之后,这次又选了一篇CHI的论文,来自于斯坦福的可视化组。这个组非常有必要介绍一下,领头的两个大牛一个是Pat Hanrahan教授,横跨科学可视化和信息可视化两个领域,即便不知道这个名字那今年红得发紫的数据可视化上市公司Tableau各位看官应该都是知道的,他就是联合创始人,Tableau原生于他的Polaris系统;另一个Jeffrey Heer是信息可视化和人机交互领域近几年的当红炸子鸡,论文兼顾创新性和实用性,我能说我已经是他的脑残粉了吗……
回到正题,这篇文章解决了图像的主题色提取的问题,属于颜色建模这个topic。论文的一作同一年在Eurovis、CHI和SIGGRAPH上都发表了颜色建模的文章(SIGGRAPH的论文现在处于conditionally accepted状态),Eurovis和CHI都是最佳论文之一,真可谓厚积厚发。
这次真的是回到正题,回到这篇论文。一般的主题色提取方法有k-means和fuzzy c-means的按像素颜色值聚类的方法和颜色直方图取峰值的方法。其实论文的思路并不复杂,对图像定义一系列的特征,套用多元线性回归模型LASSO,在众包平台亚马逊土耳其机器人上建立任务收集训练集,LASSO通过训练集的学习增加关键特征的权重减小冗余特征的影响,从而生成一个比较好的主题色提取模型。下面分别说明特征定义、回归模型和user study三个部分。
其实主题色这个概念真的是公说公有理,婆说婆有理,评判一张图像的主题色是哪些,一千个看官不可能得到同一个答案,但是他们的答案大多近似。因此本文以用户定义的主题色作为标准答案也算合理。对于每张图像,文章以k=40用k-means方法计算图像的40个颜色作为基准色。用户只能从这40个颜色中挑选5个颜色作为图像的主题色。
文章定义了以下6个方面的特征,提取计算出79个特征变量,这里作简单说明
- 视觉显著性 saliency
- 覆盖误差 coverage error
- 颜色多样性 color diversity
- 颜色集中性 color impurity
- 颜色可命名性 color nameability
- 颜色统计 color statistics
最后文章给出了这79个特征的权重,似乎就可以用于类似于基于主题色的图像检索一类的应用。但实际上,由于视觉显著性是通过用户的眼动跟踪数据得到的,所以无法对没有视觉显著性的图像进行建模,就大大降低了可用性。如果对这个特征进行改进的话,就能让这个方法得到更广泛的应用
几点补充:
之前视物致知已经报道过这篇文章,本博文则是从学术角度重新审视这篇文章。
Eurovis的文章针对数据实体本身的颜色语义和设计图元所对应颜色的一致性的问题,比如是水果的数据,那蓝莓就用蓝色,香蕉就用黄色……感兴趣的看官可以看原论文