搜索结果 分类目录: 主题报告

DemographicVis: Analyzing Demographic Information based on User Generated Content

这篇文章提出一种基于用户生成信息的可交互式分析人口统计资料的系统——DemographicVis,它可以可视化那些从人口统计事实提取或者推断出的特征,以此来以一种透明的方式对人口统计信息进行探索。

因为之前基于年龄和性别的语义分析和根据常用词推断年龄性别等信息的系统都是只是以一种分类方式将人群简单分类,因此提出了使用年龄,性别,教育程度三种指标相结合的分类方式,并且设计了简明新奇的可视分析系统来展现人口统计资料和用户生成内容的关系。文章在最后还进行了user study 与SAS TextMiner 进行了定量的比较。

继续阅读 =>

当“文化遗产”遇见“信息技术”—记天津大学张加万教授学术报告

今年6月,在卡塔尔首都多哈举行的第38届世界遗产大会上,中国大运河和丝绸之路获准列入世界遗产名录。至此,中国的世界遗产总数达到47 项,继续稳居世界第二。

然而在中国,对文化遗产的保护工作却不尽如人意。盗墓、走私、自然或人为造成的劣化病害……都成了文物保护工作者的心头之痛。

继续阅读 =>

“预防性保护”和“智慧博物馆”视角下的文化遗产信息技术

时间:12月31日上午10:30

地点:浙江大学紫金港校区蒙民伟楼402

报告人:张加万 教授

主持人:陈    为 教授

继续阅读 =>

电子科大大数据研究中心简报(第一期):学术进展部分

原文作者:周涛
原文链接:http://blog.sciencenet.cn/blog-3075-849251.html

 

预测传播概率与传播规模

已有很多学者在研究复杂网络上的传播动力学问题,并取得了一系列的研究成果。是否能够以及如何才能利用某时刻传播的瞬间状态,预测传播的演化过程呢?这一基本问题,目前还很少有学者进行深入研究。而这一问题本身对信息传播与控制有着重要的理论和现实意义。

针对这一基本问题,大数据研究中心,数据挖掘与推理研究所的陈端兵副教授和瑞士弗里堡大学曾安、肖锐两位博士一起提出了一种简单而有效的传播概率与传播规模的预测方法。基于被学术界广泛接受的“易感-染病-免疫”动力学模型,陈端兵等人提出了一种迭代计算方法,能够有效估计特定节点在被感染之前,已被感染的邻居数量。陈端兵等人在此之上发展出了一套传播概率的预测方法。在小世界和无标度网络模型以及真实网络中的实验结果表明,该方法能够很好地预测传播概率。在预测的传播概率基础上,采用平均场模型进一步对传播规模进行了预测,也取得了很好的结果。

论文信息:

D.-B Chen(陈端兵), R. Xiao, A. Zeng, Predicting the evolution of spreading on complexnetworks. Scientific Reports 4 (2014) 6108.

论文链接:http://www.nature.com/srep/2014/140818/srep06108/full/srep06108.html

继续阅读 =>

华东理工大学王昊奋博士VAG小组学术报告

2014年11月28号,来自华东理工大学的王昊奋博士来vag小组做学术报告。报告的题目是《Knowledge Graph 101-from the persperctive of engineers》。主要的内容是关于知识图谱和语义网络的相关内容。在报告中主要介绍了知识图谱的相关的概念以及非常多的openSource的工具。下面是主要的openSource的工具链接

关于结构化数据的

  • Schema :一个提供了可以供搜索引擎识别的语义标记的网站。
  • Web Data Commons : 一个从Common Crawl抽取结构化数据的工具。
  • Data.gov : 来自于欧美国家政府的数据。
  • Dbpedia : 从维基百科中抽取的结构化数据。
  • Yago: 一个高质量的知识库。
  • Freebase :google的一个知名的人物,地点,事件的结构化数据库。
  • Nell : Read the Web,通过电脑自动阅读网页生成知识的工具。

知识图谱101:来自工程师的视角–华东理工大学王昊奋博士特约学术报告(11月28日上午,浙大紫金港)

时间:2014年11月28日上午10点30分

地点:浙大紫金港校区蒙民伟楼402

主持人:陈为

 

演讲题目:知识图谱101:来自工程师的视角
演讲摘要:近两年来,随着开放链接数据(Linked Open Data )等项目的全面展开,语义万维网数据源的数量激增,大量RDF(Resource Description Framework)数据被发布。互联网正从仅包含网页和网页之间超链接的文档万维网(Web of Document)转变成包含大量描述各种实体和实体之间丰富关系的数据万维网(Web of Data)。谷歌公司以此为基础在2012年提出了知识图谱,将其应用在下一代Web搜索中并取得了巨大的成功。在过去的2年间,各大公司纷纷构建自己的知识图谱,在包括智能问答、决策分析、新药发现等各种领域崭露头角。在这次演讲说,我将以研发工程师而非科学家的身份来介绍知识图谱的方方面面。我不仅介绍知识图谱的知识表示、展现形式和应用案例,还将深入探讨知识图谱涉及的各项核心技术。更具体来说,我将从公开知识库、知识构建、知识推理、图数据库、知识集成、知识挖掘,语义搜索以及知识可视化等方面介绍现在较为成熟的开源工具和解决方案,为大家构建特定的知识图谱及应用提供一定的借鉴思路。

继续阅读 =>

Attribute Signatures:基于多累地理数据的动态可视化方法

论文:Attribute Signatures:Dynamic Visual Summaries for Analyzing Multivariate Geographical Data
作者:Author:Cagatay Turkay, Aidan Slingsby,Helwig Hauser,  Jo Wood, IEEE, Jason Dykes
发表会议:VAST2014 INFOVIS

一、论文概述

1 基础知识:

地理信息数据:受地理与地形信息影响(如:受海岸线、河流、道路等影响)、受不同政治区域影响、受不同经济活动影响。•分布于欧式空间上,具有边、界、方向,因变量是地理信息,自变量是相关属性(如人口密度等)。本文对地理数据的分析主要分为三个方向:
           位置(Location):地理上的测量点
           范围(Scale extent (or domain)):我们所关注的一片测量区域
           分辨率(Scale resolution):在一片区域内所能表达的细节总量

2 相关工作

地理位置相关的多元属性可视化难点主要是由于受屏幕空间和地图大小限制,我们同时一次只能展示少量属性,而由于地理数据可视化普遍要求保留地图信息,而地图信息往往已经占用了位置和尺寸信息两个可视通道。因此,这就造成了可视通道资源的进一步短缺。传统方法的地理数据可视化方法主要有:等值线图、热度图、配色方案等。但是这些方法同时间表现的信息过少同时,在表现这些信息的过程中还会对地图信息造成了遮挡。基于这些方法,后人对其进行了改进主要有:增加交互手段,如:过滤地图或属性信息或用特殊方式表现信息、强调绘制通道、并列与叠加(画刷选取),维度缩减,如:PCA、其它统计学模型等。

从诺基亚变微软想到的一些事

本文是以2014年4月25日,诺基亚官方宣布手机业务正式被微软收购的事件为索引点,将近期所接触到相关的软件应用,到数据可视化,形成了一条思考链。

1. 手机领域历史性的一个事件:

在智能手机系统、手机软件高速发展的今天,诺基亚手机由于在手机系统上的缺陷,在手机市场的竞争中陷入落后的状态,在和微软合作的过程中,主要发生了以下的几个重要事件: 继续阅读 =>

信息产品的用户体验设计

1. 为什么用户体验如此重要

在问及“在什么情况下你会选择卸载一个软件/系统”,答案无非三种:

  • 这个软件/系统给不了我想要的
  • 这个软件/系统有我想要的,可是我拿不到
  • 这个软件/系统有我想要的,我拿得到,可是这个过程太痛苦了

可以看出,后两个原因与用户体验息息相关。可是,一些不注重用户体验的开发者将百分之九十的精力放在了用户三分之一的关注点上。可想而知,如此设计出的产品或多或少都会有可用性缺陷。尤其是在“用户”扮演了重要角色的可视化系统中。

2. 什么是用户体验设计

创建吸引人的,高效的用户体验的方法叫做以用户为中心的设计(User-Experience Design)。它要求设计系统的每个步骤中,都要把用户列入考虑范围;在以用户为中心的系统设计中,开发者应该将思路从传统的“这个系统用来做什么”转变成为“这个系统要如何工作”。

继续阅读 =>

数据挖掘中的时序数据分析方法 (According to Eamonn Keogh’s Time Series Tutorial)

本文基于Eamonn Keogh在VLDB06上做的Tutorial:A Decade of Progress in Indexing and Mining Time Series Data

一直以来,时序数据分析就是可视化的一大研究热点,那么作为数据分析的另一大手段数据挖掘在分析时序数据方面又有着怎样的思路呢

 

相似性的使用(The Utility of Similarity Measurements)

数据挖掘在时序数据分析中的任务有聚类、分类、重复模式发掘、规则发掘、时序检索、异常发现等,归根结底,这些都能归为相似匹配的问题。

在时序数据上存在微观形状上和宏观结构上的相似性,对于这两种相似性使用方法各不相同(图一)。

图一 继续阅读 =>