写作训练营

Hi, 请登录

数据可视化过程中数据聚合是什么意思,聚合和聚类有什么区别?

推荐阅读:SEO干货网站内部链接优化与整站优化>>    推荐阅读:一份完整的企业公众号运营草案>>   

数据聚合(Data Aggregation)是指合并来自不同数据源的数据。

聚类也称聚类分析,亦称为群集分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习,数据挖掘,模式识别,图像分析以及生物信息。

聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集(subset),这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。

聚类常用的算法有Kmean聚类等

一般把数据聚类归纳为一种非监督式学习。

另外详情如下:

例如用Tableau做数据可视化,以下以数据可视化在Tableau中做数据聚合为例:在 Tableau 中,您可以聚合度量或维度,尽管对度量进行聚合更为常见。每当您向视图中添加度量时,默认情况下都会向该度量应用一个聚合。应用的聚合类型因视图上下文而异。

更改视图中的度量聚合

向视图中添加度量时,Tableau 会自动对它的值进行聚合。常见的聚合包括总和、平均值和中值;

当前聚合在视图中显示为度量名称的一部分。例如,“Sales”会变为“SUM(Sales)”。每个度量都有一个默认聚合,该聚合由 Tableau 在您连接到数据源时设置。

可以使用 Tableau 只对关系数据源进行度量聚合。多维数据源包含已经聚合的数据。在 Tableau 中,只支持 Windows 中的多维数据源。

您可以通过其上下文菜单来更改视图中某个度量的聚合:

聚合维度

重庆聚合多营销策划中心_聚合营销_降冰片烯 聚合聚合活性

您可以采用“最小值”、“最大值”、“计数”或“计数(不重复)”的形式聚合视图中的维度。当聚合维度时,将创建一个新的临时度量列,使维度实际具有度量的特征。

注意:Microsoft Access 数据源以及使用旧连接的 Microsoft Excel 和文本文件数据源不支持“计数(不重复)”聚合。如果您连接到这些数据源类型的其中一种,“计数(不同)”聚合将不可用并显示消息“需要数据提取”。如果将数据源另存为数据提取,您将能够使用“计数(不重复)”聚合。

查看维度的另一种方法是将其作为属性处理。从维度上下文菜单中选择“属性”来执行此操作。“属性”聚合有若干用途:

它可在混合多个数据源时确保一致的详细级别。

它可在计算表计算(需要聚合表达式)时提供一种聚合维度的方式。

由于它是在本地计算的,因此可以提高查询性能。

Tableau 可使用以下公式来计算属性:

IF MIN([dimension]) = MAX([dimension]) THEN MIN([dimension]) ELSE "*" END

通过初始查询检索数据后,将在 Tableau 中对该公式进行计算。星号 (*) 实际上是存在多个值时产生的特殊类型空值的可视指示符。

下面是在表计算中使用属性的示例。该表按市场、市场大小和州来显示销售额。假设您需要计算每个州的总销售额占该市场销售额的百分比。在添加将按州进行计算的“总额百分比”快速表计算时,将在下面所示的红色区域内进行计算。这是因为,“Market Size”(市场规模)维度会对数据进行分区。

在您将“Market Size”(市场规模)作为“属性”进行聚合时,将在“Market”(市场)(在下图中为 East)内进行计算,并在显示中将“Market Size”(市场规模)信息纯粹作为标签来使用。

降冰片烯 聚合聚合活性_聚合营销_重庆聚合多营销策划中心

Tableau 中预定义聚合的列表

有时,查看数字型数据的聚合形式(如总和或平均值)非常有用。用来产生聚合数据的数学函数称为聚合函数。聚合函数对一组值进行计算并返回单个值。例如,包含值 1, 2, 3, 3, 4 的某个度量经过求和聚合后返回单个值:13。或者,如果数据源中含 50 种产品的 3000 笔销售交易,则您可能希望查看每种产品的销售总额,以确定哪些产品的收入最高。

可以使用 Tableau 只为关系数据源中的度量设置聚合。多维数据源只包含聚合数据。

Tableau 提供一组预定义聚合,如下表所示。可以为非计算字段(本身包含聚合)的任何度量设置默认聚合,例如 AVG([Discount])。还可以为视图中已存在的字段设置聚合。

也可以按照Tableau 中的聚合函数(Link opens in a new window) 中的说明定义自定义聚合。根据创建的数据视图类型,Tableau 将以相应的详细级别应用这些聚合。例如,Tableau 将聚合应用于单个维度成员(East 地区平均交付时间)、某个给定维度的所有成员(East、West 和 Central 地区的平均交付时间)或维度组(所有地区和所有市场的销售总额)。

为度量设置默认聚合

可以为非计算字段(本身包含聚合)的任何度量设置默认聚合,例如 AVG([Discount])。默认聚合是优先对连续或离散字段进行汇总的计算。将度量拖到视图中时聚合营销,会自动使用默认聚合。

更改默认聚合:

在“数据”窗格中右键单击(在 Mac 上按住 Control 单击)度量,并选择“默认属性”>“聚合”,然后选择其中一个聚合选项。

如何解聚数据

每当您向视图中添加度量时,默认情况下都会向该度量应用一个聚合。此默认值通过“分析”菜单中的“聚合度量”设置进行控制。

如果决定要以最详细的粒度级别查看视图中的所有标记,您可以对视图进行解聚。解聚数据意味着 Tableau 将为数据源每一行中的每个数据值显示单独标记。

降冰片烯 聚合聚合活性_聚合营销_重庆聚合多营销策划中心

解聚视图中的所有度量:

清除“分析”>“聚合度量”选项。如果已选中该选项,请单击“聚合度量”一次将其取消选中。

如果“聚合度量”处于选中状态聚合营销,默认情况下 Tableau 将尝试对视图中的度量进行聚合。这意味着它会将数据源中的各个行值聚集为针对视图中的详细级别调整的单一值(该值将变为单一标记)。

可用于度量的不同聚合确定单独值的聚集方式:对这些值进行加总 (SUM)、求平均值 (AVG),或设置为单独行值中的最大值 (MAX) 或最小值 (MIN)。

在分析您可能想要在视图中独立和非独立使用的度量时,解聚数据可能非常有用。例如,您可能正在使用一个轴上的参与者年龄对产品满意度调查结果进行分析。可以聚合“Age”(年龄)字段以确定参与者平均年龄,或者解聚数据以确定哪个年龄的参与者对产品最满意。

在以散点图形式查看数据时,解聚数据可能很有用。

示例:散点图、聚合和粒度

如果您将一个度量放置在“行”功能区上,将另一个度量放置在“列”功能区上,则表示您想要 Tableau 比较两个数值。通常,在这种情况下,Tableau 会选择散点图作为默认可视化形式。初始视图最可能是一个标记,显示两个度量的所有值的汇总。这是因为您需要增加视图中的详细级别。

开始构建散点图

可通过多种方式向散点图中添加详细信息:您可以使用维度添加详细信息,可以向“行”和“列”功能区添加额外的度量和/或维度,以便在视图中创建多个单标记散点图,您也可以解聚数据。并且,您也可以使用这些选项的任意组合。本主题介绍这些备选方法,并使用“Sample - Superstore”数据源。

若要创建初始视图,请执行以下步骤:

将“Sales”(销售额)度量放在“列”功能区上。

将“Profit”(利润)度量放在“行”功能区上。

聚合营销_重庆聚合多营销策划中心_降冰片烯 聚合聚合活性

度量自动聚合为总计。默认聚合 (SUM) 在字段名称中指示。工具提示中显示的值是数据源中每个行的销售额和利润总和。

按照下面的步骤进行操作,使用维度向视图中添加详细信息以及解聚数据。

使用维度添加详细信息

按照这些步骤操作,通过添加维度以显示更多详细信息,来完善您创建的散点图。

将“Category”(类别)维度拖到“标记”卡的“颜色”上。

这会将数据分隔成三种标记 - 每个维度成员一个标记 - 然后使用颜色对标记进行编码。

将“State”(州/省/市/自治区)维度拖到“标记”卡的“详细信息”上。

现在视图中有更多标记。标记数量等于数据源中不同的州/省/市/自治区数乘以类别数。

尽管显示更多标记,度量仍然是聚合的。因此,无论数据源中是只存在一个 State = North Dakota、Category= Furniture 的行还是 100 个这样的行,结果始终都是一个标记。

此过程可能会按您认为有用的方向形成视图,或者您可能更愿意转向不同的方向 — 例如,通过向视图中添加时间维度,或者通过引入趋势线或预测。一切都由您决定。

尝试向“行”和“列”功能区添加更多字段

聚合营销_降冰片烯 聚合聚合活性_重庆聚合多营销策划中心

恢复为原来的单标记视图并按照这些步骤操作,通过向“行”和“列”功能区添加字段来完善散点图。

将“State”(州/省/市/自治区)维度拖到“列”功能区。

即使您将“Continent”放到 SUM(Sales) 的右侧,Tableau 也会将其移到 SUM(Sales) 的左侧。这是因为您无法在连续轴内插入维度。相反,您的视图会为维度的每个成员显示一个单独的轴。

将“Segment”(细分市场)维度拖到“行”功能区。

现在,您有了一个可提供跨州/省/市/自治区和客户细分市场的销售额与利润概况的视图。将光标悬停于视图中的标记上以查看各个细分市场的工具提示数据可能会很有趣:

尝试解聚数据

另一种修改您原来的单标记散点图以显示更多标记的方法是解聚数据。

清除“分析”>“聚合度量”选项。如果已选中该选项,请单击“聚合度量”一次将其取消选中。

实际上您做的是解聚数据,因为此命令会切换原来所选的选项(存在复选标记)。Tableau 默认情况下会聚合视图中的数据。

现在您看到许多标记 -- 原始数据源中的每一行分别有一个标记:

当您解聚度量时,查看的将不再是数据源中各行值的平均值或总和。相反,视图会为数据源中的每一行显示一个标记。解聚数据是查看数据的整个表面区域的一种方法。这是了解数据形状和识别离群点的快捷方式。这种情况下,解聚数据将显示,对于数据中的许多行,销售收入和利润之间存在一致的关系,呈 45 度角的标记线表明了这一点。

来源【写作训练营】自媒体,更多内容/合作请关注「辉哥智库」公众号,赠文案训练手册电子书!

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站不拥有所有权,不承担相关法律责任。如发现有侵权/违规的内容, 联系邮箱jkhui22@126.com,本站将立刻删除。

相关推荐

评论

  • 昵称 (必填)
  • 邮箱
  • 网址
二维码
评论