一家企业,如何0-1构建标签体系? 世界快资讯
2023-06-02 15:41:57 增长研究社

标签是数据从业者日常高频使用的一个数据工具,在精细化运营、数据分析等多种场景中,标签的作用显著,通过对数据的特征化,可以帮助数据人员对用户、商品等信息进行整理、筛选以及洞察分析,提高对数据的使用效率。


(资料图片)

在本篇内容中,我们将系统化为大家讲解标签和标签体系,从 理解标签和标签体系的作用、标签的类别和应用场景,以及如何从0到1建立标签体系4个方面 ,并通过案例场景剖析,让大家更好理解标签的创建和使用。

标签与标签体系

在进一步讨论标签相关的内容前,让我们先明确一下标签和标签体系具体是什么。

/ 标签是什么 /

一般对标签有如下的定义: 标签是信息组织的一种方式,代表了某个对象/主体的抽象特征,可以帮助对信息/数据进行分类、描述、分享或者检索。其实标签本质也是一种数据工具,可以提升不同应用场景中使用数据的效率。

标签的主体: 主体或者可以说实体、对象,一个标签代表着一条数据,这条数据需要有对应的主体,比如用户(比如学生、老师)、商品(比如汽车)、虚拟物品(比如视频)、场所(比如店铺),这些都可以作为标签的主体。

在很多情况下,我们需要多个主体的数据同时使用,比如上述人货场模型中的分析。这种多种主体/多种对象的需求是广泛而普遍的,因此在火山引擎的营销套件产VeCDP中,我们支持了多主体的能力。

/ 标签体系是什么 /

顾名思义,标签体系由标签构成,是一套可以长期使用并且适用性较强的框架,可以把标签合理的组织起来,并长期维护下去。标签体系一般有如下的特点:

1. 分类明确

● 有特定的主题,或层级分类,可以来对标签进行组织和管理,提升使用和维护的效率。 2. 结构化 ● 在分类下,整体根据一定的逻辑进行结构化拆分,形成金字塔/树状结构,更好的对标签进行管理。 ● 层级也不宜过多,一般5层内即可,便于快速查找和使用。 3. 复用性和可扩展性 ● 搭建最初的结构时,需要考虑到后续的复用和继续扩展,设计和放置要合理。举例:如果一个标签是原子性的,不可再向下拆分,那就不应该和大的分类放在一个层级。

标签的类别

标签的类别可以根据不同的维度进行分类,常见的有以下几种:

/ 按标签性质分类 /

根据标签性质和所表达的内容,我们可以将标签分为如下几类:

● 事实类标签: 这类标签表示了基本的事实,意味没有进行再次加工改变固有属性,比如用户籍贯,性别,职业,以及用户行为相关的标签等。

● 统计类标签: 某些情况下,我们希望基于已有的数据,经过统计分析之后得到一些结论,并将这些结论形成标签,便于直接使用。比如「用户最喜欢的10款车型」,这个标签是通过统计全部用户的喜欢车型后,分析计算后得出的。(VeCDP中,可以通过偏好标签,快速创建出类似的统计类标签)。

● 模型预测类标签: 如前文所说,在我们获取到的数据中,有时无法仅仅通过已有的事实数据或者统计得到我们想要的结果,这时就需要基于已有的数据源进行建模,预测出未知的结果。

/ 按创建方式分类 /

火山引擎的营销套件工具-客户数据平台veCDP的标签支持多种创建方式,以满足不同场景的创建需求,所以在分类上是以创建方式进行归类的,包含以下几种类型:

● 规则类: 指的是在已有数据源的基础上通过设置一定的计算规则,生成新的标签。

● 洞察类: 指的是基于洞察分析模型创建的标签,内置了两类模型:AIPL和RFM。

● 扩展类: 指的是在已有的数据源基础上,再次加工处理扩展得到标签,支持通过内置的可视化建模工具,使用多种算子自定义建模输出或通过sql查询生成新的结果标签。

● 导入类: 直接使用已有数据源进行创建,数据源中的一个字段可以被注册成标签。

● 填报类: 手动进行补充的标签,一般通过人工录入创建。

/ 按标签数据源分类 /

标签也可以按照其底层的标签数据源进行分类,根据数据源的不同类型,可以拆分为以下几类:

1. 直接映射类标签

直接映射类的标签是指将清洗好的数据源中的某个字段,直接创建为标签,创建过程简单,使用方便。

比如CDP的导入标签,以及CDP新增的模板标签(提供数据源模板-使用这个模板中的字段可以快速创建对应标签)。 2. 计算类标签

在已有数据源的基础上,再次加工、组合、统计计算得到新的标签。

比如CDP的规则标签,可以通过已有标签的四则运算生成新的标签。

3. 模型挖掘类标签

一些复杂的场景,单一的数据源无法满足需求,需要将已有的多维度的数据源,作为模型特征,通过模型计算输出新的标签。

比如我们可以通过用户浏览商品的行为数据,用户分享商品的行为数据,用户的好友互动数据等特征,通过模型预测用户购买某种商品的概率,将其创建为一个新的标签。

4. 人工标签

人工标签是指通过人工经验判断、人工规则判断,人工触达对主体进行标记的标签。 比如人工外呼后,对用户的状态进行重新标记。或者对视频素材进行标记时,由人工标注团队根据建立好的标签规则对视频内容进行打标。 值得一提的是,虽然各种图像识别、音频识别算法,自然语言处理等人工智能算法日渐强大,但当前在视频打标领域,仍然普遍依赖人工来对内容进行识别标记,以获取更准确的内容特征。

/ 按更新类型分类 /

根据标签的更新机制,我们可以大体分为静态和动态两类:

● 静态: 标签数据源一次更新,创建后基本不再变化,适用于一些属性类的数据,比如性别,籍贯这类的标签。

● 动态: 根据不同频率(天级、周级、年级)动态进行数据更新的,适用范围比较广。比如:

一些短期行为相关的标签: 活跃状态、下单状态、累计付款金额、一般要天级别进行更新,以保证数据的新鲜度。 一些基于长期行为、多源数据整合的标签: 通过模型进行预测的购买概率标签,也需要进行动态更新。

标签的应用场景

标签可以应用在多种分析和营销场景中,在火山引擎veCDP中,我们总结业务经验,将标签融入到了以下的功能中:

● 360画像:快速获取主体信息

由于标签一般是在业务场景中抽象出来的特征,或者来自用户的一些基本属性。那么通过多维度的标签,我们可以了解一个用户的详细信息,得到用户的360度画像:包括基本属性、对应的标签和行为时间线,通过这些标签可以快速了解一个用户的特点、状态、属性,以便针对性的进行营销。

当然,不仅仅是用户,针对标签对应的主体,我们都可以通过标签了解其画像特点

● 用户分群:快速筛选/圈选主体

当主体被有效的、丰富的标签覆盖后,我们就可以通过标签的聚类、规则组合,来筛选一组符合需求的目标主体。

比如在push推送场景中,筛选最近活跃+对某个话题感兴趣的用户,进行相关内容的推送,以此提升内容匹配度——内容打开率——活动转化率。在此场景中,标签即为快速筛选主体的一个数据工具。

● 群体洞察:分析主体特征

除了筛选符合某个需求的主体群组外,标签还可以作为一种分析指标,用来洞察主体的特征情况。

比如通过某次活动获取了一批用户,为了了解这批用户是否有共同的特点,就可以通过标签进行洞察,分析用户龄、性别、地域、职业、人生阶段等标签上的分布情况,总结出本次活动的用户画像

● 建模工具:作为特征在模型等分析场景中使用

制作好的标签由于本身数据已经比较规范化,所以一般可以应用作为模型的特征或者其他的数据分析场景中。

比如常驻城市、性别这些标签,可以被广泛应用到各业务线的建模场景中,用来提升不同场景下模型效果。

如何生产标签并搭建标签体系

我们现在已经充分了解了标签的特点、类型和应用场景,那么 如何从0到1开始生产所需要的标签,构建一个完善、合理的标签体系,并且能够长期维护运行下去呢?

接下来我们将系统性讲解标签生产和标签体系搭建的流程,一般的标签生产流程通常包含以下几个步骤:

明确需求——确定数据来源——数据加工处理——构建标签体系——注册标签

下面我们详细分解一下每个步骤的工作内容:

/ 确定目标, 明确标签需求 /

关于标签的需求,可能来自数据团队(标签生产方)自主的想法,也可能来自业务团队(标签使用方)提出的需求。

无论来自哪方的需求,在开始生产前,我们都需要首先对需求和标签的口径进行确定。

1. 讨论内容:

● 明确为什么制作标签?主要是想解决什么样的问题? ● 明确标签与主体:针对这个目标,目前需要哪些主体的哪些标签 ● 确定标签更新机制:标签是静态还是动态更新?更新的频率? ● 确定标签预期使用的时间

2. 参与角色: ● 标签需求方 ● 标签数据团队(生产方) 3. 产出物: ● 标签需求文档

/ 确定标签的数据源 /

需求文档完成后,标签生产团队需要根据需求,找到合适的标签数据源或者在原有的数据源上加工再进行生产。

1. 参与角色

● 标签数据团队

2. 工作内容

● 探索了解是否已经有可用的数据源? ● 如果缺少必要的数据源,是否需要新建埋点进行收集? ● 已有的数据源要不要再次清洗、加工、融合? ● 确定是否需要建立模型进行输出? ● 讨论是否需要人工标记进行数据补充?

3. 产出物 ● 标签的可用数据源

/确定数据方案 /

某些情况下,原始的数据源可能不适合直接注册成标签(数据冗余,数据格式,数据内容问题等),需要数据团队根据平台的要求,在原有的数据源基础上进行处理,生成效率最高,最适合用于注册标签的数据源。

1.工作内容

● 制定直接使用/改造加工/建模输出/人工标记等方式的具体数据方案和详细的执行计划。 2. 参与角色 ● 标签数据团队 ● 其他支持团队(数仓/算法/人工标记等) 3. 产出物 ● 标签数据方案 ● 详细的执行计划

/ 构建标签体系 /

我们已经知道构建标签体系的重要性,尤其是0-1阶段,需要构建一个合理的标签体系,可以是mvp的方案,但需要打好基础,因为后续的扩展都要基于这个原始的结构进行,再次注意下满足以下关键点:

●分类合理:根据标签的主题、目的、属性、类型等建立合理的分类,便于查找使用

●结构化:建立标签的层级关系,便于标签维护,补充添加

●可扩展性:基础结构保持后期扩展的可能,减少修改成本

1. 工作内容:

● 构建标签体系:与数据方、业务方、平台方进行沟通,集思广益,构建初步的标签体系 2. 参与角色:

● 需求方

● 标签数据团队

● 标签平台产品/运营 3. 产出物:

● 标签体系搭建完成

/ 注册标签 /

标签体系结构完成后,可以开始按照既定的数据方案进行标签注册,将标签注册到平台上,放置于对应的标签体系层级下。

1. 工作内容:

● 标签生产与注册 2. 参与角色:

● 标签数据团队 3. 产出物:

● 标签上线

/ 标签体系的维护与更新 /

基础的标签体系完成后,后续可以根据具体的场景和业务需求或数据迭代需求,再持续新增补充其他标签。

在原有标签体系上持续进行优化调整,比如新增分类,扩展层级,下线冗余、过期标签等,保持合理结构和易用性。

1. 工作内容:

● 标签更新迭代管理

● 标签体系优化扩展 2. 参与人:

● 需求方

● 标签数据团队 3. 产出物:

● 标签更新/下线

● 标签体系结构更新

标签应用的最佳实践

让我们以日常运营中的push推送场景作为一个例子,讲解一下如何创建标签到业务应用的全过程:

当前我们需要针对一次体育相关的线上活动进行推送,希望通过推送可以提升参与该活动的用户数,但同时最大化减少对该活动不感兴趣用户的干扰。

● 首先我们需要先定位一下目标用户群的特征:根据这次活动的属性,用户最好是在近7天活跃,男性用户,并且对体育类内容感兴趣,这样的人群参与的可能性会比较高。

● 这样定位后,我们需要3个标签来完成目标用户的筛选:近7天是否活跃,用户属性-性别,是否对体育内容感兴趣。

● 对于前两个标签,历史的推送经常使用已经存在于已有的标签体系中,可以直接使用。关于是否对体育内容感兴趣这个标签,需要进行新建。

● 在整理好标签需求后,运营团队作为需求方向数据团队提交了本次需求,数据团队制定了相关的数据方案,希望通过用户已有内容浏览行为数据进行生产,在算法团队的支持下,通过模型输出了是否对体育内容感兴趣标签,并注册在原有的标签体系-兴趣偏好-体育内容下,保证后续可以继续维护,和扩展兴趣偏好其他类别。

● 运营团队使用3个标签进行圈选,筛选出一定数量的用户作为目标受众完成了本次推送。

● 通过实验数据验证了本次推送效果较好,提升了活动参与人数,并且未对整体用户造成干扰。后续相关活动可以继续沿用该方法和相同标签进行,扩大标签利用率和价值。

作者 | 金磊 火山引擎客户数据平台VeCDP团队数据工程师

最新新闻: