实验课 7-2:自媒体运营分析 - 作品特征构建实验

发布时间:2026/7/3 2:57:21
实验课 7-2:自媒体运营分析 - 作品特征构建实验 #助睿数智 #商业数据分析 #特征工程 #数据加工1 实验说明1.1 实验目的本次实验在实验 7-1 清洗后的数据基础上使用助睿 ETL 完成作品特征的计算与存储包含明细表特征回填与关键词维度汇总两部分内容。通过本次实验我应掌握理解特征工程在数据分析中的核心作用能够基于业务需求设计可解释的分析特征熟练使用助睿 ETL 的 “计算器” 组件计算衍生指标掌握使用 “JavaScript 代码” 组件完成文本关键词的自动标注方法理解 “插入 / 更新” 组件与表输出的区别能够实现数据回填而不覆盖原有数据能够使用 “过滤 聚合” 的组合完成分组统计输出多维度的汇总分析表1.2 实验环境实验平台助睿在线实验平台 https://lab.guilian.cn/平台说明助睿数智Uniplore一站式数据科学实验平台覆盖数据接入、ETL 处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能功能。产品官网https://www.uniplore.com/核心工具助睿 ETL数据集成平台数据库MySQL前置数据实验 7-1 输出的 content_analysis 表重点平台作品明细表2 实验数据2.1 数据来源本次实验的输入数据为实验 7-1 清洗完成的content_analysis表包含 B 站与 CSDN 两个平台的有效作品明细数据字段包含采集日期、作者、标题、平台、各类互动指标等基础信息。2.2 特征设计思路基于自媒体运营分析的业务需求本次构建两类特征明细级特征补充到每一条作品记录中包含互动总数综合指标以及 5 个标题关键词特征标签用于后续单作品维度的分析汇总级特征按关键词维度聚合统计量化每个关键词对作品互动效果的影响用于后续标题优化分析其中 5 个标题关键词选取自数据中的高频词汇且与内容的教学属性、实操属性强相关分别为 “保姆级”“零代码”“实战”“教程 / 指南”“踩坑”。3 实验步骤本次实验通过两个独立的转换流分别完成明细表更新与关键词汇总表输出。3.1 转换流 1更新 content_analysis 表标题特征 互动总数新建转换流 “更新 content_analysis 表”通过读取数据、计算特征、回填更新的方式将新计算的特征字段写入原有表中不新建重复表。步骤 1导入明细数据进入自媒体运营分析项目新建转换流命名为 “更新内容分析表特征字段”从组件库拖拽 “表输入” 组件到画布双击组件数据库连接选择团队私有数据库SQL 输入框中填写SELECT * FROM content_analysis点击 “预览” 按钮验证数据读取正常点击确认字段选择步骤 2提取标题关键词特征拖拽 “JavaScript 代码” 组件连接到表输入组件的输出端双击组件在代码编辑区域输入关键词匹配脚本通过字符串匹配生成 5 个 0/1 特征字段vartitle title;// 直接引用流中的title字段// 逐个判断标题是否包含目标关键词包含返回1否则返回0var has_best title.indexOf(保姆级)!-1?1:0;var has_lowcode title.indexOf(零代码)!-1?1:0;var has_practice title.indexOf(实战)!-1?1:0;var has_tutorial (title.indexOf(教程)!-1|| title.indexOf(指南)!-1)?1:0;var has_pit title.indexOf(踩坑)!-1?1:0;// 将计算结果赋值为输出字段has_best has_best;has_lowcode has_lowcode;has_practice has_practice;has_tutorial has_tutorial;has_pit has_pit;在下方输出字段列表中依次添加 5 个输出字段has_best、has_lowcode、has_practice、has_tutorial、has_pit类型均设置为 Integer点击 “测试脚本” 按钮验证代码运行无语法错误点击确认步骤 3计算互动总数指标拖拽 “计算器” 组件连接到 JavaScript 代码组件的输出端双击组件点击 “新增字段”字段名称填写total_interaction计算公式设置为likes favorites shares coins字段类型选择整数点击确认完成配置。该指标综合反映作品的整体用户互动规模是衡量内容质量的核心综合指标。步骤 4数据回填更新拖拽 “插入 / 更新” 组件连接到计算器组件的输出端双击组件进行核心参数配置数据库连接团队私有数据库目标表content_analysis查询关键字添加id字段作为数据匹配的唯一主键更新字段添加total_interaction、has_best、has_lowcode、has_practice、has_tutorial、has_pit共 6 个字段字段映射将流字段与表字段一一对应id用于匹配记录其余字段用于更新设计说明使用 “插入 / 更新” 而非 “表输出”是因为该组件按主键匹配数据记录存在则仅更新指定字段不存在才插入新行。这样可以反复运行转换流而不会产生重复数据也不会覆盖表中的其他原有字段适合增量式的数据加工场景。步骤 5执行与验证点击画布顶部运行按钮执行整个转换流运行成功后进入数据探查页面查询content_analysis表验证total_interaction字段计算正确5 个标题特征字段已按标题内容填充 0/1 值3.2 转换流 2输出关键词级别的汇总表新建转换流 “输出关键词级别汇总表”按平台 关键词维度聚合统计生成专门用于标题效果分析的汇总表。步骤 1创建目标分析表拖拽 “执行一个 SQL 脚本” 组件到画布输入建表语句创建标题特征分析表CREATETABLE title_feature_analysis (id INTAUTO_INCREMENTPRIMARYKEYCOMMENT自增主键,platform VARCHAR(20)COMMENT平台B站/CSDN,feature_name VARCHAR(50)COMMENT关键词名称,avg_interaction DECIMAL(10,2)COMMENT含该关键词的平均互动总数,overall_avg DECIMAL(10,2)COMMENT该平台整体平均互动总数,sample_count INTCOMMENT含该关键词的作品数)COMMENT标题特征互动效果分析表;运行组件完成表创建步骤 2计算平台整体平均互动数拖拽 “表输入” 组件读取content_analysis表全量数据拖拽 “排序记录” 组件按platform字段升序排序拖拽 “分组” 组件分组字段选择platform聚合计算AVG(total_interaction)输出字段命名为overall_avg拖拽 “增加常量” 组件新增字段feature_name常量值先设置为 “保姆级”为数据贴上关键词标签用于后续与关键词数据合并匹配步骤 3计算单个关键词的平均互动数以 “保姆级” 关键词为例从表输入组件复制一条分支拖拽 “过滤记录” 组件过滤条件设置为has_best 1仅保留标题含 “保姆级” 的作品依次接入 “排序记录”按 platform 升序、“分组” 组件分组维度为platform聚合两个指标AVG(total_interaction)别名avg_interaction、COUNT(id)别名sample_count接入 “增加常量” 组件新增feature_name字段值为 “保姆级”设计说明增加常量字段是为了给聚合后的数值数据贴上类别标签。如果没有这个标签多个关键词的数据合并后无法区分各自对应的关键词常量字段就是每行数据的 “身份标识”。步骤 4合并整体与关键词数据拖拽 “记录集连接” 组件将整体平均值分支与关键词平均值分支分别接入两个输入端配置匹配字段为feature_name与platform连接类型选择内连接合并后每行数据同时包含平台、关键词名称、含关键词平均互动数、平台整体平均互动数、样本作品数形成完整的对比分析结构步骤 5数据入库拖拽 “表输出” 组件接入记录集连接的输出端目标表选择title_feature_analysis完成流字段与表字段的映射关键注意不勾选 “裁剪表” 选项避免后续写入其他关键词数据时清空已有数据步骤 6批量处理其余 4 个关键词选中 “过滤记录→排序→分组→增加常量” 的完整分支右键选择复制粘贴 4 次依次修改每个分支的配置第二个分支过滤条件改为has_lowcode 1常量值改为 “零代码”第三个分支过滤条件改为has_practice 1常量值改为 “实战”第四个分支过滤条件改为has_tutorial 1常量值改为 “教程”第五个分支过滤条件改为has_pit 1常量值改为 “踩坑”将所有分支的输出都接入记录集连接组件最终统一输出到目标表步骤 7执行与验证运行完整转换流所有组件执行成功后进入数据探查页面查询title_feature_analysis表可看到 B 站、CSDN 两个平台各 5 个关键词的统计数据共 10 条记录包含平均互动数、整体均值与样本量数据完整准确4 实验结果本次实验完成了两类特征的构建与存储明细特征更新成功为content_analysis表补充了互动总数与 5 个标题特征字段每条作品记录都具备了可用于分类对比的标签属性支撑后续细粒度分析。关键词汇总表输出生成title_feature_analysis表量化了每个关键词在不同平台的互动效果为后续标题优化分析提供了直接的数据依据。5 问题与解决问题 1JavaScript 代码组件运行报错问题现象运行 JS 代码组件时提示 “变量未定义”问题原因输出字段列表中漏加了has_pit字段但代码中进行了赋值导致输出不匹配解决方法在输出字段列表中补充添加has_pit字段类型设为 Integer重新运行后正常执行。问题 2插入 / 更新后数据出现重复问题现象多次运行转换流后content_analysis表出现了重复的作品记录问题原因查询关键字只选了platform没有使用唯一主键id进行匹配导致无法精准定位更新行解决方法修改插入 / 更新组件的查询关键字为id确保每条记录唯一匹配重新运行后不再产生重复数据。6 实验总结6.1 实验收获本次实验完成了从基础数据到业务特征的加工转化我理解了特征工程在数据分析中的核心价值 —— 将原始数据转化为可对比、可解释的业务指标。掌握了计算器组件计算衍生指标、JS 组件实现文本特征提取、插入 / 更新组件实现数据回填的操作方法理解了明细层与汇总层数据的分层设计思路体会到特征构建的合理性直接决定了后续分析结论的业务价值。6.2 平台评价助睿 ETL 在特征工程场景下表现灵活既提供了零代码的计算器、值映射等常规组件也支持通过 JavaScript 脚本实现自定义的复杂逻辑兼顾了易用性与扩展性。插入 / 更新组件很好地解决了增量数据加工的场景需求让数据加工流程可以分步迭代无需一次性完成所有字段的构建。