拒绝无效复盘:你的运营数据,可能从一开始就洗错了(实验7-1)

发布时间:2026/7/3 3:59:37
拒绝无效复盘:你的运营数据,可能从一开始就洗错了(实验7-1) 2.7 实验七自媒体运营分析数据清洗与预处理 作品特征构建 可视化探索本实验围绕班级自媒体作品运营数据展开实验内容由三个连续部分组成第一部分为数据清洗与预处理主要完成原始数据导入、平台筛选、缺失值处理、字段整理和目标表输出第二部分为作品特征构建主要计算互动总数并从作品标题中提取关键词特征第三部分为可视化探索主要基于前两个实验生成的数据表在助睿BI中制作指标卡、排名图、标题影响分析图和趋势图最终形成自媒体运营分析仪表盘。三个实验之间具有明显的递进关系实验7-1解决“数据能不能用”的问题实验7-2解决“数据能不能进一步分析”的问题实验7-3解决“分析结果如何展示和解释”的问题。整体流程为原始数据进入助睿ETL后先输出全平台概况表和重点平台内容分析表再在内容分析表中补充互动指标和标题特征最后将结果导入助睿BI完成可视化展示2.7.1 实验7-1自媒体运营分析——数据清洗与预处理一、实验目的本实验基于全班同学在多个自媒体平台发布作品后形成的互动数据使用助睿ETL完成数据清洗与预处理。原始数据中包含B站、CSDN、微信、知乎、小红书等多个平台的作品记录但不同平台的数据完整程度不同部分平台存在浏览数量为0、互动字段缺失或无效记录较多的情况。因此在正式进行作品分析之前需要先对原始数据进行整理。本实验的主要目标是通过助睿ETL完成多源数据的过滤、填充、聚合和字段筛选并输出两张核心数据表。一张是全平台概况数据表summary_all_platforms用于后续展示全平台作品数量、总浏览量和总互动情况另一张是内容分析表content_analysis用于保存B站和CSDN的有效作品明细数据并作为实验7-2作品特征构建的基础数据。实验手册中也强调本部分需要使用“分支处理”思路将全平台概况统计与重点平台深度分析分开处理。二、实验环境项目内容实验平台助睿在线实验平台数据处理工具助睿ETL数据来源自媒体作品数据明细.csv主要处理方式数据导入、排序、分组、过滤、缺失值填充、字段选择、表输出输出结果summary_all_platforms、content_analysis三、核心设计思路原始数据不能直接用于后续分析主要原因包括以下几点第一平台较多但并不是所有平台都具有完整的浏览数据第二部分作品浏览数量、点赞数量、收藏数量等指标可能为0或存在空值第三后续可视化既需要展示全平台整体情况又需要对B站和CSDN进行重点分析因此不能简单地只保留某一类数据。因此本实验采用双分支处理方式分支处理目标处理方式输出表分支1生成全平台概况数据按日期和平台分组对数值字段求和summary_all_platforms分支2生成重点平台有效明细数据只保留B站和CSDN且浏览数量大于0的记录再进行缺失值填充和字段筛选content_analysis四、目标表设计1. 全平台概况表summary_all_platforms该表用于保存所有平台的汇总数据不对平台进行筛选主要服务于后续仪表盘中的全平台指标卡。字段名类型说明crawl_dateDATE采集日期platformVARCHAR(20)平台名称content_countINT作品数量total_viewsINT总浏览数total_likesINT总点赞数total_favoritesINT总收藏数total_sharesINT总分享数total_coinsINT总投币数仅B站使用total_recommendINT总推荐数仅微信使用total_likes_zhihuINT总喜欢数仅知乎使用total_approvalsINT总赞同数仅知乎使用这张表保留所有平台数据目的是展示整体分发情况。不同平台的特色互动指标不强行合并例如B站的投币、微信的推荐、知乎的赞同含义不同因此分别保留为独立字段更便于后续解释。2. 内容分析表content_analysis该表用于保存B站和CSDN的有效作品明细是实验7-2和实验7-3的重要基础表。字段名类型说明dateDATE采集日期author_nameVARCHAR(100)作者昵称titleVARCHAR(500)作品标题platformVARCHAR(20)平台主要为B站或CSDNlikesINT点赞数favoritesINT收藏数sharesINT分享数coinsINT投币数仅B站使用viewsINT播放量或阅读量urlVARCHAR(500)作品链接total_interactionINT互动总数实验7-2中计算has_bestTINYINT(1)是否包含“保姆级”has_lowcodeTINYINT(1)是否包含“零代码”has_practiceTINYINT(1)是否包含“实战”has_tutorialTINYINT(1)是否包含“教程”或“指南”has_pitTINYINT(1)是否包含“踩坑”其中total_interaction和五个标题特征字段在实验7-1中先作为预留字段具体数值会在实验7-2中通过计算器组件和JavaScript代码组件生成。(community)五、实验步骤步骤1导入原始数据首先将实验提供的自媒体作品数据明细.csv文件从公共空间复制到个人文件库中然后在助睿ETL中作为数据源导入。导入后需要查看数据预览确认字段是否完整例如日期、作者名称、作品标题、平台、浏览数量、点赞数量、收藏数量、分享数量、投币数量、作品链接等字段是否能够正常读取。步骤2全平台聚合统计为了保留所有平台的整体发布情况需要在数据清洗前单独建立一个分支对全平台数据进行汇总。该分支使用“排序记录”和“分组”组件按照日期和平台进行排序、分组并对所有数值字段进行求和。处理完成后将结果输出到summary_all_platforms表中。配置项设置内容分组字段日期、平台聚合方式对浏览数量、点赞数量、收藏数量、分享数量、投币数量等数值字段求和输出表summary_all_platforms作用支撑仪表盘顶部的全平台概况指标卡步骤3过滤重点平台有效记录在第二条分支中需要对原始数据进行过滤只保留B站和CSDN两个平台中浏览数量大于0的有效记录。由于微信、知乎、小红书等平台的浏览数量大量为0难以支撑后续深度分析因此本实验只针对B站和CSDN进行重点平台分析。过滤条件如下(平台 B站 AND 浏览数量 0) OR (平台 CSDN AND 浏览数量 0)该条件同时完成了两个任务一是筛选平台只保留B站和CSDN二是筛选有效记录只保留已经产生浏览行为的作品。步骤4填充缺失值经过筛选后需要继续处理字段中的空值。由于作者名称、作品标题等字段后续会用于分组、标题关键词识别和图表展示如果存在空值可能导致后续处理异常。因此需要使用“填充缺失值”组件对空值进行统一处理。字段类型处理方式目的文本字段填充为默认值如“未知”或空字符串避免分组和标题识别异常数值字段按实际情况填充为0或保留已有数值避免后续计算时报错标题字段保证不为空支撑实验7-2关键词特征提取步骤5字段选择原始数据中可能存在一些与分析无关的辅助字段例如source_file该字段主要用于表示采集批次在后续分析中作用不大因此可以剔除。通过“字段选择”组件只保留后续实验需要使用的核心字段。保留字段如下date, author_name, title, platform, likes, favorites, shares, coins, views, url保留字段说明date用于趋势分析author_name用于学生排名分析title用于作品排名和标题特征提取platform用于区分B站和CSDNlikes点赞数favorites收藏数shares分享数coins投币数B站特有views播放量或阅读量url作品链接步骤6输出目标表最后将清洗后的重点平台作品明细数据输出到content_analysis表中。运行转换流后需要进行数据探查检查输出结果是否符合要求。检查重点包括检查内容判断标准平台筛选是否正确只包含B站和CSDN浏览数量是否有效views 0字段是否完整核心字段均已保留空值是否处理作者、标题等字段无明显异常是否保留日期日期字段可用于后续趋势分析六、实验结果分析通过本实验原始自媒体运营数据被整理为两张结构清晰、用途不同的数据表。summary_all_platforms保存全平台聚合结果能够用于展示全班作品发布规模、平台覆盖情况和整体浏览互动情况content_analysis保存B站和CSDN的有效作品明细能够用于后续计算互动指标、提取标题特征和制作排名图表。本实验的关键在于分支处理。全平台概况统计不删除平台数据保证整体指标完整重点平台分析则通过过滤条件去除无效记录使后续分析更加准确。经过清洗与预处理后数据结构更加规范也为后续特征工程和可视化分析奠定了基础。基于这些特点本实验的可视化分析重点如下分析维度分析目标核心问题核心指标了解整体数据情况整体表现如何排名分析对比学生和作品之间的差异谁做得好什么内容表现好标题影响量化标题关键词对互动效果的影响什么标题更有效趋势分析观察数据随时间变化流量是否持续增长三、仪表盘布局思路本实验仪表盘采用“先总后分、左右对照”的布局方式。区域内容作用顶部核心指标卡快速展示整体情况中部左侧B站排名、标题分析、趋势图展示视频平台表现中部右侧CSDN排名、标题分析、趋势图展示图文平台表现底部趋势或补充分析图表观察时间变化和长尾效果整体阅读路径为先通过指标卡建立整体认知再通过排名图发现表现差异然后通过标题影响分析定位原因最后通过趋势图观察数据变化规律。【截图位置2.7.3-2仪表盘布局草图或整体规划截图】四、实验步骤步骤1连接数据源进入助睿BI平台后选择前面实验已经生成的数据表。由于团队私有数据库数据源通常已经完成连接因此本实验可以直接使用实验7-1和实验7-2输出的结果表。【截图位置2.7.3-3进入助睿BI平台截图】步骤2构建数据集本实验需要创建三个数据集。数据集来源表主要用途全平台概况数据集summary_all_platforms制作全平台作品总数、平台数、总浏览数、总互动数等指标卡重点平台深度分析数据集content_analysis制作B站和CSDN的学生排名、作品排名、趋势分析标题关键词互动数据集title_feature_analysis制作标题关键词平均互动数和提升倍率图【截图位置2.7.3-4创建summary_all_platforms数据集截图】【截图位置2.7.3-5创建content_analysis数据集截图】【截图位置2.7.3-6创建title_feature_analysis数据集截图】步骤3制作核心指标卡指标卡用于展示最关键的总体数据使读者能够快速了解全班自媒体作品的整体运营情况。根据实验手册本部分指标卡分为全平台概况和重点平台概况两类。(community)图表数据集配置方法解读要点全平台作品数全平台概况数据集对作品数量求和展示全班共采集了多少作品分发平台数全平台概况数据集对平台进行去重计数展示数据覆盖了几个平台全平台总浏览数全平台概况数据集对浏览数量求和展示全平台流量规模全平台总互动数全平台概况数据集对互动数量求和或使用计算字段展示整体互动水平B站作品数全平台概况数据集筛选平台B站统计作品数展示B站内容体量CSDN作品数全平台概况数据集筛选平台CSDN统计作品数展示CSDN内容体量B站总播放量全平台概况数据集筛选平台B站对浏览数量求和展示B站总流量CSDN总阅读量全平台概况数据集筛选平台CSDN对浏览数量求和展示CSDN总流量【截图位置2.7.3-7全平台作品数指标卡截图】【截图位置2.7.3-8分发平台数指标卡截图】【截图位置2.7.3-9全平台总浏览数和总互动数指标卡截图】【截图位置2.7.3-10B站和CSDN核心指标卡截图】步骤4制作排名分析图表排名图表主要用于回答“谁做得好”和“什么内容表现好”这两个问题。学生排名侧重观察个人整体运营水平作品排名侧重发现单篇爆款内容。图表数据集配置方法解读要点B站学生平均播放量排名TOP10重点平台深度分析数据集筛选平台B站维度作者名称指标平均值(浏览数量)降序排序限额10找出B站整体运营表现较好的学生B站作品播放量排名TOP10重点平台深度分析数据集筛选平台B站维度作品标题指标浏览数量降序排序限额10找出B站单篇播放量较高的作品CSDN学生平均阅读量排名TOP10重点平台深度分析数据集筛选平台CSDN维度作者名称指标平均值(浏览数量)降序排序限额10找出CSDN整体阅读表现较好的学生CSDN作品阅读量排名TOP10重点平台深度分析数据集筛选平台CSDN维度作品标题指标浏览数量降序排序限额10找出CSDN单篇阅读量较高的作品通过学生排名和作品排名结合分析可以先找到表现突出的学生再进一步查看其具体作品标题、平台和互动情况从而总结可借鉴的运营经验。【截图位置2.7.3-11B站学生平均播放量TOP10图表截图】【截图位置2.7.3-12B站作品播放量TOP10图表截图】【截图位置2.7.3-13CSDN学生平均阅读量TOP10图表截图】【截图位置2.7.3-14CSDN作品阅读量TOP10图表截图】步骤5制作标题影响分析图表标题影响分析是本实验中较有业务价值的部分。由于作品内容较为接近标题写法可能成为影响点击和互动的重要因素。实验7-2已经生成了title_feature_analysis表因此本实验可以直接使用该表分析不同关键词的互动效果。标题关键词提升倍率计算公式为提升倍率 avg_interaction / overall_avg如果提升倍率大于1说明包含该关键词的作品平均互动数高于整体平均水平如果提升倍率小于1则说明包含该关键词的作品互动效果低于整体平均水平。图表数据集配置方法解读要点B站标题特征提升倍率条形图标题关键词互动数据集筛选平台B站计算avg_interaction / overall_avg按关键词展示找出B站较有效的标题关键词B站标题特征对比柱状图标题关键词互动数据集筛选平台B站展示各关键词平均互动数并设置整体平均互动水平线比较不同关键词的平均互动差异CSDN标题特征提升倍率条形图标题关键词互动数据集筛选平台CSDN计算avg_interaction / overall_avg按关键词展示找出CSDN较有效的标题关键词CSDN标题特征对比柱状图标题关键词互动数据集筛选平台CSDN展示各关键词平均互动数并设置整体平均互动水平线比较不同关键词在CSDN中的效果【截图位置2.7.3-15B站标题特征提升倍率条形图截图】【截图位置2.7.3-16B站标题特征平均互动数对比图截图】【截图位置2.7.3-17CSDN标题特征提升倍率条形图截图】【截图位置2.7.3-18CSDN标题特征平均互动数对比图截图】步骤6制作趋势分析图表趋势分析用于观察播放量或阅读量随采集日期的变化情况。需要注意的是这里的日期是采集日期不一定是作品发布时间。因此趋势图展示的是截至某个采集日期平台作品累计播放量或阅读量的变化。图表数据集配置方法解读要点B站每日播放量趋势折线图重点平台深度分析数据集筛选平台B站维度日期指标求和(浏览数量)展示B站累计流量变化趋势CSDN每日阅读量趋势折线图重点平台深度分析数据集筛选平台CSDN维度日期指标求和(浏览数量)展示CSDN累计阅读量变化趋势趋势图的解读重点包括曲线是否持续上升、是否出现拐点、是否趋于平稳。如果曲线持续上升说明作品可能存在持续传播效果如果先上升后平稳说明流量可能逐渐达到平台曝光上限如果波动较大则可能受到发布时间、平台推荐机制或个别作品表现的影响。【截图位置2.7.3-19B站每日播放量趋势折线图截图】【截图位置2.7.3-20CSDN每日阅读量趋势折线图截图】步骤7搭建综合仪表盘完成所有图表后将指标卡、排名图、标题影响图和趋势图整合到一个综合仪表盘中。仪表盘顶部放置核心指标卡中部按照B站和CSDN左右分栏展示排名和标题分析底部放置趋势分析图表。这样的布局能够让读者按照“整体情况—平台表现—标题影响—时间趋势”的顺序理解数据。【截图位置2.7.3-21综合仪表盘编辑页面截图】【截图位置2.7.3-22综合仪表盘最终展示效果截图】五、图表解读方法图表类型观察重点分析方向排名图关注前3名和后3名头部代表优秀实践尾部反映常见问题对比图关注不同组之间的差距差距大说明影响因素可能明显差距小说明影响有限分布图关注数据集中区间和异常点判断整体水平是否偏低以及是否存在离群作品趋势图关注曲线方向和拐点判断数据是持续增长、趋于平稳还是波动较大散点图关注两个指标之间的关系判断是否存在正相关、负相关、无相关或异常点六、实验结果分析通过本实验可以从多个维度观察自媒体作品运营情况。核心指标卡展示了整体作品规模、平台覆盖情况和总浏览互动情况使读者能够快速了解本次数据的基本情况。排名图表进一步展示了不同学生和不同作品之间的表现差异有助于发现表现较好的学生和具有代表性的爆款作品。标题影响分析是本实验的重要分析部分。通过比较不同关键词对应的平均互动数和提升倍率可以判断某些标题表达是否更容易获得用户关注。例如如果“实战”或“教程/指南”的提升倍率高于1说明这类标题可能更容易让用户感受到内容的实用价值从而提升点击和互动。但在解释结果时还需要结合样本数量判断避免因为样本过少导致结论不稳定。趋势分析则展示了B站播放量和CSDN阅读量随采集日期变化的情况。如果趋势线持续上升说明作品仍在不断获得浏览如果趋势线逐渐平稳说明作品流量可能已经接近稳定状态。通过趋势图可以进一步判断作品是否具有持续传播效果。七、实验小结本实验完整完成了从数据清洗到特征构建再到可视化探索的全过程。实验7-1通过助睿ETL对原始自媒体数据进行清洗输出了全平台概况表和重点平台内容分析表实验7-2在内容分析表基础上计算互动总数并提取标题关键词特征同时生成关键词级别的汇总表实验7-3则基于这些结果表在助睿BI中制作核心指标卡、排名图、标题影响分析图和趋势图最终形成综合仪表盘。整体来看本实验不仅完成了数据处理流程也体现了完整的数据分析思路先保证数据质量再构建具有业务意义的分析指标最后通过可视化图表提炼运营结论。通过该实验可以更清楚地理解自媒体运营分析中“数据清洗—特征工程—可视化洞察”之间的关系。