博客文章发布前的自动 QC —— 6 个月零错误发布的秘诀

2 min read · 408 words

实用技巧 / 博客运营 / Python · 自动化

约 2,300 字

当运营超过 200 篇博客文章时，即使人工进行内容审核，也难免会有所遗漏。比如 Markdown 残留（加粗直接暴露）、违反表情符号（Emoji）白名单、缺失来源、空表格、残留的盒子样式等。因此，我们专门在文章提交给博客 API 之前，设计了一个自动检查和修正的步骤。

本文将详细介绍这一自动 QC 系统的设计初衷、工作原理、实际效果以及验证方法。我们提炼了最核心的内容，以便面临同样困扰的运营人员只需一页代码就能轻松复刻。

开发初衷

在最初的第一年里，我们经常遇到两类事故。

第一类是模型输出残留。使用 LLM 生成正文时，加粗、## 小标题、--- 等 Markdown 标记经常在未转换为 HTML 的情况下残留下来。在上线后的页面上，星号等符号会直接暴露。

第二类是刚写完时完好无损，但在发布前被某个 hook 搞砸的情况。例如，某个函数在正文中多打开了一个

却未能闭合，导致卡片/侧边栏布局崩溃；或者自动插入价格表时只生成了一个空



工作原理

检查站由两个阶段组成。

第一阶段 sanitize —— 无条件修正
接收 HTML 并统一应用以下规则：


清除危险的行内样式（如 width:800px、margin-left:-30px、position:absolute 等）
移除  标签的固定 width/height 属性 → 保持响应式布局
将残留的 Markdown 标记转换为 HTML（X → X，任意 --- → ）
清除违反表情符号政策的字符（U+2600–27BF、U+1F000–1FAFF 范围）
扁平化盒子样式（带有 border、box-shadow、padding>20px 的 ）
在正文容器中强制插入一行安全 CSS（max-width:100%、overflow-wrap:anywhere）


这一阶段是无需人工判断的机械化操作。我们确保无论什么文章，处理后的结果都是一致的。

第二阶段 quality gate —— 未通过则拦截发布
自动检查那些人工一眼就能看出遗漏的问题。如果未通过，将直接拒绝发布。


正文字数少于 600 字 → fail
 少于 3 个 → fail（指南/对比类文章）
图片为 0 张 → fail（不限文章类型）
无 

实际效果

引入该系统 6 个月后的成果：


Markdown 残留暴露事故：引入前平均每月 4 起 → 引入后 0 起
左右内容被截断：平均每月 7 起 → 0 起
空表格/空图表正文：平均每月 3 起 → 0 起
被拦截发布的文章：累计 38 篇（均由作者修改后重新成功发布）


被拦截的 38 篇文章并没有丢失。作者只是提前知晓了问题，在润色修改后重新尝试，最终全部正常发布。拦截原因的分布为：缺失来源 41% / 字数不足 26% / 零图片 21% / 其他 12%。

验证方法

这是我们在建立检查站后进行的验证工作。

黄金数据集（Golden Set）回归测试 —— 我们收集了过去曾发生过事故的 41 篇文章的原稿，做成了黄金数据集。在让它们通过 sanitize + quality gate 时，自动对比 41 篇文章的事故模式是否全部消失。最初通过率为 39/41。针对失败的 2 篇分析后，我们强化了正则表达式，最终将通过率提升至 41/41。

线上抽样检查（Live spot-check） —— 在应用全新 sanitize 的第一周，我们从发布的 18 篇文章中随机抽取了 8 篇，直接抓取（fetch）了线上页面。我们检查了在桌面端 1280px 和移动端 360px 两种宽度下，是否会出现水平滚动条、文字是否超出容器、图片是否破损。结果 8/8 全部正常。

双重过滤幂等性（Double pass idempotency） —— 验证将已经通过一次 sanitize 的输出结果再次进行 sanitize 时，输出是否保持一致。这是为了防止发布钩子链（publish hook chain）重复运行而进行的验证。结果 100/100 完全一致。

如何动手实现

与其生搬硬套全部代码，不如根据您自己的环境，借鉴其中最核心的一两个点。


import re

def sanitize_pre_publish(html: str) -> tuple[str, list[str]]:
 fixes = []
 # 移除危险的行内宽度
 html, n = re.subn(r'width\s*:\s*(?:[4-9]\d{2}|[1-9]\d{3,})px\s*;?', '', html)
 if n: fixes.append('strip_wide_width')
 # Markdown 残留 → HTML
 html, n = re.subn(r'\*\*(.+?)\*\*', r'<strong>\1</strong>', html)
 if n: fixes.append('md_bold')
 # 清除表情符号（必要时）
 html, n = re.subn(r'[\U0001F300-\U0001FAFF]', '', html)
 if n: fixes.append('strip_emoji')
 return html, fixes

def quality_gate(html: str, post_type: str) -> tuple[bool, list[str]]:
 fails = []
 text = re.sub(r'<[^>]+>', '', html)
 if len(text.replace(' ', '')) < 600: fails.append('too_short')
 if html.count('<h2') < 3 and post_type in ('howto', 'compare'): fails.append('few_h2')
 if '<img' not in html: fails.append('no_image')
 if 'TODO' in html or 'REDACTED' in html: fails.append('placeholder')
 return (len(fails) == 0), fails


只需在发布前的最后一个环节调用这两个函数即可。如果 quality_gate 返回 fail，则拦截发布并将原因反馈给相关人员。而 sanitize 处理后的 HTML 输出，直接传递给发布 API 即可。

总而言之，就是“在发布前设立一个检查站，自动拦截所有事故”。这样一来，过去人工每次审核所花费的时间将被彻底省去。

TSToolSignal Pro Editorial TeamIndependent SaaS reviews · curated for small business
We test the tools we recommend, document our methodology, and never accept payment for placement. Comparisons are based on hands-on trials, pricing data refreshed quarterly, and feedback from small-business operators in the field.
Spotted an inaccuracy? Tell us — we update articles when the underlying tools change.

Related ToolSignal Guides
Use these guides to compare the next decision before you buy or switch software.

small business software stack framework (cluster pillar)
business software comparison framework (comparison framework)
QC automático justo antes de publicar en el blog: el secreto detrás de 0 publicaciones erróneas en 6 meses (related guide)
ブログ記事公開直前の自動QC — 6ヶ月間誤公開0件の秘密 (related guide)
Automated QC Just Before Blog Publishing — The Secret to 0 Publishing Errors in 6 Months (related guide)



Category Coverage Notice
This article follows our label-specific editorial criteria. Details:
다국어 coverage rule

博客文章发布前的自动 QC —— 6 个月零错误发布的秘诀

开发初衷

工作原理

少于 3 个 → fail（指南/对比类文章）

实际效果

验证方法

如何动手实现

Related ToolSignal Guides

문의하기 양식