Google 发布 Flash Lite：网页正在被 AI 重新发明

张开发

• 2026/4/16 17:02:27 • 15 分钟阅读

分享文章

你有没有遇到过这种情况在网上看到一篇文章的标题点进去弹出一个订阅弹窗关掉又弹出一个广告关掉。页面还在转圈文字还没出来底部又弹出一个安装 App的提示。你把页面关了。这件事每天在全球发生无数次。Google 说他们找到了一个解法。它叫 Flash Lite。一、不是压缩是重新生成Flash Lite 刚发布的时候很多报道把它描述成一个网页压缩工具——把大页面变小、变快、方便阅读。这个描述不够准确。Flash Lite 不是在压缩网页。它是在用 AI 重新生成一个网页。原始网页有 5MBFlash Lite 版本 200KB不是删掉了 4.8MB 的内容。而是 AI 理解了这篇文章在说什么然后用更干净的结构重新呈现出来。广告没了。追踪脚本没了。Cookie 弹窗没了。页面加载从平均 15 秒变成了瞬间。Google 做了一个内容过滤器把网页的商业层全部剥掉只留下内容层。二、技术上怎么实现的Flash Lite 的蒸馏 pipeline 分六步原始 HTML ↓ 1. DOM 解析把 HTML 转成可操作的 DOM 树识别每个节点的内容类型 ↓ 2. 内容分类Content Classification 用 ML 模型对每个 DOM 节点打标签isAd、isTracking、isNavigation、isContent、isComment ↓ 3. 核心内容提取Core Extraction 根据标签过滤只保留 isContent 节点同时保留页面结构的语义信息 ↓ 4. 语义重写Semantic Rewrite 对保留的内容做结构优化统一字体层级、修复破碎的 HTML 结构、补充缺失的 meta 信息 ↓ 5. 性能优化Performance Optimization 内联关键 CSS、懒加载非关键资源、压缩到 200KB 以内 ↓ Flash Lite 版本关键的数字单次蒸馏延迟 500ms蒸馏结果缓存24 小时有效蒸馏失败率 5%回退机制是透明的——如果蒸馏失败用户感知不到直接回落到原始网页。三、token 消耗比你想的少得多这是最让我意外的数据。Google 披露了 Flash Lite 蒸馏一次页面的 token 消耗几千个 token。几千个是什么概念一个普通用户在 Qwen 2.5-72B 这类大模型上问一个hi上下文窗口撑到 40k token——光是把 40k 的上下文装进去就要烧掉 40k token。蒸馏一个 5MB 的完整网页消耗比问一句hi还少。这背后的原因是Flash Lite 用的是一个专门训练出来的蒸馏专用模型不是通用 LLM。通用 LLM 的 token 消耗贵在两个地方第一上下文窗口的隐性消耗。你问hi模型并不是只处理hi这两个 token。40k 的窗口意味着每次请求至少按 40k token 计费。Flash Lite 蒸馏一次页面消耗是实际内容 token 数不是上下文窗口数。第二输出 token 数的差异。蒸馏生成的是 HTML不是自然语言。HTML 是高度结构化的标记语言同样信息量的 HTML token 数远少于自然语言 token 数。HN 上有人算了这样一笔账如果 Flash Lite 每次蒸馏消耗 5k token按照 Google 的 API 价格大概是 0.01 美元一次。对于一个日均 100 万次蒸馏的页面每天的成本是 10 美元。Flash Lite 演示的不是压缩网页是**用极低 cost 重新生成内容这件事在工程上已经可行了。**互联网时代内容分发的边际成本趋近于零复制一份内容的成本几乎为零。AI 时代更进一步生产一份干净内容的边际成本也趋近于零了。四、速度只是副产品真正的价值是干净当然200KB 的页面加载会快很多。Google 的数据显示平均加载时间从 15 秒降到了毫秒级。但这不是最重要的。最重要的是你看到的是一个没有广告没有追踪没有弹窗的页面。根据 HTTPArchive 的统计2025 年全球网页的平均体积是 5MB 以上其中广告和追踪相关的资源占到了 30% 到 50%。一个 5MB 的网页有 2MB 是在加载广告和追踪脚本。换句话说你为 2MB 的广告付了流量费还换来了一个糟糕的阅读体验。Flash Lite 把这件事翻过来了——它让用户为内容本身付流量费而不是为广告付。但这里有一个对内容创作者来说更敏感的问题如果读者通过 Flash Lite 读到了我的文章他是我的独立访客吗他的 Cookie 还在吗他有没有被计入我的流量统计Google 目前的答案是Flash Lite 版本的流量不归原始网站。读者点击才算一次有效访问。这意味着创作内容的人在 Flash Lite 的生态里变成了一家免费的内容供应商。五、Publishers 为什么慌了Flash Lite 发布后Publishers 的批评很直接用户通过 Google 的 AI 看到了内容但没有访问原始网站。流量归谁 attribution 怎么算订阅怎么续这个问题是真实的。Google 在蒸馏页面里保留了Original Source的水印和链接。Google 认为这能保证 attribution。但 Publishers 的质疑是这个水印的权重远远不如一个真实的 URL 访问。Google 统计的有效访问里蒸馏页面的停留时长、滚动深度、互动行为——这些数据归谁以我的博客为例。我每天花三到四个小时写一篇文章发在独立博客和公众号。博客用 Cloudflare Pages 托管公众号通过编辑器同步。如果读者通过 Flash Lite 读到了我这篇文章——他们看到了内容但我的网站没有收到访问。我的流量统计少了一次Google 的流量多了一次。更糟糕的是Google 知道读者在这篇文章上停留了多久、滚动了多深、哪些段落被跳过了。这些数据我没有。Google 已经做了一个最大程度的妥协保留来源链接、透明的回退机制、Publisher 可以选择退出蒸馏通过设置响应头。但商业上的问题技术解决不了。流量归谁、广告归谁、订阅转化归谁——这些问题不是 HTTP 头能定义的。六、对独立创作者意味着什么说说我自己的处境。我写博客快四年了。独立博客是主战场公众号是分发渠道。两个平台两套逻辑。独立博客的核心数据是真实的访客数、停留时长、滚动深度每个数字都对应一个真实的浏览器、一次真实的访问。我可以在 Cloudflare Analytics 里看到每一个访客的来源、每一个页面的跳出率、每一次订阅的转化路径。公众号的核心数据是模糊的平台给的是曝光量和打开率真正的读者画像藏在平台的黑盒子里。Flash Lite 这件事让我开始认真想一个问题如果读者通过 AI 过滤器读到了我的内容而这个 AI 过滤器不归我管控——那么我创作的内容到底算谁的价值Flash Lite 给我的一个直接的行动指引是把独立博客做成值得直接访问的地方而不只是公众号的内容备份。公众号在 Flash Lite 的逻辑下显然比独立博客更容易被蒸馏。因为公众号的内容是高度结构化的——标题、段落、图片、引用——AI 蒸馏几乎零损失。但独立博客不一样。独立博客有域名、有品牌、有完整的流量数据、有自定义的交互逻辑。如果我的博客加载够快、内容够好、体验够独特——读者没有理由不直接访问原始网站。Flash Lite 让为什么要去你的网站这个问题变得必须回答。七、一个更大的趋势Flash Lite 不是唯一一个在做内容层和商业层分离的工具。Claude 的 Artifacts、OpenAI 的 Canvas、Anthropic 的 MCP——这些工具都在做同一件事让用户看到最终结果而不是底层的实现过程。Flash Lite 把广告和追踪剥掉了。Claude Code 把终端和编辑器剥掉了。MCP 把工具接口剥掉了。这意味着用户越来越不需要关心内容是怎么生产、怎么传输、怎么变现的他们只关心我能不能最快速地得到我需要的东西。内容生产者在这种趋势下的选择只有两个要么成为被 AI 过滤的原始素材要么成为用户直接消费的那个结果。Flash Lite 加速了这个分化。八、站哪边写这篇文章的时候我问了问自己这个问题。作为一个内容消费者我当然希望所有网页都变成 Flash Lite 版本——秒加载、无广告、没弹窗。但作为一个写东西的人我知道如果所有人都用 AI 过滤内容我这个写的人就必须更努力地证明直接访问原始网站是值得的。这个矛盾没有标准答案。但有一点是确定的Flash Lite 不是最后一个做这件事的工具也不会是最后一个。内容层和商业层分离的趋势一旦开始就不会回头。问题是在这个趋势里你是内容消费者还是内容生产者你选择站在哪边参考资料1. Google Labs — “Flash Lite: Fast, Clean Web Experiences”Google 官方发布博客详细介绍 Flash Lite 的技术实现和应用场景。2. HTTPArchive — State of the Web 2025全球网页平均体积和广告/追踪资源占比的统计数据。

Google 发布 Flash Lite：网页正在被 AI 重新发明

最新文章

AppleRa1n终极指南：iOS 15-16离线激活锁绕过完整教程

利用pandas高效处理复杂分隔符的txt数据并导出为csv

openEuler智能调度器深度评测：AI负载下的多核调度与实时响应优化

告别重复劳动：用Python+pywinauto打造你的微信个人助理（自动回复/收款/定时发消息）

DeepSeek-R1-Distill-Qwen-7B问题解决：Ollama部署常见问题，手把手教你排查

get_iplayer安装全攻略：Linux、macOS、Windows三平台详细教程

推荐文章

手把手教你用NUCLEO-H743ZI2连接Arduino模块：从硬件选型到I2C通信实战

从‘能用’到‘好用’：我用这5个步骤，为我的智能小车电机选到了最合适的栅极驱动芯片

11.os模块、编解码、文件操作、try-except语句详解

公路车桥耦合振动程序（考虑路面不平整度）——两套模型介绍及操作指南

Umi-OCR完全指南：如何利用开源OCR工具实现高效文字识别

从理论到实践：基于MATLAB comm.RayTracingChannel的室内多径信道仿真全解析

相关文章

2025 AI写作革命：自定义API打造专属小说生成器

用GDAL和PyTorch搞定多光谱.tif图像训练Faster R-CNN（避坑全记录）

HC-SR501人体红外传感器：从参数解析到树莓派实战应用

2026年三维扫描仪选购指南：专业厂家如何选，这几点是关键

微信小程序项目目录结构优化指南：从tabBar报错看最佳实践

探索Feishin：打造个人专属的自托管音乐播放解决方案

分享文章

更多文章

[Windows系统]：DLL注入工具Xenos的技术实践指南

终极指南：5分钟掌握网易云音乐NCM格式转换，解锁音频自由播放

Ostrakon-VL处理网络协议：从数据包捕获文件可视化网络流量

Qwen3-VL-2B实战：快速搭建一个能“看懂”图片的智能聊天机器人

再生胶制品生产中常用的延迟硫化促进剂有哪些

DeepSeek-R1-Distill-Llama-8B保姆级部署教程：3步搞定本地推理服务

JVM解析

通义千问1.5-1.8B-Chat-GPTQ-Int4 WebUI部署教程：Ubuntu 20。04服务器环境一键配置

Ostrakon-VL-8B实战：模拟互联网产品A/B测试中的视觉效果分析

Nunchaku-flux-1-dev工业设计应用：辅助SolidWorks概念渲染图生成

GLM-4.1V-9B-Base开源大模型：面向中文场景优化的轻量级视觉理解基座

从零开始：nli-distilroberta-base模型部署与Python入门实践