无尘阁日记

无尘阁日记

为什么我见李一舟他可以直接抓取公众号文章内容?
2026-04-30

很正常,你看到的“他可以直接抓公众号文章”,大概率不是因为他用的模型天然比我能读公众号,而是他用的工具链跟我当前这个聊天环境不一样

核心区别一句话:

我现在是站在云端尝试访问那个公众号链接;他很可能是让本地浏览器、微信客户端、插件或自动化工具在“已登录、真实浏览器环境”里打开并抓取。


一、为什么我这里读不到?

微信公众号文章链接虽然看起来是公开链接:

https://mp.weixin.qq.com/s/xxxx

但实际访问时经常会遇到这些限制:

1. 微信会判断访问环境

它会看:

是不是正常浏览器?
有没有 Cookie?
有没有微信环境?
有没有登录态?
是不是机器人访问?
请求头是否正常?
访问频率是否异常?

我这里的网页读取环境,通常没有你的微信登录态,也没有你本地浏览器 Cookie,更不是微信内置浏览器。

所以就可能出现:

403
不可访问
安全校验
内容为空
需要环境验证
反爬拦截

这不是文章不存在,而是我这个访问通道拿不到


二、那为什么李一舟可以?

可能有几种情况。

1. 他用的是本地浏览器自动化

比如类似:

Playwright
Puppeteer
Selenium
浏览器插件
桌面 Agent
小龙虾这类 GUI Agent

这种方式不是从云端直接抓,而是让你的电脑打开真实浏览器。

真实浏览器里面有:

Cookie
登录态
正常 User-Agent
真实渲染环境
微信页面 JS
本地缓存

所以更容易看到正文。

这就像:

我是站在门外敲门;
他是拿着你已经开门的浏览器进去看。


2. 他可能用的是微信客户端或微信内置浏览器

如果文章是从微信里打开的,微信环境本身天然更可信。

比如:

桌面微信打开文章
↓
微信内置浏览器显示正文
↓
自动截图 / 复制 / 提取 DOM / OCR / 大模型识别

这和我直接访问链接完全不是一个难度。


3. 他可能用了公众号文章解析服务

市面上有一些工具可以解析公众号文章,比如:

文章采集工具
公众号监测工具
爆文库
新榜 / 清博 / 西瓜数据类平台
浏览器插件
第三方 API

这些工具可能自己长期维护了反爬策略、缓存库、代理池、登录态、指纹浏览器等。

所以他演示时看起来像“一键抓取”,背后可能是一整套商业采集系统。


4. 他可能抓的是网页里的 HTML 结构

微信公众号文章正文通常在网页 HTML 里有结构化内容,比如正文区域、标题、作者、发布时间等。

如果浏览器能正常打开,程序就可以从页面里提取:

标题
公众号名
发布时间
正文 HTML
图片链接
音频/视频信息

这比截图 OCR 稳很多。

但前提是:浏览器必须能正常打开并加载文章。


5. 他也可能不是“实时抓”,而是读取缓存

有些工具不是当场访问公众号,而是从自己的数据库里拿。

比如某篇爆文已经被平台收录过,它就直接返回缓存内容。

看起来像是:

输入公众号链接
↓
马上出现全文

但本质可能是:

以前已经采集过

三、这和“小龙虾 Skills”有什么关系?

你这个方向其实刚好适合小龙虾。

因为小龙虾是在你电脑上运行的,它可以走本地环境:

桌面微信
真实鼠标点击
真实页面截图
真实浏览器
当前模型
本地文件
你的登录态

所以你要实现李一舟那种效果,最佳路线不是让我云端硬读公众号链接,而是让小龙虾做:

打开微信文章
↓
截图 / 复制链接 / 复制正文 / 读取页面
↓
把内容交给模型
↓
生成结构化结果

也就是说,你应该把能力拆成两层:

小龙虾负责“进入页面、拿到内容”
模型负责“理解内容、总结分析、筛选爆文”

这就很对味。


四、你现在最适合的技术路线

我建议不要再走“公众号链接直接云端抓取”这条路,而是走这条:

路线 A:微信客户端截图 + 多模态模型识别

适合你现在已经做到的流程。

微信搜一搜
↓
进入公众号主页
↓
翻页
↓
截图
↓
发给小龙虾当前模型识别日期、标题、阅读量
↓
符合条件就点进文章
↓
滚动截图全文
↓
模型总结文章

优点:最符合你现在的小龙虾技能。
缺点:成本略高,截图多。


路线 B:打开文章后复制链接,再交给本地浏览器提取

微信里打开文章
↓
右上角复制链接
↓
用本地浏览器打开
↓
本地 Playwright 读取 HTML
↓
提取标题、正文、发布时间

优点:如果能打开,正文提取最稳。
缺点:公众号页面有时仍会反爬。


路线 C:截图全文,不强求 HTML

打开文章
↓
从头滚到底
↓
保存连续截图
↓
多模态模型读图总结

优点:不怕 HTML 抓不到。
缺点:原文结构化程度不如 HTML。


五、为什么不是“模型直接读链接”?

因为模型不是万能浏览器。

模型本身擅长:

理解文本
理解图片
总结
判断
分类
推理
生成

但不一定擅长:

绕过反爬
保持登录态
模拟真实浏览器
处理微信安全校验
访问动态网页
读取需要 Cookie 的页面

所以李一舟那类演示,本质上通常是:

模型 + 浏览器自动化 + 本地登录环境 + 解析器/插件
而不是单靠模型本身。


六、对你这个项目的结论

你现在不要纠结“为什么我这里读不到公众号链接”。真正应该做的是:

让小龙虾在你的电脑里打开微信文章,把页面截图或正文拿下来,再交给当前模型分析。

这样就和李一舟演示的底层逻辑接近了。

我建议下一步把你的 skills 升级成:

1. 默认搜索“粥左罗”
2. 进入公众号主页
3. 翻页最多 10 次
4. 每页截图交给小龙虾当前模型识别日期
5. 识别到目标日期范围内的文章
6. 点击进入文章
7. 滚动截图全文
8. 把全文截图交给模型总结
9. 保存 markdown / json / 图片证据

一句话:不是让云端模型去抓公众号,而是让本地小龙虾把公众号页面“搬到模型眼前”。