为什么我见李一舟他可以直接抓取公众号文章内容？
2026-04-30

很正常，你看到的“他可以直接抓公众号文章”，大概率不是因为他用的模型天然比我能读公众号，而是他用的工具链跟我当前这个聊天环境不一样。

核心区别一句话：

我现在是站在云端尝试访问那个公众号链接；他很可能是让本地浏览器、微信客户端、插件或自动化工具在“已登录、真实浏览器环境”里打开并抓取。

一、为什么我这里读不到？

微信公众号文章链接虽然看起来是公开链接：

https://mp.weixin.qq.com/s/xxxx

但实际访问时经常会遇到这些限制：

1. 微信会判断访问环境

它会看：

是不是正常浏览器？
有没有 Cookie？
有没有微信环境？
有没有登录态？
是不是机器人访问？
请求头是否正常？
访问频率是否异常？

我这里的网页读取环境，通常没有你的微信登录态，也没有你本地浏览器 Cookie，更不是微信内置浏览器。

所以就可能出现：

403
不可访问
安全校验
内容为空
需要环境验证
反爬拦截

这不是文章不存在，而是我这个访问通道拿不到。

二、那为什么李一舟可以？

可能有几种情况。

1. 他用的是本地浏览器自动化

比如类似：

Playwright
Puppeteer
Selenium
浏览器插件
桌面 Agent
小龙虾这类 GUI Agent

这种方式不是从云端直接抓，而是让你的电脑打开真实浏览器。

真实浏览器里面有：

Cookie
登录态
正常 User-Agent
真实渲染环境
微信页面 JS
本地缓存

所以更容易看到正文。

这就像：

我是站在门外敲门；
他是拿着你已经开门的浏览器进去看。

2. 他可能用的是微信客户端或微信内置浏览器

如果文章是从微信里打开的，微信环境本身天然更可信。

比如：

桌面微信打开文章
↓
微信内置浏览器显示正文
↓
自动截图 / 复制 / 提取 DOM / OCR / 大模型识别

这和我直接访问链接完全不是一个难度。

3. 他可能用了公众号文章解析服务

市面上有一些工具可以解析公众号文章，比如：

文章采集工具
公众号监测工具
爆文库
新榜 / 清博 / 西瓜数据类平台
浏览器插件
第三方 API

这些工具可能自己长期维护了反爬策略、缓存库、代理池、登录态、指纹浏览器等。

所以他演示时看起来像“一键抓取”，背后可能是一整套商业采集系统。

4. 他可能抓的是网页里的 HTML 结构

微信公众号文章正文通常在网页 HTML 里有结构化内容，比如正文区域、标题、作者、发布时间等。

如果浏览器能正常打开，程序就可以从页面里提取：

标题
公众号名
发布时间
正文 HTML
图片链接
音频/视频信息

这比截图 OCR 稳很多。

但前提是：浏览器必须能正常打开并加载文章。

5. 他也可能不是“实时抓”，而是读取缓存

有些工具不是当场访问公众号，而是从自己的数据库里拿。

比如某篇爆文已经被平台收录过，它就直接返回缓存内容。

看起来像是：

输入公众号链接
↓
马上出现全文

但本质可能是：

以前已经采集过

三、这和“小龙虾 Skills”有什么关系？

你这个方向其实刚好适合小龙虾。

因为小龙虾是在你电脑上运行的，它可以走本地环境：

桌面微信
真实鼠标点击
真实页面截图
真实浏览器
当前模型
本地文件
你的登录态

所以你要实现李一舟那种效果，最佳路线不是让我云端硬读公众号链接，而是让小龙虾做：

打开微信文章
↓
截图 / 复制链接 / 复制正文 / 读取页面
↓
把内容交给模型
↓
生成结构化结果

也就是说，你应该把能力拆成两层：

小龙虾负责“进入页面、拿到内容”
模型负责“理解内容、总结分析、筛选爆文”

这就很对味。

四、你现在最适合的技术路线

我建议不要再走“公众号链接直接云端抓取”这条路，而是走这条：

路线 A：微信客户端截图 + 多模态模型识别

适合你现在已经做到的流程。

微信搜一搜
↓
进入公众号主页
↓
翻页
↓
截图
↓
发给小龙虾当前模型识别日期、标题、阅读量
↓
符合条件就点进文章
↓
滚动截图全文
↓
模型总结文章

优点：最符合你现在的小龙虾技能。
缺点：成本略高，截图多。

路线 B：打开文章后复制链接，再交给本地浏览器提取

微信里打开文章
↓
右上角复制链接
↓
用本地浏览器打开
↓
本地 Playwright 读取 HTML
↓
提取标题、正文、发布时间

优点：如果能打开，正文提取最稳。
缺点：公众号页面有时仍会反爬。

路线 C：截图全文，不强求 HTML

打开文章
↓
从头滚到底
↓
保存连续截图
↓
多模态模型读图总结

优点：不怕 HTML 抓不到。
缺点：原文结构化程度不如 HTML。

五、为什么不是“模型直接读链接”？

因为模型不是万能浏览器。

模型本身擅长：

理解文本
理解图片
总结
判断
分类
推理
生成

但不一定擅长：

绕过反爬
保持登录态
模拟真实浏览器
处理微信安全校验
访问动态网页
读取需要 Cookie 的页面

所以李一舟那类演示，本质上通常是：

模型 + 浏览器自动化 + 本地登录环境 + 解析器/插件
而不是单靠模型本身。

六、对你这个项目的结论

你现在不要纠结“为什么我这里读不到公众号链接”。真正应该做的是：

让小龙虾在你的电脑里打开微信文章，把页面截图或正文拿下来，再交给当前模型分析。

这样就和李一舟演示的底层逻辑接近了。

我建议下一步把你的 skills 升级成：

1. 默认搜索“粥左罗”
2. 进入公众号主页
3. 翻页最多 10 次
4. 每页截图交给小龙虾当前模型识别日期
5. 识别到目标日期范围内的文章
6. 点击进入文章
7. 滚动截图全文
8. 把全文截图交给模型总结
9. 保存 markdown / json / 图片证据

一句话：不是让云端模型去抓公众号，而是让本地小龙虾把公众号页面“搬到模型眼前”。

无尘阁日记

无尘阁日记

为什么我见李一舟他可以直接抓取公众号文章内容？
2026-04-30

一、为什么我这里读不到？

1. 微信会判断访问环境

二、那为什么李一舟可以？

1. 他用的是本地浏览器自动化

2. 他可能用的是微信客户端或微信内置浏览器

3. 他可能用了公众号文章解析服务

4. 他可能抓的是网页里的 HTML 结构

5. 他也可能不是“实时抓”，而是读取缓存

三、这和“小龙虾 Skills”有什么关系？

四、你现在最适合的技术路线

路线 A：微信客户端截图 + 多模态模型识别

路线 B：打开文章后复制链接，再交给本地浏览器提取

路线 C：截图全文，不强求 HTML

五、为什么不是“模型直接读链接”？

六、对你这个项目的结论

为什么我见李一舟他可以直接抓取公众号文章内容？ 2026-04-30

一、为什么我这里读不到？

1. 微信会判断访问环境

二、那为什么李一舟可以？

1. 他用的是本地浏览器自动化

2. 他可能用的是微信客户端或微信内置浏览器

3. 他可能用了公众号文章解析服务

4. 他可能抓的是网页里的 HTML 结构

5. 他也可能不是“实时抓”，而是读取缓存

三、这和“小龙虾 Skills”有什么关系？

四、你现在最适合的技术路线

路线 A：微信客户端截图 + 多模态模型识别

路线 B：打开文章后复制链接，再交给本地浏览器提取

路线 C：截图全文，不强求 HTML

五、为什么不是“模型直接读链接”？

六、对你这个项目的结论

为什么我见李一舟他可以直接抓取公众号文章内容？
2026-04-30