为什么我见李一舟他可以直接抓取公众号文章内容?
2026-04-30
很正常,你看到的“他可以直接抓公众号文章”,大概率不是因为他用的模型天然比我能读公众号,而是他用的工具链跟我当前这个聊天环境不一样。
核心区别一句话:
我现在是站在云端尝试访问那个公众号链接;他很可能是让本地浏览器、微信客户端、插件或自动化工具在“已登录、真实浏览器环境”里打开并抓取。
一、为什么我这里读不到?
微信公众号文章链接虽然看起来是公开链接:
https://mp.weixin.qq.com/s/xxxx
但实际访问时经常会遇到这些限制:
1. 微信会判断访问环境
它会看:
是不是正常浏览器? 有没有 Cookie? 有没有微信环境? 有没有登录态? 是不是机器人访问? 请求头是否正常? 访问频率是否异常?
我这里的网页读取环境,通常没有你的微信登录态,也没有你本地浏览器 Cookie,更不是微信内置浏览器。
所以就可能出现:
403 不可访问 安全校验 内容为空 需要环境验证 反爬拦截
这不是文章不存在,而是我这个访问通道拿不到。
二、那为什么李一舟可以?
可能有几种情况。
1. 他用的是本地浏览器自动化
比如类似:
Playwright Puppeteer Selenium 浏览器插件 桌面 Agent 小龙虾这类 GUI Agent
这种方式不是从云端直接抓,而是让你的电脑打开真实浏览器。
真实浏览器里面有:
Cookie 登录态 正常 User-Agent 真实渲染环境 微信页面 JS 本地缓存
所以更容易看到正文。
这就像:
我是站在门外敲门;
他是拿着你已经开门的浏览器进去看。
2. 他可能用的是微信客户端或微信内置浏览器
如果文章是从微信里打开的,微信环境本身天然更可信。
比如:
桌面微信打开文章 ↓ 微信内置浏览器显示正文 ↓ 自动截图 / 复制 / 提取 DOM / OCR / 大模型识别
这和我直接访问链接完全不是一个难度。
3. 他可能用了公众号文章解析服务
市面上有一些工具可以解析公众号文章,比如:
文章采集工具 公众号监测工具 爆文库 新榜 / 清博 / 西瓜数据类平台 浏览器插件 第三方 API
这些工具可能自己长期维护了反爬策略、缓存库、代理池、登录态、指纹浏览器等。
所以他演示时看起来像“一键抓取”,背后可能是一整套商业采集系统。
4. 他可能抓的是网页里的 HTML 结构
微信公众号文章正文通常在网页 HTML 里有结构化内容,比如正文区域、标题、作者、发布时间等。
如果浏览器能正常打开,程序就可以从页面里提取:
标题 公众号名 发布时间 正文 HTML 图片链接 音频/视频信息
这比截图 OCR 稳很多。
但前提是:浏览器必须能正常打开并加载文章。
5. 他也可能不是“实时抓”,而是读取缓存
有些工具不是当场访问公众号,而是从自己的数据库里拿。
比如某篇爆文已经被平台收录过,它就直接返回缓存内容。
看起来像是:
输入公众号链接 ↓ 马上出现全文
但本质可能是:
以前已经采集过
三、这和“小龙虾 Skills”有什么关系?
你这个方向其实刚好适合小龙虾。
因为小龙虾是在你电脑上运行的,它可以走本地环境:
桌面微信 真实鼠标点击 真实页面截图 真实浏览器 当前模型 本地文件 你的登录态
所以你要实现李一舟那种效果,最佳路线不是让我云端硬读公众号链接,而是让小龙虾做:
打开微信文章 ↓ 截图 / 复制链接 / 复制正文 / 读取页面 ↓ 把内容交给模型 ↓ 生成结构化结果
也就是说,你应该把能力拆成两层:
小龙虾负责“进入页面、拿到内容” 模型负责“理解内容、总结分析、筛选爆文”
这就很对味。
四、你现在最适合的技术路线
我建议不要再走“公众号链接直接云端抓取”这条路,而是走这条:
路线 A:微信客户端截图 + 多模态模型识别
适合你现在已经做到的流程。
微信搜一搜 ↓ 进入公众号主页 ↓ 翻页 ↓ 截图 ↓ 发给小龙虾当前模型识别日期、标题、阅读量 ↓ 符合条件就点进文章 ↓ 滚动截图全文 ↓ 模型总结文章
优点:最符合你现在的小龙虾技能。
缺点:成本略高,截图多。
路线 B:打开文章后复制链接,再交给本地浏览器提取
微信里打开文章 ↓ 右上角复制链接 ↓ 用本地浏览器打开 ↓ 本地 Playwright 读取 HTML ↓ 提取标题、正文、发布时间
优点:如果能打开,正文提取最稳。
缺点:公众号页面有时仍会反爬。
路线 C:截图全文,不强求 HTML
打开文章 ↓ 从头滚到底 ↓ 保存连续截图 ↓ 多模态模型读图总结
优点:不怕 HTML 抓不到。
缺点:原文结构化程度不如 HTML。
五、为什么不是“模型直接读链接”?
因为模型不是万能浏览器。
模型本身擅长:
理解文本 理解图片 总结 判断 分类 推理 生成
但不一定擅长:
绕过反爬 保持登录态 模拟真实浏览器 处理微信安全校验 访问动态网页 读取需要 Cookie 的页面
所以李一舟那类演示,本质上通常是:
模型 + 浏览器自动化 + 本地登录环境 + 解析器/插件
而不是单靠模型本身。
六、对你这个项目的结论
你现在不要纠结“为什么我这里读不到公众号链接”。真正应该做的是:
让小龙虾在你的电脑里打开微信文章,把页面截图或正文拿下来,再交给当前模型分析。
这样就和李一舟演示的底层逻辑接近了。
我建议下一步把你的 skills 升级成:
1. 默认搜索“粥左罗” 2. 进入公众号主页 3. 翻页最多 10 次 4. 每页截图交给小龙虾当前模型识别日期 5. 识别到目标日期范围内的文章 6. 点击进入文章 7. 滚动截图全文 8. 把全文截图交给模型总结 9. 保存 markdown / json / 图片证据
一句话:不是让云端模型去抓公众号,而是让本地小龙虾把公众号页面“搬到模型眼前”。
发表评论: