用 RSSHub + OpenClaw 搭建个人信息流自动推送系统

Twitter 博主推文 + 深潮文章 → AI 分类总结 → 通过龙虾定时推送

为什么需要这套系统

做投资、搞研究，Twitter 关注了上百个博主，每天产出的内容量非常大。但实际体验很差：

时间线太嘈杂：博主发的内容质量参差不齐，深度分析和随手吐槽混在一起，高价值信息被淹没
刷不过来：一天不看就积压几百条，根本没时间逐条过
碎片化严重：很多博主喜欢发短推、转发、互动，真正有信息量的内容可能只占 10%
错过重要信息：不是每次打开都能刷到关键推文，算法推荐也不靠谱
跨平台割裂：Twitter 上有观点，深潮上有深度文章，来回切换很累

本质上是一个信息过载 + 筛选成本太高的问题。

这套系统的思路：让 AI 替你完成"刷 → 筛 → 读 → 总结"的全流程，你只看精华。

这套系统能做什么

自动抓取：每小时从 Twitter 和深潮 TechFlow 拉取最新内容
AI 总结：高质量内容给详细摘要，水贴直接跳过
分类推送：投资相关和生活杂谈分开通过不同龙虾推送
每日回顾：晚上一份全天要点总结，确保不漏重要信息

全部跑在本地机器上，零月费。

整体架构

信息源               抓取层                调度层              推送层
┌──────────┐   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐
│ Twitter  │──→│ RSSHub       │──→│              │──→│ 龙虾 A        │
│ N 个博主 │   │ (Docker)     │   │  OpenClaw    │   │ (投资/金融)  │
└──────────┘   └──────────────┘   │  Cron 调度   │   └──────────────┘
┌──────────┐   ┌──────────────┐   │      +       │   ┌──────────────┐
│ 深潮     │──→│ Next.js RSC  │──→│  AI 分类总结 │──→│ 龙虾 B        │
│ TechFlow │   │ 接口         │   │              │   │ (科技/生活)  │
└──────────┘   └──────────────┘   └──────────────┘   └──────────────┘

需要准备什么

一台常开的机器（Mac mini / Linux 都行）
Docker
OpenClaw（开源个人 AI 助理框架）
至少一个龙虾（OpenClaw 支持对接多种聊天平台）
一个 Twitter 小号（提供 cookie，保护主号安全）

第一步：部署 RSSHub

RSSHub 是一个开源的 RSS 生成器，能把几百个网站转成 RSS 格式。我们用它来抓 Twitter。

做什么： Docker 一行命令启动，把小号的 cookie 配进去就行。

为什么用小号： Cookie 等于登录态，万一被 Twitter 检测到，封了也不心疼。

第二步：创建 Twitter 私有 List

这是整个方案的关键优化。

问题： 直接逐个抓取 100+ 博主，Twitter 会严重限流——每个请求要等 20 秒以上，100 个人全部超时。

解决： 把所有博主加到一个私有 List 里，通过 RSSHub 的 List 路由一次请求拿到所有人的最新推文（约 70 条）。

怎么加： 用 Twitter 的 GraphQL API 批量添加，写个脚本循环跑，每个用户间隔 1.5 秒避免限流。实测 111 个博主全部成功零失败。

第三步：抓取深潮 TechFlow 文章

问题： 深潮没有文章 RSS。它的 rss.xml 只有快讯（一两句话的短消息），深度文章没法直接订阅。

解决： 深潮是 Next.js 构建的，向文章页发请求时带上 RSC: 1 这个 header，服务端会返回结构化数据。从中可以提取文章列表和正文内容。

正文提取注意： 不同文章的正文格式不一样（直接 HTML / Unicode 转义 / meta description），脚本需要兼容三种格式。实测覆盖率 90%+。

第四步：编写抓取脚本

两个 Python 脚本，逻辑相同：

从数据源拉取最新内容
和本地 seen 文件比对去重
新内容追加到 pending 文件
seen 文件自动清理（保留最近 N 条，防止无限膨胀）

Twitter 脚本额外增加了 cookie 过期检测——抓取失败时写一个 error 标记文件，定时任务检测到后自动通知你换 cookie。

第五步：配置定时任务

用 OpenClaw 的 cron 功能，配 7 个定时任务：

任务	频率	做什么
静默抓取	每小时	跑两个抓取脚本，存 pending，不打扰用户
分类推送	每天 5 次（08/11/14/17/20 点）	读 pending → AI 分类总结 → 投资类推给龙虾 A，其他推给龙虾 B
每日总结	每晚 22:00	综合全天信息，归纳关键主题，给出明日关注

夜间策略： 23 点到早 8 点只抓不推，内容攒到早上一并发送。

分类推送规则

投资龙虾推送的内容：

加密货币行情、交易策略
宏观经济、美联储、利率政策
金融监管动态（SEC 等）
深潮金融类深度文章

生活龙虾推送的内容：

AI / 科技产品动态
社会观察、生活见闻
观点评论、行业杂谈
深潮科技类文章

内容质量分级：

高质量（深度分析、独家消息）→ 2-3 句详细摘要
普通推文 → 一句话概括
水贴 / 广告 → 直接跳过

深潮文章： 单独板块「📝 深潮精选」，每篇附 3-4 句正文摘要，帮你判断是否值得点进去细读。

推送效果示例

分类推送

📰 投资摘要（14:00）

📊 市场动态
• 英伟达盘后大涨7%，GTC大会发布新一代GPU架构（@科技投资笔记）
  https://x.com/...

🔍 深度观点
• 美元指数跌破100，日元走强背后是套息交易平仓（@宏观老王）
  https://x.com/...

📝 深潮精选
• Stripe 如何用 20 亿押注 AI 支付基础设施
  从支付公司到AI时代的金融操作系统，战略转型解析。
  https://www.techflowpost.com/...

每日总结

📋 今日要点回顾

🔥 AI 芯片军备赛升级
英伟达发布新架构，AMD和博通同日回应，算力定价逻辑可能生变...

🔥 日元异动
套息交易平仓潮，多位博主分析对亚太市场的传导路径...

🔭 明日关注
- 美联储会议纪要措辞变化
- 苹果WWDC开发者预览

📎 值得细读
1. Stripe AI支付战略深度分析
2. 全球算力供需格局研报

踩坑记录

逐个博主抓取不可行：100+ 人逐个请求，Twitter 限流到每请求 20 秒，批量全超时。改用 List 路由一次搞定。
Python urllib 调 Twitter API 返回 404：curl 正常但 Python 不行，原因是 urllib 不处理 cookie/redirect。批量加 List 成员最终用 bash + curl 实现。
深潮没有文章 RSS：官方 rss.xml 只有快讯。深度文章通过 Next.js RSC 接口获取，但正文有三种不同格式需要兼容。
Cookie 过期静默失败：RSSHub 抓取失败不会主动报错，必须在脚本层检测并主动告警。
去重文件膨胀：长期运行 seen 文件会越来越大，需要定期清理只保留最近的记录。

可扩展方向

更多信息源：PANews、Odaily 等有 RSS 的媒体可用相同模式接入
多 cookie 轮换：RSSHub 支持多 cookie，降低单号压力
持久化去重：把 /tmp 下的文件迁到持久目录，避免重启后全量重推
关键词过滤：在抓取脚本中加白名单/黑名单，只保留感兴趣的内容
微信公众号：目前没有靠谱的免费方案，等生态成熟后可接入