← 返回首页

用 RSSHub + OpenClaw 搭建个人信息流自动推送系统

Twitter 博主推文 + 深潮文章 → AI 分类总结 → 通过龙虾定时推送

为什么需要这套系统

做投资、搞研究,Twitter 关注了上百个博主,每天产出的内容量非常大。但实际体验很差:

本质上是一个信息过载 + 筛选成本太高的问题。

这套系统的思路:让 AI 替你完成"刷 → 筛 → 读 → 总结"的全流程,你只看精华。

这套系统能做什么

全部跑在本地机器上,零月费。

整体架构

信息源               抓取层                调度层              推送层
┌──────────┐   ┌──────────────┐   ┌──────────────┐   ┌──────────────┐
│ Twitter  │──→│ RSSHub       │──→│              │──→│ 龙虾 A        │
│ N 个博主 │   │ (Docker)     │   │  OpenClaw    │   │ (投资/金融)  │
└──────────┘   └──────────────┘   │  Cron 调度   │   └──────────────┘
┌──────────┐   ┌──────────────┐   │      +       │   ┌──────────────┐
│ 深潮     │──→│ Next.js RSC  │──→│  AI 分类总结 │──→│ 龙虾 B        │
│ TechFlow │   │ 接口         │   │              │   │ (科技/生活)  │
└──────────┘   └──────────────┘   └──────────────┘   └──────────────┘

需要准备什么

第一步:部署 RSSHub

RSSHub 是一个开源的 RSS 生成器,能把几百个网站转成 RSS 格式。我们用它来抓 Twitter。

做什么: Docker 一行命令启动,把小号的 cookie 配进去就行。

为什么用小号: Cookie 等于登录态,万一被 Twitter 检测到,封了也不心疼。

第二步:创建 Twitter 私有 List

这是整个方案的关键优化。

问题: 直接逐个抓取 100+ 博主,Twitter 会严重限流——每个请求要等 20 秒以上,100 个人全部超时。

解决: 把所有博主加到一个私有 List 里,通过 RSSHub 的 List 路由一次请求拿到所有人的最新推文(约 70 条)。

怎么加: 用 Twitter 的 GraphQL API 批量添加,写个脚本循环跑,每个用户间隔 1.5 秒避免限流。实测 111 个博主全部成功零失败。

第三步:抓取深潮 TechFlow 文章

问题: 深潮没有文章 RSS。它的 rss.xml 只有快讯(一两句话的短消息),深度文章没法直接订阅。

解决: 深潮是 Next.js 构建的,向文章页发请求时带上 RSC: 1 这个 header,服务端会返回结构化数据。从中可以提取文章列表和正文内容。

正文提取注意: 不同文章的正文格式不一样(直接 HTML / Unicode 转义 / meta description),脚本需要兼容三种格式。实测覆盖率 90%+。

第四步:编写抓取脚本

两个 Python 脚本,逻辑相同:

  1. 从数据源拉取最新内容
  2. 和本地 seen 文件比对去重
  3. 新内容追加到 pending 文件
  4. seen 文件自动清理(保留最近 N 条,防止无限膨胀)

Twitter 脚本额外增加了 cookie 过期检测——抓取失败时写一个 error 标记文件,定时任务检测到后自动通知你换 cookie。

第五步:配置定时任务

用 OpenClaw 的 cron 功能,配 7 个定时任务:

任务 频率 做什么
静默抓取 每小时 跑两个抓取脚本,存 pending,不打扰用户
分类推送 每天 5 次(08/11/14/17/20 点) 读 pending → AI 分类总结 → 投资类推给龙虾 A,其他推给龙虾 B
每日总结 每晚 22:00 综合全天信息,归纳关键主题,给出明日关注

夜间策略: 23 点到早 8 点只抓不推,内容攒到早上一并发送。

分类推送规则

投资龙虾推送的内容:

生活龙虾推送的内容:

内容质量分级:

深潮文章: 单独板块「📝 深潮精选」,每篇附 3-4 句正文摘要,帮你判断是否值得点进去细读。

推送效果示例

分类推送

📰 投资摘要(14:00)

📊 市场动态
• 英伟达盘后大涨7%,GTC大会发布新一代GPU架构(@科技投资笔记)
  https://x.com/...

🔍 深度观点
• 美元指数跌破100,日元走强背后是套息交易平仓(@宏观老王)
  https://x.com/...

📝 深潮精选
• Stripe 如何用 20 亿押注 AI 支付基础设施
  从支付公司到AI时代的金融操作系统,战略转型解析。
  https://www.techflowpost.com/...

每日总结

📋 今日要点回顾

🔥 AI 芯片军备赛升级
英伟达发布新架构,AMD和博通同日回应,算力定价逻辑可能生变...

🔥 日元异动
套息交易平仓潮,多位博主分析对亚太市场的传导路径...

🔭 明日关注
- 美联储会议纪要措辞变化
- 苹果WWDC开发者预览

📎 值得细读
1. Stripe AI支付战略深度分析
2. 全球算力供需格局研报

踩坑记录

  1. 逐个博主抓取不可行:100+ 人逐个请求,Twitter 限流到每请求 20 秒,批量全超时。改用 List 路由一次搞定。

  2. Python urllib 调 Twitter API 返回 404:curl 正常但 Python 不行,原因是 urllib 不处理 cookie/redirect。批量加 List 成员最终用 bash + curl 实现。

  3. 深潮没有文章 RSS:官方 rss.xml 只有快讯。深度文章通过 Next.js RSC 接口获取,但正文有三种不同格式需要兼容。

  4. Cookie 过期静默失败:RSSHub 抓取失败不会主动报错,必须在脚本层检测并主动告警。

  5. 去重文件膨胀:长期运行 seen 文件会越来越大,需要定期清理只保留最近的记录。

可扩展方向