Twitter 博主推文 + 深潮文章 → AI 分类总结 → 通过龙虾定时推送
做投资、搞研究,Twitter 关注了上百个博主,每天产出的内容量非常大。但实际体验很差:
本质上是一个信息过载 + 筛选成本太高的问题。
这套系统的思路:让 AI 替你完成"刷 → 筛 → 读 → 总结"的全流程,你只看精华。
全部跑在本地机器上,零月费。
信息源 抓取层 调度层 推送层
┌──────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ Twitter │──→│ RSSHub │──→│ │──→│ 龙虾 A │
│ N 个博主 │ │ (Docker) │ │ OpenClaw │ │ (投资/金融) │
└──────────┘ └──────────────┘ │ Cron 调度 │ └──────────────┘
┌──────────┐ ┌──────────────┐ │ + │ ┌──────────────┐
│ 深潮 │──→│ Next.js RSC │──→│ AI 分类总结 │──→│ 龙虾 B │
│ TechFlow │ │ 接口 │ │ │ │ (科技/生活) │
└──────────┘ └──────────────┘ └──────────────┘ └──────────────┘
RSSHub 是一个开源的 RSS 生成器,能把几百个网站转成 RSS 格式。我们用它来抓 Twitter。
做什么: Docker 一行命令启动,把小号的 cookie 配进去就行。
为什么用小号: Cookie 等于登录态,万一被 Twitter 检测到,封了也不心疼。
这是整个方案的关键优化。
问题: 直接逐个抓取 100+ 博主,Twitter 会严重限流——每个请求要等 20 秒以上,100 个人全部超时。
解决: 把所有博主加到一个私有 List 里,通过 RSSHub 的 List 路由一次请求拿到所有人的最新推文(约 70 条)。
怎么加: 用 Twitter 的 GraphQL API 批量添加,写个脚本循环跑,每个用户间隔 1.5 秒避免限流。实测 111 个博主全部成功零失败。
问题: 深潮没有文章 RSS。它的 rss.xml 只有快讯(一两句话的短消息),深度文章没法直接订阅。
解决: 深潮是 Next.js 构建的,向文章页发请求时带上 RSC: 1 这个 header,服务端会返回结构化数据。从中可以提取文章列表和正文内容。
正文提取注意: 不同文章的正文格式不一样(直接 HTML / Unicode 转义 / meta description),脚本需要兼容三种格式。实测覆盖率 90%+。
两个 Python 脚本,逻辑相同:
Twitter 脚本额外增加了 cookie 过期检测——抓取失败时写一个 error 标记文件,定时任务检测到后自动通知你换 cookie。
用 OpenClaw 的 cron 功能,配 7 个定时任务:
| 任务 | 频率 | 做什么 |
|---|---|---|
| 静默抓取 | 每小时 | 跑两个抓取脚本,存 pending,不打扰用户 |
| 分类推送 | 每天 5 次(08/11/14/17/20 点) | 读 pending → AI 分类总结 → 投资类推给龙虾 A,其他推给龙虾 B |
| 每日总结 | 每晚 22:00 | 综合全天信息,归纳关键主题,给出明日关注 |
夜间策略: 23 点到早 8 点只抓不推,内容攒到早上一并发送。
投资龙虾推送的内容:
生活龙虾推送的内容:
内容质量分级:
深潮文章: 单独板块「📝 深潮精选」,每篇附 3-4 句正文摘要,帮你判断是否值得点进去细读。
📰 投资摘要(14:00)
📊 市场动态
• 英伟达盘后大涨7%,GTC大会发布新一代GPU架构(@科技投资笔记)
https://x.com/...
🔍 深度观点
• 美元指数跌破100,日元走强背后是套息交易平仓(@宏观老王)
https://x.com/...
📝 深潮精选
• Stripe 如何用 20 亿押注 AI 支付基础设施
从支付公司到AI时代的金融操作系统,战略转型解析。
https://www.techflowpost.com/...
📋 今日要点回顾
🔥 AI 芯片军备赛升级
英伟达发布新架构,AMD和博通同日回应,算力定价逻辑可能生变...
🔥 日元异动
套息交易平仓潮,多位博主分析对亚太市场的传导路径...
🔭 明日关注
- 美联储会议纪要措辞变化
- 苹果WWDC开发者预览
📎 值得细读
1. Stripe AI支付战略深度分析
2. 全球算力供需格局研报
逐个博主抓取不可行:100+ 人逐个请求,Twitter 限流到每请求 20 秒,批量全超时。改用 List 路由一次搞定。
Python urllib 调 Twitter API 返回 404:curl 正常但 Python 不行,原因是 urllib 不处理 cookie/redirect。批量加 List 成员最终用 bash + curl 实现。
深潮没有文章 RSS:官方 rss.xml 只有快讯。深度文章通过 Next.js RSC 接口获取,但正文有三种不同格式需要兼容。
Cookie 过期静默失败:RSSHub 抓取失败不会主动报错,必须在脚本层检测并主动告警。
去重文件膨胀:长期运行 seen 文件会越来越大,需要定期清理只保留最近的记录。
/tmp 下的文件迁到持久目录,避免重启后全量重推