# SPA SEO 与 AI 爬取可见性总纲(执行手册)
面向现状:保持单页应用(SPA)架构,优先通过“主动提交 + 结构化数据 + 渲染策略 + 内链与性能”提升传统搜索与 AI 爬虫的可见性;仅在收益不足时,分阶段引入 SSR/SSG/ISR。
## 1. 目标与原则
- 兼顾传统搜索(Google/Bing/百度等)与新型 AI 爬虫(GPTBot/ClaudeBot/PerplexityBot 等)。
- 新内容与更新“分钟级被发现”:IndexNow/百度主动推送 + 完整 sitemap。
- 重要着陆页无需改架构即可可抓取:动态渲染/预渲染为爬虫提供 HTML 快照。
- 结构化数据覆盖主要业务类型,获取富结果与高质量摘要。
- 数据合规:robots.txt/ai.txt 明确抓取与使用边界。
## 2. 两周内落地路线(优先级)
第 1 周(发现能力与元数据):
- 接入站长平台:Google Search Console、Bing Webmaster、百度搜索资源平台。
- 建立 sitemap 体系:主索引 + 分区 sitemap(栏目/详情/增量),含 `lastmod`、`hreflang`。
- 接入 IndexNow 与百度“主动推送”API(发布/更新/删除即时推送)。
- 为所有可索引路由补齐 `
`、`meta description`、`canonical`、OG/Twitter 卡片。
- 添加 JSON-LD:Organization、WebSite+SearchAction、BreadcrumbList;内容页覆盖 Article/Product/FAQ。
第 2 周(可抓取与体验):
- 路由与状态:存在的路由返回 200,不存在返回 404;history 模式避免哈希路由。
- 动态渲染(过渡方案):对爬虫 UA 提供 HTML 快照(Rendertron/Prerender/自建 Headless 中间层)。先覆盖前 20 个高价值入口。
- 内链与面包屑:专题页 → 栏目 → 详情双向链路,清理孤页。
- Core Web Vitals:首屏渲染/LCP、CLS、图片懒加载与尺寸、关键 CSS/JS 精简与分割。
- 监控:GSC/Bing/百度的抓取/索引/体验报告 + 服务器日志(爬虫命中、耗时、状态码)。
4–6 周评估后:
- 若收录与流量提升有限,针对高价值路由切换 SSR/SSG/ISR(分批,成本可控)。
## 3. 主动报告/推送策略
- Sitemap:
- `sitemap_index.xml` 指向多份分区 sitemap(示例:`sitemap-pages.xml`、`sitemap-articles-0001.xml`…)。
- 详情页增量 sitemap(滚动窗口,仅近 7–14 天更新),全部挂在 index 上。
- 每条 URL 含 `lastmod`,多语言站点提供 `xhtml:link rel="alternate" hreflang`。
- IndexNow(推荐):发布/更新/删除 URL 即刻通知;Bing/百度/雅虎等共享。
- 百度“主动推送”API:中文搜索重要渠道,显著提升时效性。
- 说明:Google 通用内容不支持 Indexing API(仅 JobPosting/LiveStream)。
## 4. SPA 可抓取与渲染策略
- 服务端为每个可索引路由返回:
- 正确状态码(200/404/410 等)。
- 唯一 `` 与 `meta description`、`canonical`、Open Graph/Twitter 卡片。
- 动态渲染(UA 识别,仅爬虫):
- 可选组件:Rendertron、Prerender.io、无头 Chrome 自建渲染服务。
- 缓存策略:热门路由 1–6 小时;刷新策略基于更新事件或 `lastmod`。
- 机器人 UA 白名单(示例):`Googlebot`、`bingbot`、`Baiduspider`、`GPTBot`、`ClaudeBot`、`PerplexityBot`、`Applebot`、`Bytespider`。
## 5. 结构化数据(JSON-LD 模板)
嵌入到可索引页面 `