4.0 本章导读:为什么“基础技术”比以往任何时候都更重要?
一个常见的错误认知
“技术SEO就是提交Sitemap、设置Robots.txt、做301重定向……这些都是建站时就该搞定的事,之后就不用管了。”
这种想法在五年前或许还勉强说得过去,但在2026年的今天,已经远远不够了。
Google对技术层面的要求越来越高,因为技术指标直接关系到用户体验和爬虫效率。一个技术上存在缺陷的网站,即使内容再好,也可能:
-
抓取不充分:重要页面迟迟不被收录
-
索引错误:页面被索引但关键内容被忽略
-
排名受限:Core Web Vitals不达标,排名被降权
-
移动端体验差:移动优先索引下排名惨淡
技术SEO不是一次性的配置任务,而是一个持续优化的过程。
本章会帮你建立一套完整的技术SEO知识体系,从基础概念到高阶策略,从理论到实战。你不会成为程序员,但你会知道:
-
如何与开发团队高效沟通技术SEO需求
-
如何诊断常见的技术SEO问题
-
如何为大型B2B网站设计技术架构
4.1 技术SEO的本质:为“两种用户”服务
很多人把技术SEO理解为“让网站对搜索引擎更友好”。这个定义太窄了。
技术SEO的本质是同时服务好两种用户:
| 用户类型 | 需求 | 技术SEO目标 |
|---|---|---|
| 人类用户 | 快速加载、稳定布局、易用交互、安全可靠 | 优化Core Web Vitals、移动端适配、HTTPS、避免侵入性插页 |
| 搜索引擎爬虫 | 高效抓取、正确理解、准确索引 | 优化抓取预算、结构化数据、URL规范、避免孤岛页面 |
两者并不矛盾,反而高度重叠。 一个对人类用户友好的网站,通常也对爬虫友好;反之亦然。
核心原则:
技术SEO不是“为了排名而做的小动作”,而是“让网站本身变得更优秀”的必修课。
4.2 抓取与索引:让Google找到并理解你的所有重要页面
4.2.1 抓取(Crawl)与索引(Index)的区别
这是最基础但也最容易被混淆的概念。
| 概念 | 含义 | 类比 |
|---|---|---|
| 抓取(Crawl) | Googlebot(Google爬虫)访问你的网站,沿着链接发现新页面或检查已有页面 | 图书管理员走进图书馆,查看书架上有哪些书 |
| 索引(Index) | Google将抓取到的页面内容进行分析、存储,加入搜索数据库 | 图书管理员将书的信息录入目录系统,供读者检索 |
| 排名(Rank) | 当用户搜索时,Google从索引中找出最相关的页面并按顺序展示 | 读者查询时,管理员从目录中找出最相关的书推荐 |
关键洞察:
-
页面被抓取 ≠ 被索引。很多页面被抓取了,但Google认为质量低、重复或没有价值,就不会索引。
-
没有被索引的页面永远不会出现在搜索结果中。
-
索引是排名的前提。
4.2.2 如何查看网站的索引状态?
使用 Google Search Console(GSC) → “Pages” 报告。
它会告诉你:
-
已索引的页面数量(Indexed)
-
未索引的页面数量(Not indexed)
-
未索引的原因(如“Crawled - currently not indexed”、“Duplicate without user-selected canonical”、“Soft 404”等)
常见未索引原因及解决方案:
| 状态 | 含义 | 解决方案 |
|---|---|---|
| Crawled - currently not indexed | Google抓取了但认为价值不够,暂不索引 | 提升内容质量、增加内链、提交索引请求 |
| Duplicate without user-selected canonical | 重复内容,未指定规范版本 | 设置canonical标签 |
| Soft 404 | 页面返回200但内容实际是“无结果” | 修复为真实404或调整内容 |
| Blocked by robots.txt | robots.txt禁止抓取 | 检查规则,解除误屏蔽 |
| Not found (404) | 页面不存在 | 修复链接或设置301 |
| Page with redirect | 重定向链过长或循环 | 修复重定向逻辑 |
4.2.3 如何优化抓取预算(Crawl Budget)?
什么是抓取预算?
Google每天分配给每个网站的抓取次数是有限的。这个额度取决于:
-
网站规模和更新频率(大站、频繁更新的站分配更多)
-
服务器响应速度(慢的站会被分配更少)
-
网站整体质量(低质量站抓取优先级低)
为什么重要?
如果你的网站有10,000个页面,但Google每天只抓取500个,那么:
-
新页面可能需要20天才能被首次抓取
-
更新后的页面可能需要很久才能被重新抓取
-
你花精力优化的内容无法及时反映在排名中
优化抓取预算的方法:
| 策略 | 说明 | 优先级 |
|---|---|---|
| 删除低质量/无价值页面 | 合并重复内容,删除垃圾页面,减少无效抓取 | ⭐⭐⭐⭐⭐ |
| 优化网站速度 | 服务器响应越快,同样时间内Google可抓取更多页面 | ⭐⭐⭐⭐⭐ |
| 修复破损链接 | 404页面浪费抓取额度 | ⭐⭐⭐⭐ |
| 使用robots.txt屏蔽无意义路径 | 如内部搜索参数、排序过滤参数、后台路径 | ⭐⭐⭐⭐ |
| 更新sitemap并定期提交 | 告诉Google哪些页面最重要 | ⭐⭐⭐ |
| 避免无限空间(如日历、筛选组合) | 使用rel="nofollow"或robots.txt | ⭐⭐⭐ |
大型B2B网站特别注意事项:
-
如果你的网站有5000+产品页面,且每个产品页有几十个筛选参数(如按颜色、尺寸、成分筛选),这些参数URL会产生指数级增长的组合页面(5000 × 10 × 10 = 500,000个可能的URL)。Google会浪费大量预算抓取这些无意义的组合页。
-
解决方案:使用robots.txt屏蔽参数路径,或在链接中添加
rel="nofollow",或使用noindex标签。
4.2.4 Sitemap的最佳实践
Sitemap是给爬虫看的地图,不是给用户看的。
最佳实践清单:
-
分片Sitemap:每个Sitemap不超过50MB或50,000个URL。按类型分片:
-
sitemap-pages.xml(核心页面) -
sitemap-products.xml(产品页) -
sitemap-posts.xml(博客) -
sitemap-categories.xml(分类页)
-
-
只包含规范URL:不要包含参数化的重复URL。
-
定期更新:每次新增重要页面,更新Sitemap并重新提交。
-
在robots.txt中指明Sitemap位置:
Sitemap: https://yourdomain.com/sitemap.xml
-
通过GSC提交:Google Search Console → Sitemaps → 添加你的sitemap地址。
4.2.5 Robots.txt的进阶用法
Robots.txt是告诉爬虫“哪些路径可以抓取,哪些不可以”的协议文件。注意:这只是协议,不是强制指令。恶意爬虫会忽略它。
正确用法示例:
User-agent: * Allow: / # 禁止抓取后台路径 Disallow: /wp-admin/ Disallow: /admin/ # 禁止抓取内部搜索结果页 Disallow: /search/ Disallow: /*?s= # 禁止抓取筛选参数(针对B2B产品列表) Disallow: /*?sort= Disallow: /*?filter= Disallow: /*?page= # 禁止抓取购物车等无意义页面 Disallow: /cart/ Disallow: /checkout/ # 指定Sitemap位置 Sitemap: https://yourdomain.com/sitemap.xml
常见错误:
-
误屏蔽整个CSS/JS文件夹(导致Google无法正确渲染页面)→ 现代SEO不要屏蔽CSS/JS
-
使用
Disallow: /屏蔽整个网站(测试后忘记删除) -
对不同爬虫设置过于复杂的规则
4.3 Core Web Vitals:用户体验的核心技术指标
4.3.1 什么是Core Web Vitals?
Core Web Vitals是Google衡量网页用户体验的一组标准化指标。自2021年起成为排名因素,并持续优化。
2026年的核心指标为三个:
| 指标 | 全称 | 衡量什么 | 目标值 |
|---|---|---|---|
| LCP | Largest Contentful Paint | 页面主要内容加载速度 | < 2.5秒 |
| INP | Interaction to Next Paint | 页面交互响应速度(取代旧FID) | < 200毫秒 |
| CLS | Cumulative Layout Shift | 页面布局稳定性 | < 0.1 |
4.3.2 LCP(最大内容渲染时间)深度解析
LCP测量的是: 用户可见的“最大元素”加载完成的时间。这个元素通常是:
-
大图片(产品图、Banner)
-
视频封面图
-
大块的文本块(如Hero区域的标题)
LCP差的原因及解决方案:
| 原因 | 说明 | 解决方案 |
|---|---|---|
| 服务器响应慢 | TTFB(首字节时间)过长 | 升级服务器、使用CDN、启用缓存 |
| 渲染阻塞资源 | CSS/JS阻塞渲染 | 压缩、延迟加载非关键资源、内联关键CSS |
| 图片过大 | 未压缩、未响应式 | 使用WebP格式、响应式图片(srcset)、懒加载 |
| 客户端渲染(CSR) | React/Vue等框架导致HTML为空 | 改用服务端渲染(SSR)或静态生成(SSG) |
B2B制造业网站常见问题:
-
首页放了大尺寸的工厂全景图或视频,未压缩 → LCP超标
-
使用页面构建器(如Elementor、WPBakery)生成了冗长的HTML和CSS → 优化困难,考虑轻量级主题
4.3.3 INP(交互响应速度)深度解析
INP测量的是: 用户与页面交互(点击、输入、滚动选择等)到浏览器响应所需的时间。它评估整个页面的总体响应性。
INP差的原因及解决方案:
| 原因 | 说明 | 解决方案 |
|---|---|---|
| 主线程被长任务阻塞 | 大量的JS计算阻塞了交互 | 拆分长任务、使用Web Worker |
| 第三方脚本 | 分析工具、广告、聊天插件等 | 延迟加载非必要第三方脚本、使用异步加载 |
| 过度的事件监听 | 页面绑定了大量交互事件 | 优化代码,减少不必要的监听 |
| 布局重排(Reflow) | 交互触发了大面积DOM重绘 | 批量修改DOM,使用transform/opacity动画 |
B2B网站常见问题:
-
嵌入第三方聊天插件(如Tawk.to、Intercom)→ INP显著下降
-
产品筛选器实现效率低(每次筛选都重新渲染整个列表)→ INP差
解决方案: 对第三方脚本使用延迟加载或异步加载,只在需要时初始化。
4.3.4 CLS(布局稳定性)深度解析
CLS测量的是: 页面加载过程中,元素是否意外移动。例如:
-
你正准备点击“Buy”按钮,突然一个图片加载完成,把按钮推下去了
-
你正在阅读文章,突然一个广告插进来,文字跳动了
CLS差的原因及解决方案:
| 原因 | 说明 | 解决方案 |
|---|---|---|
| 图片/视频无尺寸属性 | 浏览器不知道预留空间 | 始终添加width/height属性,或使用CSS aspect-ratio |
| 动态插入的内容 | 广告、推荐内容等 | 预留占位空间 |
| 网络字体 | FOIT/FOUT导致文字跳动 | 使用font-display: optional或swap |
| 动画引起重排 | 动画改变了元素的尺寸 | 使用transform动画(不影响布局) |
特别提醒: 即使CLS < 0.1,但对用户来说任何微小跳动都令人厌烦。追求极致体验,CLS越接近0越好。
4.3.5 如何测量Core Web Vitals?
| 工具 | 用途 | 数据来源 |
|---|---|---|
| PageSpeed Insights | 单个URL分析,给出改进建议 | 实验室数据(模拟)和现场数据(CrUX) |
| Google Search Console → Core Web Vitals报告 | 查看全站各页面的CWV表现 | 现场数据(真实用户) |
| Chrome DevTools (Lighthouse) | 本地测试 | 实验室数据 |
| Web Vitals Chrome插件 | 实时显示当前页面的CWV | 现场数据 |
重要概念:
-
现场数据(Field Data / CrUX):来自真实Chrome用户的体验数据,是Google排名使用的依据。
-
实验室数据(Lab Data):模拟环境测试,用来诊断问题。
优化顺序: 先看GSC的CWV报告,找到“差”的URL分组,然后用PageSpeed Insights深度分析单个页面。
4.4 结构化数据:让Google“读懂”你的实体
4.4.1 什么是结构化数据?
结构化数据是一种标准化的代码格式(基于Schema.org词汇表),用于向搜索引擎明确说明页面内容的含义和关系。
类比:
-
普通HTML:告诉Google“这是一个页面,里面有一段文字和一张图片”
-
结构化数据:告诉Google“这个页面是一个产品,名字叫XYZ,价格是$10,评分是4.5,有库存”
4.4.2 为什么结构化数据在2026年更重要?
-
实体SEO的基础:结构化数据是向Google明确声明“实体”及其关系的最直接方式。
-
AI搜索引擎的偏好:AI Overview、ChatGPT Search等倾向于引用有结构化数据的页面,因为数据易于提取。
-
富媒体搜索结果(Rich Results):可以增强SERP展示,提高点击率(如产品评价星标、面包屑、FAQ手风琴)。
4.4.3 B2B制造业最常用的Schema类型
| Schema类型 | 适用页面 | 主要属性 | 好处 |
|---|---|---|---|
Product |
产品页 | name, description, image, sku, offers | 可显示价格、库存;可能出现在商品列表结果 |
Organization |
首页、关于我们 | name, logo, url, sameAs, contactPoint | 帮助建立品牌实体;知识面板出现的基础 |
BreadcrumbList |
所有页面(导航下方) | itemListElement(位置列表) | 搜索结果中显示面包屑导航,提高点击率 |
FAQ |
FAQ页面、帮助中心 | Question, Answer | 搜索结果中展示问答对(注意Google对FAQ展示的限制,可能仅限权威站点) |
HowTo |
指南类文章 | step, totalTime, tool, supply | 可显示步骤式搜索结果 |
Review |
案例研究、客户评价 | itemReviewed, reviewRating | 展示评分星级(需注意避免虚假评价) |
LocalBusiness |
有实体地址的工厂 | address, geo, openingHours | 本地搜索优化 |
4.4.4 结构化数据实现方式
方式一:JSON-LD(强烈推荐)
Google最推荐的格式。在页面<head>或<body>末尾添加一段JSON代码。
<script type="application/ld+json"> { "@context": "https://schema.org", "@type": "Product", "name": "Sulfate-Free Shampoo Base", "description": "A mild, sulfate-free shampoo base perfect for private label brands.", "sku": "SF-101", "brand": { "@type": "Brand", "name": "YourBrand Name" }, "offers": { "@type": "Offer", "price": "5.00", "priceCurrency": "USD", "availability": "https://schema.org/InStock" } } </script>
方式二:通过插件自动生成(适合非开发者)
-
WordPress:Yoast SEO Premium、Rank Math、Schema Pro
-
Shopify:内置部分Schema,可安装插件增强
方式三:手动在HTML中添加(使用Microdata或RDFa)不推荐,维护困难。
4.4.5 结构化数据的验证与调试
-
Rich Results Test:https://search.google.com/test/rich-results
-
Schema Markup Validator:https://validator.schema.org/
提交页面URL或代码片段,工具会提示错误或警告。修复后重新测试。
4.5 移动端优先与HTTPS:没有讨价还价空间
4.5.1 移动端优先索引(Mobile-First Indexing)
自2019年起,Google主要使用移动版页面内容进行索引和排名。这意味着:
-
如果移动版内容比桌面版少,你的排名会受影响。
-
移动端体验差 = 整体排名差。
检查清单:
-
网站是否采用响应式设计(Responsive Design)?
-
移动端文本是否可读(无需缩放)?
-
按钮/链接间距是否足够(手指点击不误触)?
-
移动端加载速度是否达标(CWV移动端标准同样严格)?
-
移动版是否隐藏了桌面版的重要内容(如通过CSS
display:none)? -
是否有侵入性插页(如全屏订阅弹窗)?
常见错误: 桌面版有500字的产品描述,移动版只有50字(因为用JS动态加载或被折叠)。Google看到的内容不一致,会以移动版为准。
4.5.2 HTTPS:最低门槛
HTTPS是排名信号之一(虽然不是最强信号)。更重要的是:
-
Chrome浏览器会将HTTP网站标记为“不安全”,用户信任度下降
-
很多高级功能(如地理位置、Service Worker)需要HTTPS
要求:
-
全站HTTPS,包括所有子域名
-
使用TLS 1.2或1.3
-
避免混合内容(HTTPS页面加载HTTP资源)
迁移检查: 从HTTP迁移到HTTPS时,务必做301重定向,并更新所有内部链接、sitemap、robots.txt。
4.6 大型B2B网站的技术SEO注意事项
如果你管理的是拥有数百甚至数千个产品页、分类页、博客的B2B网站,以下问题需要特别关注:
4.6.1 分面导航(Faceted Navigation)的处理
问题: B2B产品列表通常有多个筛选维度(价格、成分、认证、MOQ范围等)。每个筛选组合都会生成一个新URL,导致成千上万的低质量页面。
解决方案:
| 策略 | 适用场景 | 实现方法 |
|---|---|---|
| Robots.txt屏蔽 | 筛选结果页面无独立价值 | Disallow: /*?filter= |
| Noindex标签 | 筛选页面有独立价值但不想被索引 | 在页面中添加<meta name="robots" content="noindex"> |
| Canonical标签 | 多个URL指向同一内容 | 将筛选页面canonical到主分类页 |
| 仅使用JavaScript渲染筛选 | 筛选链接不被爬虫看到 | 使用JS生成筛选链接,Google会执行但可能不跟踪 |
推荐: 对B2B网站,通常使用 robots.txt 屏蔽所有参数路径最干净。
4.6.2 重复内容问题
B2B网站常见重复内容场景:
-
同一产品出现在多个分类页(如“洗发水”分类和“有机产品”分类)
-
不同规格的产品使用了相似的描述模板
-
多语言版本
解决方案:
-
Canonical标签:指定主要版本URL
-
合并相似产品页:如果产品差异很小,合并为一个页面,用参数区分
-
为每个产品页撰写独特描述(至少100-200字)
4.6.3 JavaScript框架(React/Vue/Angular)的SEO注意事项
如果你的B2B网站使用了现代JS框架:
风险:
-
客户端渲染(CSR)导致初始HTML为空,Google抓取不到内容
-
即使Google能执行JS,也会延迟索引,且消耗更多抓取预算
-
某些动态内容(如用户点击加载的产品描述)可能不被爬虫看到
最佳实践:
-
使用服务端渲染(SSR) 或静态站点生成(SSG)
-
如果必须用CSR,确保使用
<noscript>提供备用内容 -
在URL中实现懒加载内容的可访问性(使用
pushState而不是hash) -
使用Google的“URL Inspection Tool”测试Google是否能正确渲染你的页面
4.7 常见技术SEO错误与快速修复
| 错误 | 影响 | 快速修复 |
|---|---|---|
| 没有XML Sitemap | 新页面收录慢 | 生成并提交到GSC |
| robots.txt误屏蔽 | 重要页面无法被抓取 | 检查并使用GSC的“robots.txt Tester” |
| 重复的meta robots | 冲突指令 | 确保每个页面只有一个noindex/nofollow指令 |
| 多个canonical标签 | 信号混乱 | 只保留一个 |
| 自引用canonical缺失 | 建议加上 | 每个页面的canonical指向自己(防止参数变异) |
| 图片没有ALT | 失去图片搜索流量 | 批量添加描述性ALT |
| 响应式设计测试不全 | 移动端体验差 | 使用Google的“Mobile-Friendly Test” |
| 重定向链过长 | 权重丢失 | 将链缩短到一步(A→C,不要A→B→C) |
| 404页面没有自定义 | 用户流失 | 创建友好的404页,包含搜索框和热门链接 |
4.8 本章小结
-
技术SEO的本质是同时服务好人类用户和搜索引擎爬虫。
-
抓取与索引:页面必须被抓取且被索引才能排名。使用GSC监控索引状态,优化抓取预算。
-
Core Web Vitals:LCP < 2.5s, INP < 200ms, CLS < 0.1 是硬性目标。它们是排名因素,也是用户体验核心。
-
结构化数据:帮助Google理解实体和关系,是AI搜索引擎优化的基础。优先使用JSON-LD。
-
移动端优先:移动版内容是索引基准,确保移动端体验与桌面端一致或更好。
-
大型B2B网站:特别注意分面导航、重复内容、JS框架的处理。
下一章预告:
第五章 站内优化(On-Page SEO):从基础标签到语义优化
我们会深入讲解:Title和Meta Description的心理学与SEO平衡、H标签体系的正确构建、LSI与语义关键词、图片SEO、以及如何通过内部链接传递权重。