Tommy

GEO 与 SEO:当搜索引擎不再返回链接,而是直接说出答案

GEO and SEO — When Search Engines Stop Returning Links and Just Speak the Answer

· 17 min read
···阅读reads

一个内容生产者必须重新理解”被看见”这件事

一、写在最前面:你正在见证一场断层

2026 年了。ChatGPT 周活跃用户突破 8 亿,每天处理 25 亿次提示词,其中大约 65% 属于搜索类查询。在中国,豆包月活跃用户 2.6 亿、文心一言 2.2 亿、夸克 1.8 亿、元宝 1.5 亿、Kimi 9000 万——五家合计月活超过 9 亿。Gartner 的预测是:到 2028 年传统搜索流量将下降 50%,这些流量整体迁移到生成式引擎。

这不是”搜索引擎多了一个新功能”,这是信息分发逻辑的根本变化。

传统搜索引擎给你十条蓝色链接,让你自己选;生成式引擎直接说:“根据 A、B、C 三个来源,答案是这样的。“用户在 90% 以上的情况下不再点击那些来源链接——一项业界分析显示,当 AI Overviews 出现时,用户点击引用源的概率不到 1%。

这意味着什么?意味着如果你的内容没有被 AI”引用”,你就不存在。不是排名第十一的”不存在”,是字面意义上的”在用户面前从未出现过”的不存在。

这就是为什么”GEO”——Generative Engine Optimization,生成式引擎优化——在过去两年从一个学术概念变成了一个 80 亿美元 SEO 产业必须直面的新词。

但 GEO 究竟是什么?跟 SEO 是替代还是并存?方法有哪些?哪些是真的有效、哪些是新瓶装老酒、哪些是行业造概念赚钱?这篇文章想把这些问题一次性掰开讲清楚。

二、概念辨析:SEO、GEO、AEO、LLMO 是同一件事吗?

业内现在四个缩写满天飞,先做一次澄清。

SEO(Search Engine Optimization):让你的网页在 Google、百度等传统搜索引擎结果页排得更靠前,目标是”被点击”。

GEO(Generative Engine Optimization):让你的内容在 ChatGPT、Perplexity、文心、Kimi 等生成式引擎合成回答时被引用,目标是”被合成进答案”。

AEO(Answer Engine Optimization):更广义的”答案引擎优化”,覆盖语音助手、精选摘要等所有”直接给答案”的场景,是 GEO 的超集。

LLMO(Large Language Model Optimization):GEO 的技术子集,专门研究 LLM 检索与引用的底层机制。

对绝大多数内容生产者来说,这些区分是学术性的。真正的核心区别只有一个:你优化的目标是”排名位置”还是”是否被引用进答案”。前者是 SEO,后者是 GEO。

更重要的是要破除一个误解:GEO 不是 SEO 的替代品,是 SEO 的扩展层。 Google AI Overviews 的内容来源基本上还是组织排名靠前的页面。如果你的传统 SEO 是零基础,GEO 也无从谈起。但反过来,传统 SEO 做得再好,如果不针对 AI 的引用偏好做改造,AI 也照样不引用你——业内一项跨平台分析显示,传统 SEO 和 GEO 的”赢家”重叠度已经从两年前的 70% 跌到现在的不到 20%。

这就是为什么 GEO 成为必修课,而不是选修课。

三、生成式引擎是怎么”选择引用对象”的:原理层

要做好 GEO,必须先理解生成式引擎背后的工作机制。这一部分稍微硬核一点,但是后面所有方法的依据都在这里。

3.1 RAG:理解 AI 检索的核心架构

绝大多数生成式引擎(ChatGPT 联网模式、Perplexity、Google AI Overviews、Kimi、Doubao)的底层是同一个架构:RAG(Retrieval-Augmented Generation,检索增强生成)。关于 RAG 本身的演进、流派与工程权衡,可以参见 RAG 技术全景与流派分析

工作流大致是这样的:

用户问题 → 改写为多个检索查询 → 检索器搜索文档集 → 候选片段(chunks)

                                              重排序(re-ranking)

                                              筛选 Top-K 片段

                                              LLM 合成答案 + 引用

关键洞察是:AI 不是在评估”页面”,而是在评估”段落”甚至”句子”。 一个 5000 字的页面,最终可能只有其中两句话被抽取进答案。这从根本上改变了优化逻辑——传统 SEO 是页面级竞争,GEO 是段落级和句子级竞争。

3.2 引用决策的三道筛子

一个段落要被 AI 引用,要过三道筛子,每一道刷掉大部分候选:

第一道:能不能被检索到?——向量召回阶段 内容被编码成高维向量,与用户问题向量做相似度匹配。这一步淘汰最多内容。如果你的内容连关键概念都没有命中,就被挡在门外。

第二道:在候选堆里能不能脱颖而出?——重排序阶段 召回 Top 50 或 100 个候选片段后,会有一个更精细的模型(cross-encoder 或 LLM)做重排序。这一步关注的是”对回答这个问题来说,哪一段最有用”。

第三道:合成时会不会真的被选用?——生成阶段 即便进了 Top-K,LLM 在实际写答案时也未必引用每一个。它会评估:这个片段的内容是否独立成立?是否包含具体可验证的信息?是否权威?

被检索到 ≠ 被引用。 这是 GEO 的第一性原理。很多优化措施(关键词堆砌、长尾词覆盖)在第一道筛子有效,但在第二、三道完全失效。

3.3 LLM 偏好什么样的内容:经验证的证据

Princeton、Georgia Tech、Allen AI 和 IIT Delhi 在 2023 年底发布的 GEO 奠基论文(发表于 ACM SIGKDD 2024)做了至今最严谨的实验。他们在 GEO-bench 数据集上跑了 10000 条真实查询,测试了 9 种优化策略,得到的结果如下:

优化方法描述引用可见度提升
Statistics Addition把定性描述换成定量数据+30–40%
Cite Sources在文中明确引用权威来源+30–40%
Quotation Addition加入可信来源的直接引语+30–40%
Fluency Optimization提升语言流畅度+15–30%
Authoritative使用权威语气+15–30%
Easy-to-Understand简化语言略有提升
Technical Terms增加专业术语略有提升
Unique Words词汇多样化略有提升
Keyword Stuffing关键词堆砌(传统 SEO 思路)基本无效,部分场景甚至下降

最后一行是这篇论文最重要的发现:传统 SEO 的核心动作(关键词密度)在 GEO 时代完全失效。 这也是 GEO 不能简单理解为”SEO 升级版”的根本原因。

而更有意思的发现是:最有效的几种策略叠加使用,可以让总提升超过单一策略。统计数据 + 流畅度优化的组合,比任何单一策略再多 5% 以上。

还有一个反直觉的结论:研究发现位置较低的页面(约第 5 位附近)从 GEO 优化中获益最大,可见度提升达 115%;而原本就排在第 1 位的页面,几乎不变。

换句话说,GEO 是腰部和长尾内容的翻盘机会,不是头部玩家的额外加分项。

四、SEO vs GEO 全维度对比

把两者放一起对比,差异会更清晰:

维度SEOGEO
优化目标页面排名(位置)内容被引用(是否被选用)
衡量单位页面段落、句子
用户行为看到结果 → 点击 → 进入页面看到 AI 回答 → 90%+ 不点击
核心信号反向链接、TDK、关键词、E-E-A-T实体权威、引用密度、内容深度、统计与引语
关键词密度中等正相关几乎无相关甚至负相关
内容结构利于浏览(图文穿插、长段落可接受)利于抽取(短段落、显式问答、独立成立的句子)
时效性重要但非决定性Perplexity、AI Overviews 严重偏好新内容
权威信号域名权威、外链实体一致性、第三方提及、官方文档
投资周期月-季周-月(变化更快)
流量归因直接、可追踪间接、归因困难
主要平台Google、百度、BingChatGPT、Perplexity、Google AI Overviews、Doubao、Kimi 等
ROI 评估成熟、行业共识业界仍在探索,65% 营销负责人不知如何衡量

几个跨平台规律值得记住:

最让人警醒的数字:ChatGPT 和 Google AI Overviews 的引用源重叠度只有 13.7%。 给一个平台做的优化,到另一个平台未必有效。没有”通用 GEO”,只有”平台特定 GEO”。

五、GEO 的重要性:从存在感到生意

讲完原理和对比,再讲一下”为什么必须做”。

5.1 不做 GEO 的代价

当一个潜在客户问 ChatGPT:“2026 年最好的 HRIS 系统有哪些?“——AI 列出五个品牌,每个配一两句评价。如果你的品牌不在那五个里面,你在那次决策中根本不存在。没有”再翻第二页”的机会,没有”看看广告”的机会。用户压根不知道你存在。

这跟传统 SEO 排第二十名的逻辑完全不同——传统场景下,至少用户在搜索框输入关键词时是看见你存在的,只是不点而已。生成式场景下,你的存在与否,由 AI 一句话决定。

5.2 信任的转移

更值得警惕的是认知层面的变化。研究表明:当用户从 AI 那里得到一个综合答案时,他们对那个答案的信任程度,往往高于他们对单一搜索结果的信任。因为 AI 回答看起来”综合了多个权威来源”,给人一种”已经替我做了交叉验证”的错觉。

这意味着:你的品牌被 AI 提及的方式,正在变成市场对你的客观认知。 AI 描述你是”行业领先的 X 厂商”还是”小众的 X 解决方案”,会直接影响潜在客户对你的初始定位——而且这个定位极难修正,因为用户根本不会去验证。

5.3 长尾的重新分配

如前所述,Princeton 论文的反直觉发现是:GEO 对腰部内容的提升远超头部。这背后的逻辑是:

这是过去十几年 SEO 巨头垄断的格局第一次被打破的真正机会窗口。

六、GEO 实现方法:完整体系(重点章节)

到了这里,前面所有的铺垫都是为了这一部分。下面是一套相对完整的 GEO 实现框架,分为四个层次:内容层、结构层、技术层、生态层

6.1 内容层:让你的句子值得被引用

这是 GEO 最核心、ROI 最高的工作。前文提到 Princeton 论文证明的三大顶级策略——加入统计数据、引用权威来源、加入直接引语——都属于内容层。

方法 1:数据化改写(Statistics Addition)

核心动作:把所有”定性描述”改成”定量描述”。

反例:

我们的产品大幅提升了客户的工作效率。

正例:

在 47 家企业的部署中,我们的产品平均将客户的工单处理时间从 23 分钟降至 7 分钟,效率提升 70%(数据来源:2025 年客户成功报告)。

为什么有效?因为对 LLM 来说,“大幅提升”是没有信息量的修辞,而”23 分钟降至 7 分钟”是可以独立成立的事实陈述——后者离开整段话也依然成立、依然可被引用。这就是”独立可引用单元”的核心思想。

实操检查:写完每一段后问自己——这一段里有多少个具体数字?如果整段没有数字,重写。如果有数字但没有来源,加上来源。如果数字是凭空的,去找数据。

方法 2:来源引用(Cite Sources)

核心动作:在文中显式引用权威来源,最好是可链接、可验证的。

反例:

研究表明运动有助于健康。

正例:

哈佛大学公共卫生学院 2024 年发表于 The Lancet 的研究(DOI: 10.xxxx/xxxx)追踪了 12 万名成年人 15 年,发现每周中等强度运动 150 分钟以上的人群,全因死亡率较久坐人群低 31%。

为什么有效?因为 LLM 的 RLHF 训练中,“有出处的陈述”被人类标注员标为更可信。当你的段落同时提供主张和来源时,它在重排序阶段会被高优先级选用。

风险提示:千万不要伪造引用。 LLM 现在会做交叉验证,被发现虚假引用会让整个域名被打入低信任池。

方法 3:引语注入(Quotation Addition)

核心动作:嵌入可归属的、来自有信誉来源的直接引语。

反例:

业界普遍认为这项技术将改变行业。

正例:

“Transformer 架构在未来五年仍将是大模型的主导范式,但其推理成本必须降低一个数量级才能真正普及。“——Sam Altman,2025 年达沃斯论坛主旨演讲

为什么有效?引语是 LLM 最容易识别的”独立证据单元”——有引号、有归属者、内容自成体系,重排序模型给这种结构的权重很高。

进阶技巧:如果你是内容创作者,可以主动制造可引用的引语——找你的高管做一次结构化访谈,把核心观点提炼成 5-10 句独立成立的话,分散到不同文章中。这是”主动制造 GEO 资产”的关键动作。

方法 4:语义完整段落(Self-Contained Paragraphs)

核心动作:每一段都要能独立成立。

LLM 的 chunking 经常会把你的内容切成 200-500 token 的小块。如果一段必须配合上下文才能理解(比如频繁出现”它""这""上一节提到”),切碎之后那一块就失去信息密度,不会被选中。(Claude Code 之类的工程系统为什么干脆不用 RAG / chunking,我在 从 Claude Code 到小暖 里展开讨论过。)

实操原则:

方法 5:问答结构(Question-Answer Mapping)

核心动作:把 H2/H3 标题写成用户真实会问的问题,紧接着用第一句直接回答。

反例:

我们的优势

我们公司有三大核心优势……

正例:

为什么选择我们的 HRIS 系统而不是 Workday?

在三个具体场景下,我们的方案优于 Workday:(1)中国本地合规……

为什么有效?AI 平台在做 query → chunk 匹配时,如果你的子标题本身就是用户的问题,相似度匹配会大幅提高。这是直接对应 RAG 第一道筛子的优化。

工具提示:用 Answer the Public、Also Asked 或者直接问 ChatGPT “用户在 X 领域常问哪些问题”,把高频问题做成你的 H2 集合。

6.2 结构层:让 AI 能”看懂”和”切碎”你

方法 6:信息分层(Hierarchy)

核心动作:用清晰的标题层级、列表、表格,给内容做”显式结构”。

LLM 在解析 HTML 时,会优先识别有显式语义标记的内容:

实证数据:Digidop 分析了 1000 个高频被 AI 引用的页面,发现共同的结构特征是:短段落(平均 3 句)、大量使用列表、显式问答格式。

方法 7:可扫描性(Scannability)

人类读者”扫读”和 AI”chunking”的需求高度一致:

这些传统上被认为是”用户体验”的设计,在 GEO 时代变成了直接的可见度信号。

6.3 技术层:让 AI 爬虫能找到、读到、信任你

方法 8:开放 AI 爬虫访问权限

这是最基础但也最常被忽略的一步。检查你的 robots.txt,确认以下爬虫没有被禁止:

User-agent: GPTBot           # OpenAI 训练 + ChatGPT 检索
User-agent: ChatGPT-User     # ChatGPT 实时浏览
User-agent: PerplexityBot    # Perplexity 实时检索
User-agent: Google-Extended  # Google Gemini 训练
User-agent: ClaudeBot        # Anthropic 训练
User-agent: anthropic-ai     # Anthropic 检索
User-agent: Bytespider       # 字节系(Doubao)
User-agent: Baiduspider      # 百度 + 文心

很多企业在过去两年因为”防止内容被 AI 训练”屏蔽了这些爬虫,结果同时也屏蔽了”被 AI 引用”的可能。训练用爬虫和检索用爬虫往往是不同的 user-agent,要分别策略。基本建议:检索类爬虫一律放行,训练类爬虫看品牌策略。

方法 9:结构化数据(Schema.org JSON-LD)

虽然 Google 在 2026 年的官方表态里说”GEO 不需要专门的 Schema”,但实际数据显示:合理的 Schema 标注仍然有助于 AI 理解你的内容实体。

对 GEO 最有价值的几类 Schema:

关键注意点:Schema 必须服务端渲染(SSR)。 很多前端框架把 JSON-LD 留给 JS 注入,结果大部分 AI 爬虫的初版抓取里根本看不到。这是非常常见的隐形 bug。

方法 10:llms.txt(争议中的新规范)

llms.txt 是 2024 年提出的一项倡议,仿照 robots.txt,放在域名根目录,用 Markdown 格式给 AI 系统提供一份”网站精华内容地图”:

# 你的公司名

> 一句话描述你做什么

## 核心产品文档
- [产品 A 介绍](https://yoursite.com/product-a): 描述
- [产品 A 技术规格](https://yoursite.com/product-a/specs): 描述

## 行业研究
- [2025 年行业报告](https://yoursite.com/report-2025): 描述

实证现状:截至 2026 年初已有约 84 万个网站采用,但效果尚未被严谨证实。Google 官方明确表态 Google 系产品不消费 llms.txt。Anthropic 和部分 RAG 系统会读取。

判断标准:实施成本极低(30 分钟)、风险为零,所以”做”。但不要把它当成 GEO 战略——它是个 nice-to-have,不是 must-have。

方法 11:内容新鲜度信号

Perplexity 严重偏好新内容(这一点是公开承认的)。AI Overviews 也对时效敏感。

具体动作:

这一项的回报率非常高。不需要重写,只需要”持续维护 + 显式标记”。

6.4 生态层:你不在自己的网站里也能赢

这是 GEO 与 SEO 最大的差异之一。SEO 时代,你的优化战场基本在自家网站。GEO 时代,你的核心战场往往在别人的网站。

方法 12:理解”引用源分布”

业内分析的一个核心发现:AI 引用的来源,绝大部分不是品牌自家网站,而是第三方权威来源。Kai-Cheng Yang 对 36.6 万条 AI 引用的分析显示,自家品牌站点占引用源的不到 5%,剩下都是新闻媒体、Wikipedia、Reddit、Stack Overflow、行业报告、学术论文。

这意味着,如果你把 80% 的 GEO 精力放在自家网站,你实际上只在争夺 5% 的引用份额。

方法 13:维基百科(Wikipedia / 百度百科 / 维基数据)

对 ChatGPT 来说,Wikipedia 是单一来源之冠。对中文 AI 来说,百度百科是文心的核心来源,互动百科和搜狗百科也被广泛抓取。

操作策略:

方法 14:Reddit / 知乎 / 小红书 / 论坛

Perplexity 高度依赖 Reddit;中文场景下,知乎、小红书、虎扑、贴吧、CSDN(技术类)是关键来源。

操作策略不是”刷”,而是”参与”:

这是个慢工夫,但回报极稳定。

方法 15:第三方报道与白皮书

要让 AI “知道”你是行业里 X 类别的领导者,最有效的方式是有第三方权威媒体或分析机构这么说。

这一类”借力”的效果,往往远超自己写 100 篇博客。

方法 16:实体一致性(Entity Consistency)

LLM 维护一个庞大的实体图谱。如果你的品牌名、CEO 名字、产品名在不同平台上拼写不一、描述矛盾,AI 会判断”这是一个不可信的实体”。

审计动作:

6.5 监测层:你不能优化你不能测量的东西

GEO 的反馈周期比 SEO 短(通常 2-4 周可见效果),但归因更困难。一套基础监测体系:

工具类型代表工具用途
手动查询监测ChatGPT、Perplexity、Doubao、Kimi 直接问最直接,但样本量小
商业监测平台Ahrefs Brand Radar、BrightEdge AI Catalyst、Profound、Otterly大规模自动监测
中文专用较少成熟工具,目前以手动为主待发展
流量归因UTM + 来源识别 + 服务器日志看 AI 平台导流

最朴素但有效的方法:列出你最关心的 30 个用户问题,每周用 5 个主流 AI 平台跑一遍,记录”我的品牌 / 内容是否被提到”。 坚持三个月,你会得到一份比任何商业工具都准确的”自家 GEO 健康表”。

七、几个必须破除的迷思

行业造概念赚钱的现象很严重,这里点几个常见误区:

迷思 1:写一个”AI 优化版”和一个”人类版”

完全没必要。Princeton 论文证明最有效的几种策略——加数据、加引用、加引语、提升流畅度——都是对人类读者也是好的内容。好内容和 GEO 优化的内容,本质上是同一件事。

迷思 2:必须做 llms.txt 才能被 AI 看见

不必须。Google 公开表态它的系统不消费 llms.txt。其他平台也大多没有公开证实。值得做,但不是核心。

迷思 3:关键词密度依然重要

不重要。Princeton 论文实测:Keyword Stuffing 在生成式引擎里完全无效,在 Perplexity 上甚至略有反效果。

迷思 4:把内容切成小片段(chunking)能提高引用率

Google 明确否认这是必要的。它的系统能处理多主题长页面。过度 chunking 反而会让内容失去叙事完整性,对人类读者不友好。

迷思 5:买”AI 提及”服务

市面上开始出现”我们能保证你被 ChatGPT 提到”的服务,绝大部分要么是短期欺骗(用类似 prompt injection 的手段污染特定查询),要么是骗钱。AI 平台对这类操纵的检测越来越严,被发现会被永久降权。

迷思 6:GEO 是营销部门的事

不是。GEO 是产品 + 内容 + 技术 + 公关的协同工程。 产品要可被结构化描述、内容要有数据和引用、技术要让爬虫读得到、公关要在第三方平台上铺生态。任何一个部门单干都不会成功。

八、一个可执行的 30 天起步计划

把上面所有方法压缩成一个最小启动序列:

第 1 周:诊断

第 2 周:内容改造

第 3 周:结构优化

第 4 周:生态铺设

30 天后,你应该能看到:至少 1-2 个目标查询里品牌可见度发生变化。这是 GEO 最快速的反馈窗口。

九、结语:内容生产的范式重置

说到底,GEO 不是一个营销技巧,是一次关于”什么是好内容”的重新定义。

在 SEO 时代,“好内容”的标准多少有些扭曲——为了关键词密度,文章会刻意重复;为了停留时间,段落会刻意拉长;为了关键词覆盖,标题党盛行。

在 GEO 时代,AI 的偏好恰恰回到了最朴素的好内容定义:有数据、有出处、有结构、有原创观点、能独立成立的段落。 这其实就是新闻系一年级教学生写新闻稿的标准——也回到了 为什么写作 这件事本身。

所以最后留下的不是技巧清单,而是一个判断:如果你的内容值得一个严肃的研究员引用,它就值得 AI 引用。 GEO 不过是把这个朴素的标准重新放回内容生产的中心。

那 800 亿美元的 SEO 产业不会消失,它会迁移、扩展、重组。而真正赢得这次迁移的,是那些早一步理解并放下旧惯性的人。

如果你今天还在写”为了被 Google 排第一”的内容,你已经晚了。 如果你从今天开始写”为了被 AI 引用为权威来源”的内容,你还在窗口里。


本文写作时引用的核心研究:

展开评论Show comments