多数从业者急于求成,忽视基础知识的夯实。问题的根源在于普遍缺乏对算法的敬畏。
过度包装履历、伪造各式成果数据;问及实际任职,几乎都是不知名的中小公司,问及理论研究,更是一问三不知。
只谈页面上哪里可以重复加几次关键词,不讨论检索机制、不讨论用户需求 —— 只管自己做什么,不管做给谁看。
在勾选联网搜索之后,整个回答流程即被称为 RAG —— 检索增强生成。做 GEO 就是做 RAG 的逆向工作:必须先搞清楚 RAG 内部做了什么,才有机会在正确的方向上发力。
进行一轮搜索,找出几十条参考资料。
GEO 做到足够好时,仅此一步就可终结战斗 —— 若几十条参考资料全部来自我们自己发布,模型后续如何理解、如何生成,竞争对手压根没有机会。
从几十篇参考资料之中分析、提取信息。
大模型全面介入,看得极为精细 —— 远超出了人类可归纳总结的最小粒度,因此理论上的唯一最优解是训练我们自己的模型来逆向其规则。
将这些信息融入回答内容之中。
通过 RL 训练自己的生成模型 —— 让它懂得 RAG 的内部逻辑,直接产出会被目标模型高优先级引用的文章。这才是真正的降维打击。
输入大部分已知 —— 知道参考语料长什么样、知道着陆页长什么样;输出完全已知 —— 知道 AI 引用率、知道关键词位置;唯独中间过程极为有限。
学术上称之为混沌系统,正如天气预报。我们必须借助统计与逻辑学工具,以溯因推理的穆勒五法为核心方法去逼近其内部规律。
粗排 → 精排 → 重排,再叠加 AI 平台自身的二次召回排序。每一关都是我们的入场券。
AI 搜索往往会基于用户提问拓展出几个搜索词。豆包直接显示其改写结果,DeepSeek 虽不直接显示,但可以通过抓包看出其实际搜索词。
我们完全可以训练一个 Query 改写预测模型:输入用户查询,输出多个改写后的搜索词。一旦平台为打击恶意 GEO 而隐藏改写结果,没有预测模型的同行就会重新陷入「盲人摸象」—— 而我们已是彻底的降维打击。
搜索词确定后,平台调用传统商业搜索接口取回几十上百个候选网页 —— GPT 用 Bing、DeepSeek 据称用博查 AI。这一必经环节内部,其实完全是 SEO 工作。
不懂 SEO,就无法确保文章出现在参考资料列表之中。竞争一旦稍上去,不会 SEO 的人想要做好 GEO,则是件绝无可能的事情。
混合检索之中,BM25 稀疏检索之外,主要就是 Bi-Encoder 的向量稠密检索。落地策略是在文章中加入高度相关的词汇。
但词与词之间相关度有高有低,人脑无法理解高维向量空间。我们基于 Qwen 系列等开源 Embedding 模型做简单开发 —— 输入一个词,直接输出其向量空间中最接近的词汇列表,这些就是极为值得融入到 GEO 文章中的词。
Cross-Encoder 让关键词与内容完整交互,从类似人类用户视角去打分。不只是相关性,还要看需求满意度 —— 内容是否切实符合用户的具体需求。
但它仍是规模较小、用于实时检索的模型 —— 若主流大模型 IQ 大致 130,它接近 80,仍存在显而易见的偏差。例如豆包检索中,文章标题是否出现「2026」一度接近必要性因素;又如排行榜类型文章效果格外突出。这些被过度看重的细节,正是我们的发力点。
传统搜索排名重要性的大致顺序:文章标题 > 文章之外的附加因素 > 文章正文。商业搜索厂家规则积年累月、极其庞杂,不会为 AI 参考语料的需求另起炉灶。
理想情况下,GEO 应主要发布到自己完全可控的网站 —— 规模化后新闻稿成本过高,第三方平台大量发布有风控与法律风险。自有站每日数万乃至数十万篇都正常,且能确保爬虫全量抓取。此处的附加因素完全是 SEO 领域的话题。
已知规律:关键词堆砌负面效果,引用补充说明非常显著的正面作用。这是地板,不是天花板。
该论文与商业需求最大的违背在于:未探讨核心问题 —— 如何把这些手段做得更好,又如何发现更多可行的手段。
以穆勒五法为主要工具,留意那些没有使用任何已知手段、却仍被高优先级引用的资料。
实操技巧:批量获取模型对海量问题的不同回答,程序化筛出「无已知手段 + 字数最少」的高优引用文章 —— 干扰少,规律更易浮现。
大模型看的细节远超人类总结能力 —— 唯一最优解是自训模型。
Reward 模型预测引用优先级,再以 GRPO 等 RL 范式训练生成模型。真正的降维打击。
不再用现成的 DeepSeek 来生成文章,而是直接用自己训练的模型生成 —— 模型已将 RAG 内部的规则迁移到了生成能力之中。
AI 平台的检索环节,本质就是调用商业搜索接口。竞争一旦上去,不会 SEO 的人想要做好 GEO,是件绝无可能的事情 —— 我们把多年累积的 SEO 工程经验,作为 GEO 的底层基建。
被动的小修小补,需要消耗的精力远比人们想象中来得更大。我们一开始就冲着理论上限去做,目标是即便竞争对手层出不穷,排名与引用也能长期稳定。
黑盒问题的研究范式:概率、推理、机器学习。以溯因推理的穆勒五法为核心方法,在 SEO 和 GEO 之间大体共通 —— 这是真正深入无人领域去做研究的方式。
Query 改写预测、Embedding 相关词挖掘、Reward 模型、RL 生成模型 —— 一旦平台政策变化或同行追上来,已建立起来的模型壁垒,是别人难以一夜之间补齐的护城河。
在「检索」一步就终结战斗,让模型看到的几十条参考资料全部来自我们。
自训模型预测豆包等平台的改写结果,提前锁定真正该操作的关键词。
基于 Qwen 等 Embedding 模型,输出与目标词向量空间最接近的词汇列表。
针对 Cross-Encoder 在标题、时间、结构化排行等维度的偏好做精细对齐。
在自己完全可控的网站上规模化发布,确保抓取,覆盖文章之外的所有附加因素。
训练 Reward 模型 → GRPO 训练生成模型,直接产出高优先级被引用的内容。
只要把效果做到比其它竞争对手相对而言都更好那么一点,就能在 AI 模型的回答之中以最高优先级被引用,拥有最大化的效果。我们远不必真的做到理论上限 —— 但我们始终记得它在哪里。