Google Search Console和Google Analytics数据无法匹配

关于Google Search Console（GSC）的一个普遍抱怨是，与Google Analytics（分析）结果相比，数据“不准确”。

您尝试通过来自Google Search Console的点击来排定来自分析的到达页面的访问量，而这些数字远没有结束。然后，您对“未提供”一词含糊其词，并向朋友发送即时消息，告知您过去可以在分析中看到关键字的过去。

虽然这是精度问题，但它本身并不是精度问题。数据差异实际上是设计使然。让我们深入研究细节，找出原因。

Google Search Console和Google Analytics（分析）不会衡量相同的事物

简短的解释是，这两个数据源具有不同的测量方法。GSC是根据查询和单击或选择日志构建的，因此数据将与您自己的访问日志文件（您希望通过DevOps请求访问日志文件分析的文件）所期望的数据有些相似。相反，您的分析包会通过JavaScript 从点击流中收集数据。这本质上引入了很多的变数如何事情都可以测量，以及什么样的东西。

为了更好地了解是什么原因导致了GSC和分析之间的数据差异，您首先需要了解每种工具如何收集和理解用户行为数据。

查询和选择（点击）日志的剖析

Google对搜索质量的不懈追求自然促使他们为每个搜索和每个搜索者跟踪大量的数据点，以期全面了解SERP中发生的事情。

查询和选择（点击）日志的剖析

尽管有很多证据表明，尽管有相反的证据，他们不允许点击和点击率影响排名，但他们也表示，他们使用点击数据来评估效果。

为什么使用Google Search Console＆; Google Analytics（分析）数据不匹配

这一直是面向公众的Google员工和SEO之间正在进行的争论之一。就个人而言，我认为Google的一面是语义论点。有几种信息检索标准的评估措施，例如：

点击次数
SERP放弃
会话成功率
等等。

您可能会想到，Google拥有自己的风格，称为“ 点击次数，注意力和满意度”模型。

在名为“将点击，注意力和满意度纳入搜索引擎结果页面评估模型”的论文中进行了讨论，并结合了基于时间的排名专利中强调的基于点击的方法，这表明有人至少花时间考虑如何点击次数可能会影响排名。

根据埃里克·施密特（Eric Schmidt）在2011年的证词，谷歌进行了“ 13,111次精确度评估”。那将是平均每天〜35。

因此，可以合理地假设，如果您始终在生产环境中进行评估（如搜索小组一样），那么用户点击总是有可能影响排名。

然后是基于语料库搜索统计数据的专利修改搜索结果排名中的这一节，它讨论了搜索日志以及它们将来如何影响排名：存储在会话日志2060中或搜索日志中的信息可以由排名修改器引擎2070使用，以生成一个或多个信号发送给排名引擎2030。通常，可以收集各种各样的信息，并将其用于修改或调谐来自用户的信号以生成信号，并提供将来的搜索结果，从而更好地满足用户的需求。因此，可以使用一个或多个语料库的用户选择来发布搜索，以及与呈现给信息检索系统用户的搜索结果进行用户交互，以改善未来的排名。

然而，最有趣的是这些日志除了具有更有价值的信号外，还具有很多噪声的概念。这表明从完全按面值获得点击是错误的。

查询日志的视觉表示

我们在谈论什么类型的噪音？例如，排名工具代表多少印象？您在自动建议中按回车几次，然后意识到它触发了对“粉丝”而不是“神奇4”的搜索？或者，当您在移动设备上滚动而又不小心用手指弄错了结果时该怎么办？

这些都是Google收集的数据可能存在大量不准确之处的所有示例，因此需要加以考虑。谢谢你允许我把它放在一边。

OK，那么日志文件中包含什么？

如果Google Search Appliance文档现已失效（可能不是），则查询和单击日志只是文本文件，用于记录有关用户及其与SERP交互的数据。该文档讨论了搜索日志，搜索日志可能与Google专利中提及的查询和点击日志相同，也可能不同。

尽管是系统的简化版本，但它使我们对所跟踪的内容有所了解-用户的功能，他们的查询以及他们单击的内容。在Google的“ 从搜索引擎查询日志专利生成统计信息的系统和方法”中进行了更深入的探讨，他们进一步讨论了可以为诸如Google趋势之类的工具提供支持的系统如何运行。

在本次讨论中，我假设基础数据集与为Google Search Console和Google Ads关键字规划师提供支持的功能相似。他们谈论查询日志如下：网络搜索引擎每天可能会收到来自世界各地用户的数百万条查询。对于每个查询，搜索引擎都会在其查询日志中生成一条查询记录。查询记录可以包括一个或多个查询词，指示搜索引擎何时接收查询的时间戳，标识从其提交查询词的唯一设备（例如，PC或手机）的IP地址，以及与提交查询词的用户相关联的标识符（例如，Web浏览器cookie中的用户标识符）。

换句话说，搜索引擎查询日志是GSA搜索日志的更健壮的版本。作者将在稍后的专利中进一步详细解释，并讨论如何跟踪Cookie，设备，用户语言和位置。

它们还提供了下图，以可视方式表示了查询日志中收集的数据：该专利为系统赋予了更多色彩，讨论了会话记录的概念，这是一种确定给定用户在给定时间范围内是否执行了相同或相似搜索的机制。

在衡量和报告展示次数和/或搜索量时，这一点尤其重要：查询会话记录包括时间间隔紧密的查询和/或与相同用户兴趣相关的查询。在一些实施例中，查询会话提取过程是基于启发式的。例如，即使连续查询共享某些查询词，或者即使它们之间没有共同的查询词，也要在预定义的时间段（例如十分钟）内提交，则它们属于同一会话。

上面提到的启发式搜索可能是Search Console和您的分析软件包永远不匹配的原因的核心。从本质上讲，作者的意思是Google会在其查询日志中做出决定，以确定您会话中的搜索是否足够独特以至于被记录为不同的内容。

因此，您可能会认为这是两次不同的访问，因为它们来自两次不同的搜索，分别访问了两个不同的着陆页，因此有可能被视作一次搜索，因此，根据其在Google查询日志中的记录方式，就会获得一次印象。

谷歌搜索日志

另一方面，单击日志为用户提供了一系列结果后，会提供有关用户行为的更多信息。基于语料库搜索统计专利的修改搜索结果排名揭示了可以存储在此数据集中的内容（重点是我的）：所记录的信息，包括结果选择信息，可以存储在会话日志2060中。在一些实施方式中，搜索数据和结果选择信息被存储在搜索日志中。在一些实施方式中，记录的信息包括日志条目，该日志条目指示f 或每个用户选择，查询（Q），文档（D），两次连续选择的搜索结果之间的时间（T），采用的语言（L）用户以及用户可能所在的国家（C）（例如，基于用于访问IR系统的服务器）。在一些实施方式中，还记录与具有呈现的排名的用户交互有关的其他信息。，包括否定信息，例如文档结果被呈现给用户但未被点击的事实，用户界面中点击的位置，点击结果的IR得分，所有显示结果的IR得分在点击结果之前，在点击结果之前向用户显示的标题和摘要，用户的cookie，cookie的年龄，IP（Internet协议）地址，浏览器的用户代理等。还可记录更多信息，例如针对查询返回的搜索结果，其中搜索结果是分类为一个或多个语料库的内容项。在一些实施方式中，针对整个会话或用户的多个会话记录类似的信息（例如，IR分数，位置等）。在一些实施方式中，相似信息的记录不与用户会话相关联。在某些实现中，将为当前单击之前和之后发生的每次单击记录此类信息。

尽管Google Search Console仅显示了这些信息的一小部分，但很显然Search Analytics工具实际上是基于此数据集构建的有限的用户界面。

这里有趣的是提到了整个SERP中可能发生的活动。这表明不仅可以跟踪每次点击，还可以跟踪SERP中产生结果位置的原因。

什么决定点击？

Google Search Appliance面向公众的文档没有指出什么是点击或印象。例如，如果我搜索一个关键字并单击一个结果，然后单击并再次单击相同的结果，那么Google是否考虑两次或一次不同的点击？但是，“ 从搜索引擎查询日志中生成统计信息的系统和方法”为该问题的答案提供了一些见识。

首先要知道的是，他们经常对数据进行采样。在Google趋势环境中，这很有意义。但是，作者确实注意到在某些用例中可能无法对数据进行采样。

从查询得到可靠的统计信息记录108，它并不总是需要调查的所有查询记录在查询日志（也称为此日志记录或交易记录）。只要从查询日志中足够数量的样本中得出统计信息，该信息就与从所有日志记录中得出的信息一样可靠。此外，调查次抽样查询日志所花费的时间和计算机资源更少。因此，查询日志采样过程110可以用于对查询日志108进行二次采样并产生二次采样的查询日志112。例如，二次采样的查询日志112可以包含百分之十或百分之二十的日志记录。在原始查询日志108中可以看到。采样过程是可选的。在一些实施例中，整个查询日志108用于生成统计信息。

Google似乎也深深地认为，两个类似查询的查询可以代表一个搜索。这种思路是导致工具之间度量差异的核心组成部分。

由于Google最近已采取行动，使单数形式和复数形式的关键字具有相同的搜索量，这在很大程度上引起了搜索社区的困扰，因此，有必要对这一问题有内部的看法。

我已经在下面完整地介绍了他们对专利的讨论（重点是我的）：例如，用户可以首先提交查询“加利福尼亚帕洛阿尔托的法国餐馆”，以查找有关加利福尼亚帕洛阿尔托的法国餐馆的信息。随后，同一用户可以提交新的查询“加利福尼亚帕洛阿尔托的意大利餐厅”，以查找有关加利福尼亚帕洛阿尔托的意大利餐厅的信息。这两个查询在逻辑上相关，因为它们都与在加利福尼亚州帕洛阿尔托的餐馆搜索有关。这种关系可以通过以下事实证明：两个查询在时间上紧密地提交，或者两个查询共享一些查询词（例如“ restaurant”和“ Palo Alto”）。

在一些实施例中，这些相关查询被分组在一起成为查询会话，以更准确地表征用户的搜索活动。查询会话由来自单个用户的一个或多个查询组成，包括在短时间段（例如十分钟）内提交的所有查询，或具有可能在一个或多个范围内延伸的具有重叠或共享查询项的查询序列。更长的时间（例如，单个用户在长达两个小时的时间内提交的查询）。关于不同主题或兴趣的查询将分配给不同的会话，除非查询是非常连续地提交的，否则不会分配给包含其他类似查询的会话。寻找Palo Alto餐馆的同一用户可以稍后提交查询“ iPod Video”，以获取有关Apple Computer生产的新产品的信息。此新查询与Palo Alto餐馆的兴趣或主题不同，因此不会与与餐厅相关的查询归为同一会话。因此，来自单个用户的查询可能与多个会话相关联。与同一用户相关联的两个会话将共享相同的cookie，但是将具有不同的会话标识符。

可以说，谷歌搜索引擎背后的日志记录使用一系列特定的方法来确定什么是独特的搜索和独特的点击。这可能与您的看法或您的分析平台配置为相信会话的看法一致或不一致。

Google Analytics（分析）如何确定会话

另一方面，Analytics套件也遵循一系列方法来衡量用户及其活动。根据分析软件包的不同，可以定义“会话”或访问。

根据Google Analytics（分析）文档，“默认情况下，会话会一直持续到不活动30分钟为止，但是您可以调整此限制，以使会话持续时间从几秒钟到几小时不等。”

因此，虽然我们不知道Google搜索会议的确切时间，但是上面摘录中考虑的数字肯定少于30分钟。

在一项与Google Analytics（分析），聚合分析数据的系统和方法有关的专利中，作者谈论了如何通过会话ID来跟踪用户以及该机制如何失效：会话ID通常是在访问者首次访问网站时授予的。它与用户ID的不同之处在于，会话通常是短暂的（会话在预设的闲置时间（可能是几分钟或几小时）后过期），并且在达到某个目标（例如，一旦买方完成订单后，他不能使用相同的会话ID添加更多商品。

结果，对于相同的访问，可以潜在地多次测量用户。分析套件是复杂的环境，允许在其配置中使用不同级别的特异性。有很多原因导致您看不到两个分析程序包之间的一致性，更不用说两个用于测量不同事物的工具了。

为什么两个不匹配

简而言之，Google Search Console点击不是Google Analytics（分析）会话，Google Analytics Session不是Google Search Console的点击。

在上述情况下，用户单击了两次，则可以认为是两次单击和一个会话。

为什么两个不匹配

或者，如果用户要执行两次不同的搜索并做出两次不同的点击，则他们的活动可以被视为一次印象和一次点击，但是他们也可能在某些时候使会话ID无效或超时，并被视为两次不同的访问。或者考虑一下：用户点击了您的结果，但是由于多种原因，您的分析没有触发。这说明了分析并非总是最可靠的事实来源的众多原因。

最后，GSC使用规范的URL，而分析可以使用任何URL来报告会话。Google 在他们的文档中谈到了这一点。

但是，他们的讨论更多地是在解释GSC与GA整合的背景下的差异，而不是解释测量方法上的差异.

GSC与Analytics（分析）之间的资料差异

为什么这是个问题？

核心问题是，许多营销人员不相信GSC的数据，因为他们认为分析是其真实性的主要来源。忽略所有分析方法固有的缺陷，我认为来源之间的均等性是不现实的，并且我们正在研究同一事实的两个方面，只是衡量方法不同。

Google Search Console的效果数据可以衡量Google本身发生的情况，而不必衡量您网站上发生的情况。

哦，当我们在讨论的时候，请不要忘记GSC的排名数据所衡量的与您的排名数据有所不同。

如何获取更多精确数据

实际上，随着您对网站的查看方式更加专一，在Google Search Console中报告的数据的准确性实际上会提高。换句话说，如果您创建的配置文件反映了目录结构的更深层次，则该工具将产生更多数据。

向您的Google Search Console添加10或数百个子目录可能很繁琐，但事实证明，数据精度的提高对于A / B测试和理解突破性关键字机会等用例非常有帮助。

如何获得更精确的数据

添加大量配置文件时，要记住的主要限制是GSC用户界面将每个搜索过滤器限制为1,000个查询。因此，您应该考虑使用API提取数据，因为每个搜索过滤器会返回5,000。另外，要提取尽可能多的数据，您应考虑循环搜索搜索过滤器（S / O至William Sears）。

这样可以确保您使用尽可能多的单词子集作为过滤器，以提取尽可能多的结果。通过子目录执行此操作并遵循站点的分类法，将使您可以获得最精确的数据。

没有完全相同的事物

自2011年底“（未提供）”首次亮相以来，我们就知道我们的自然搜索数据会受到侵蚀。实际上，我们永远不会生活在一个可以将访问直接与会议联系在一起的世界中。

Google Search Console提供的数据是我们今后将要获得的最好的数据。尽管数据与您的真实来源不符，但这并不意味着它不准确。

您不应该期望Facebook Ads数据与Google Analytics（分析）匹配，也不希望Kibana中的日志文件报告与Adobe Analytics相同，您也不应期望Google Search Console与您的分析数据匹配。