顶部

首页

大模型评估: 初学者入门

海外网

大模型评估: 初学者入门

更新时间：2025-09-05 11:34:42　浏览次数： 258

大模型的风口已至，但评估却始终是一道“看不清又绕不过”的门槛。本篇文章将从基础概念出发，手把手引导初学者理解大模型评估的核心逻辑与方法体系，厘清技术指标背后的实际含义，为后续深入探索打下坚实的认知地基。

OpenAI的首席产品官（CPO）KevinWeil在一次播客访谈中提到：“编写评估将成为AI产品经理的一项核心技能。这是用AI打造优秀产品的关键一环”

Anthropic的CPOMikeKrieger在与Weil的对谈中同样强调，产品领导者必须开发出色的评估指标，以准确衡量AI模型的能力和产品的成功。

这些观点将“大模型评估”的地位从一个单纯的测试环节，提升到了与产品管理、用户体验设计同等重要的战略高度。

基于这样的背景，本文专为所有从事大语言模型（LLM）相关产品工作的从业人员（从产品经理到开发和测试人员）而写，旨在提供一份清晰易懂的“LLM评估入门指南”。

这篇文章将用通俗易懂的方式，讲解评估LLM应用的基础知识。只要你对如何在产品中应用LLM有基本了解，就能轻松上手。

本文涵盖以下内容：

评估LLM与评估LLM产品，两者有何不同？

从人工标注到自动化评估，有哪些主流的评估方法？

从产品实验到持续监控，何时需要进行LLM评估？

我们将聚焦于评估的核心原则与工作流程。所谓LLM评估（evals），就是评价模型的性能，确保其输出结果准确、安全，并能满足用户需求。

模型评估：侧重于模型的基础能力，如编码、翻译、数学解题等，通常用标准化的基准（benchmark）来衡量。

LLM产品评估：侧重于评估整个LLM应用系统在其特定任务上的表现，会同时使用人工和自动化方法。

在具体方法上，评估可以由领域专家或审核员人工进行，也可以自动化进行。

自动化评估又分为两类：

一类是有参考评估，在实验或测试中，将模型输出与标准答案进行比对；

另一类是无参考评估，直接评价输出内容的质量，常用于生产环境的监控和安全防护。在众多方法中，“LLM作评判”（LLM-as-a-judge）是目前非常流行的一种。

在深入探讨评估之前，先明确一下评估的对象。

什么是LLM产品？

LLM产品，或称LLM应用，是指将大语言模型（LLM）作为其核心功能一部分的产品。

这些产品形态各异，既可以是面向用户的客服聊天机器人，也可以是公司内部使用的营销文案生成器。可以将LLM功能嵌入现有软件，比如让用户通过自然语言查询数据；也可以完全围绕LLM打造一个全新的应用，比如对话式AI助手。

以下是一些实际案例：

构建一个由LLM驱动的客服聊天机器人。

为数字销售代理开发了一款AI助手。

帮助数据分析师用自然语言编写SQL查询。

检测用户评论中的不当言论。

从非结构化的招聘广告中提取关键岗位信息。

这些应用都依赖于LLM，LLM本身是基于海量数据训练出的模型，能通过指令提示（Prompt）处理各种任务，如内容创作、信息提取、代码生成、翻译或进行完整对话。

有些任务，比如生成一句产品描述，可能一个提示就足够了。但大多数LLM应用会更复杂。可能会将多个提示串联起来，形成一个“提示链（promptchain）”，例如在一个写作助手中，先生成文案，再调整风格。

检索增强生成（RAG）是一种非常流行的LLM应用类型。这个名字听起来复杂，但概念很简单：将LLM与搜索技术相结合。当用户提问时，系统首先检索相关资料，然后将问题和这些资料一并交给LLM，从而生成更精准的答案。例如，一个基于RAG的客服机器人可以从帮助中心数据库里查找信息，并在回复中附上相关文章的链接。

此外，还可以创建LLM驱动的智能代理（Agent），让它自动化处理需要按步骤推理的复杂工作流，比如修改代码、规划并预订一次旅行。智能代理不仅能生成文本，还能使用提供的工具，例如查询数据库或发送会议邀请。一个复杂的代理系统可能涉及多步规划、数十个提示以及用于追踪进度的“记忆”功能。

在开发这些LLM应用的过程中，我们总会问自己：

产品运行得怎么样？

能处理好我预想的所有场景吗？

还有哪些地方可以改进？

要回答这些问题，就需要进行LLM评估。

什么是LLM评估？

LLM评估（简称“evals”）旨在评价大语言模型的性能，确保其输出结果准确、安全，并符合用户需求。

这个术语通常用于两种不同的情境：

评估模型本身。

评估基于LLM构建的应用系统。

尽管两种评估在方法上有所重叠，但它们的本质截然不同。

1.模型评估

直接评估大模型时，我们关注的是它的“原始”能力，比如编码、翻译或解数学题。研究人员通常使用标准化的基准测试（Benchmark）来完成这项工作。例如，他们可能会评估：

模型对历史事实的掌握程度。

模型的逻辑推理能力。

模型如何应对不安全或对抗性的提问。

目前已有数百个LLM基准，每个都有自己独特的测试集。大多数基准包含有标准答案的问题，评估过程就是看模型的回答与标准答案的匹配度。有些基准则采用更复杂的方法，比如通过众包对模型的回答进行排序。

LLM基准可以直观地比较不同模型。许多公开的排行榜会展示各个LLM在基准上的表现，帮助回答“哪个开源LLM更擅长编码？”这类问题。

尽管LLM基准在选型和追踪行业进展时很有用，但它们并不太适合用来评估一个具体的应用。

因为基准测试的是通用能力，而不是应用需要处理的特定场景。同时，它们只关注LLM本身，而一个完整的产品还包含其他部分。

2.产品评估

LLM产品评估，评估的是整个系统在其特定任务上的表现。

这不仅包括LLM，还包括所有其他部分：提示、将它们连接起来的逻辑、用于增强回答效果的知识库等等。还可以在更贴近真实场景的数据上进行测试，比如使用真实的客户支持问题。

这类应用层面的评估通常关注两大方面：

能力（Capability）：产品是否能很好地完成预定任务？

风险（Risk）：它的输出是否可能带来危害？

具体的评估标准因应用场景而异。“好”与“坏”的定义取决于具体用途。比如要开发一个问答系统，可能需要评估：

正确性：回答是否基于事实，没有捏造内容（即“幻觉”）？

帮助性：回答是否完整地解决了用户的问题？

文本风格：语气是否清晰、专业，并符合品牌风格？

格式：回复是否满足长度限制，或者是否总是附上信息来源链接？

在安全方面，可能需要测试问答系统是否会产生有偏见或有害的输出，以及在受到诱导时是否会泄露敏感数据。

在设计评估方案时，需要根据应用的目标、风险和已发现的错误类型来确定评估标准。这些评估应该能真正帮助我们做决策，比如：新的提示效果更好吗？应用可以上线了吗？

以“流畅性”或“连贯性”这类标准为例，大多数现代LLM在生成通顺自然的文本方面已经做得很好。一个完美的流畅性得分在报告上可能很好看，但并不能提供太多有效信息。

不过如果使用的是一个能力较弱的小型本地模型，那么测试流畅性可能就很有必要。

即使是评估标准也并非放之四海而皆准。在多数情况下，事实准确性至关重要。但如果开发的是一个用于头脑风暴、构思营销创意的工具，那么“天马行空”或许正是用户想要的。在这种情况下，我们更关心的可能是输出的多样性和创造力，而不是事实准确性。

这就是LLM产品评估与基准测试的核心区别。基准测试像学校考试，衡量的是通用技能；而LLM产品评估更像是工作绩效考核，检验的是系统在它所“受雇”的特定岗位上是否表现出色。

核心要点：每个LLM应用都需要一套量身定制的评估框架。

评估标准既要有用（关注真正重要的问题），又要有区分度（能有效反映不同版本间的性能差异）。

为什么LLM评估如此困难？

LLM评估之所以复杂，不仅因为质量标准是定制的，还因为其评估方法本身就不同于传统的软件测试和机器学习。

1）输出的非确定性：LLM的输出是概率性的，这意味着对于同一个输入，它每次可能给出不同的回答。这虽然带来了创造性和多样性，但也让测试变得复杂：必须检查一系列可能的输出是否都符合预期。

2）没有唯一的标准答案：传统的机器学习系统（如分类器、推荐系统）处理的是预定义好的输出。例如，一封邮件要么是垃圾邮件，要么不是。但LLM通常处理的是开放式任务，比如写邮件或进行对话，这些任务存在多个合理的答案。例如，写一封好邮件的方式有无数种。这意味着不能简单地将模型输出与某个参考答案进行精确匹配，而是需要评估模糊的相似性或主观质量，如风格、语气和安全性。

3）输入范围极其广泛：LLM产品通常要应对各种各样的用户输入。例如，一个客服机器人可能要回答关于产品、退货的咨询，或帮助解决账户问题。需要基于不同场景进行测试，才能覆盖所有预期的输入。如何创建一个高质量的评估数据集本身就是一个不小的挑战。

4）线上线下表现不一：更重要的是，在测试中表现良好的系统，在实际应用中不一定同样出色。真实用户可能会向系统抛出各种意想不到的输入，完全超出计划。为了应对这种情况，需要有办法在生产环境中观察和评估线上质量。

5）独特的风险：使用这种基于自然语言指令的概率性系统，会带来一些新型的风险，包括：

幻觉（Hallucination）：系统可能生成虚假或误导性的信息，比如编造一个不存在的产品。

越狱（Jailbreaking）：恶意用户可能试图绕过安全限制，诱导模型产生有害或不当的回答。

数据泄露（DataLeakage）：LLM可能无意中泄露其训练数据或所连接系统中的敏感信息。

需要一个完善的评估流程来应对所有这些挑战：对系统进行压力测试，发现其弱点，并监控其实际表现。

LLM评估方法

LLM评估通常发生在两个关键阶段：部署前和发布后。

在开发阶段，需要检验应用在迭代过程中是否足够好。一旦上线，就需要监控它的实际运行情况。无论哪个阶段，评估都始于数据。

测试数据：用于模拟LLM可能遇到的各种场景的样本输入。可以手动编写测试用例，也可以利用模型合成，或是从早期用户那里收集。有了这些输入，就可以测试的LLM应用如何响应，并根据成功标准来评估其输出。

生产数据：应用上线后，一切都取决于它在真实用户中的表现。需要捕获系统的输入和输出，并对线上数据进行持续的质量评估，以及时发现问题。

无论是在测试还是生产环境，都可以选择人工评估和自动评估。

1.人工评估

最开始，我们可以做一些简单的“直觉检查”，问自己：“这些回答看起来对吗？”

在创建第一个版本的提示或RAG系统后，可以输入几个样本问题，然后肉眼检查回答。如果结果偏差太大，就调整提示或修改方法。即使在这个非正式的阶段，也需要准备一些测试用例。例如，为客服机器人准备几个有标准答案的示例问题。每次做出修改后，都重新评估系统处理这些问题的效果。

虽然这种方法能帮我们快速发现问题并激发新的想法，但它并不可靠，也无法重复。随着开发的深入，需要更有条理的方法——包括一致的评分标准和详细的结果记录。

一种更严谨地利用人类专业知识的方法是标注（Annotation）：建立一个正式的工作流程，让测试人员根据预设的指南来评估回答。

他们可以给出“通过/失败”这样的二元标签，也可以评估特定维度，比如检索到的上下文是否“相关”，或回答是否“安全”。还可以要求审核员简要说明他们的判断依据。

为了让标注过程高效且一致，必须提供清晰的指南，例如要求测试人员专门寻找某些类型的错误。也可以让多个人评估同一个样本，以发现和解决意见分歧。

人工评估是判断LLM应用是否正常工作的最可靠的方法。作为产品构建者，最清楚在应用场景中，“成功”意味着什么。在医疗等高度专业化的领域，可能还需要引入领域专家来辅助判断。

尽管人工评估价值巨大，但成本高。不可能每次修改提示都去人工审查成千上万个输出。要实现规模化就需要自动化。

2.自动化评估

自动化评估主要分为两种类型：

有标准答案（基于参考）：将LLM的输出与一个预设的参考答案进行比较。

没有标准答案（无参考）：直接为模型的回答分配一个量化分数或标签。

有标准答案的评估

这类评估依赖于预先定义好的正确答案——通常被称为“参考答案”、“基准答案（groundtruth）”或“黄金答案（golden）”。

例如，在一个客服系统中，对于问题“们的退货政策是什么？”，参考答案可能是“您可以在30天内退货。”可以将聊天机器人的实际输出与这个已知答案进行比较，以评估其正确性。

这类评估本质上是离线的。通常在迭代应用或将新版本部署到生产环境之前运行这些测试。

要使用此方法，首先需要一个评估数据集：一个包含样本输入及其对应标准答案的集合。可以自己生成这样的数据集，也可以从历史日志中整理，比如使用人工客服过去的回答。这些用例越能反映真实世界，的评估就越可靠。

数据集准备好后，自动化评估的流程如下：

输入测试样本。

从系统中生成回答。

将新生成的回答与参考答案进行比较。

计算整体的质量分数。

这里的难点在于第三步：如何比较回答与参考答案？

精确匹配：看新回答是否与参考答案一字不差。但通常过于严格，在开放式场景中，不同的措辞可以表达相同的意思。

为了解决这个问题，可以使用其他方法，比如量化两个回答之间的词语重叠度，使用嵌入（embedding）来比较语义，甚至可以请求另一个LLM来判断它们是否匹配。

以下是一些常见的匹配方法：

在判断单个回答的正确性后，就可以分析系统在整个测试集上的整体表现了。

如果LLM被用于预测任务，则可以使用经典的机器学习质量指标。

3.没有标准答案的评估

然而，并非所有场景都有标准答案。对于复杂、开放式的任务或多轮对话，很难定义一个唯一的“正确”回答。在生产环境中，更没有完美的参考答案：评估的是实时传入的未知输出。

此时，可以进行无参考的LLM评估。它们不将输出与固定答案比较，而是直接评估输出的特定质量，如结构、语气或含义。

一种方法是使用LLM作为评判者（LLM-as-a-Judge），即利用另一个语言模型，根据一套规则来为输出打分。例如，LLM评判者可以评估聊天机器人的回答是否完整，或者输出的语气是否一致。

但这也不是唯一的选择，以下是一些常见方法：

这些无参考的评估方法既可以在迭代开发期间使用（例如，优化输出的语气或格式时），也可以用于监控生产环境的性能。

虽然在这种情况下无需标注标准答案，但仍需做一些前期工作，重点在于：

策划多样化的测试输入。

精心设计和调优大模型评估器。

LLM评估的应用场景

总而言之，所有LLM评估都遵循相似的结构：

1.明确构建的目标或任务。

2.根据特定标准/指标评估输出。

3.收集和创建评估数据集（测试或生产数据）。

4.决定评估方法（人工、自动或混合）。

确定任务

设计指标

整理数据

选择方法

观察结果

做出调整

以下是LLM产品生命周期中的一些常见评估场景：

1.对比实验

（为AI产品选择最佳的模型、提示或配置。）

项目刚开始时，第一步通常是进行模型对比。可以查看排行榜，挑选几个候选LLM，并用真实数据测试它们。另一个常见的比较任务是找到最佳提示（PromptEngineering）。

“用简单的话解释”和“写一个总结摘要”，哪个效果更好？

如果把任务分解成多个步骤，效果会怎样？

如果在提示里加入一些期望风格的例子呢？

微小的调整往往会带来巨大的差异，因此在数据集上系统地测试每个版本至关重要。

每次更改都是一个新的实验，需要LLM评估来比较它们的结果。这意味着我们需要一个精心策划的测试数据集和自动化的性能衡量方法。

可以同时使用有参考的评估方法（如与理想摘要比较）和无参考的评估方法（如检查所有输出是否遵循设定格式）。

在尝试复杂方案之前，先试试简单的方法，这为评估提供了一个明确的衡量进展的起点。

2.压力测试

（通过评估产品在各种场景下的表现，检查它是否为实际使用做好了准备。）

当模型和提示策略基本确定后，就该进行更彻底的测试了。我们构建的系统可能在十几个测试用例上运行良好，但几百个、几千个呢？

这意味着要添加更多的测试用例，既要覆盖常见的场景，也要考察系统如何处理更棘手的边缘情况（EdgeCases）。

如果输入只有一个词怎么办？如果太长了呢？

如果是另一种语言或错别字呢？

系统如何处理它不应涉及的敏感话题？

设计这些测试需要深入了解用户如何与产品互动。最终，为每个主题或场景都建立一套评估方案。

从技术上讲，压力测试与对比实验没有太大区别。

区别在于重点：不是在探索哪个选项更好，而是在检查当前版本的产品是否足够健壮，能否应对用户可能抛出的各种问题。

3.红队测试

（测试系统如何响应对抗性行为或恶意使用。）

红队测试是一种模拟攻击的测试技术，例如通过提示注入（PromptInjection）等方式，发现系统中的漏洞。这是评估高风险应用安全性的关键步骤。

压力测试关注的是有挑战性但合理的场景，而红队测试则专门针对滥用。它寻找的是恶意行为者可能利用系统、将其推向不安全或意外行为（如提供有害建议）的方法。

例如，对于一个医疗聊天机器人，测试它如何安全地处理医疗问题属于其核心功能范围。但对于一个通用的问答机器人，医疗、金融或法律问题就超出了其预期用途，可被视为对抗性输入。

红队测试可以手动进行，也可以通过合成数据和有针对性的提示来自动化地模拟各种风险。

4.生产环境可观察性

（了解系统的实时性能，以便检测和解决问题。）

离线评估终究有限，当产品面向真实用户后，需要了解它在实际使用中的表现。这就引出了生产环境可观察性（Observability）。

一旦产品上线，就需要追踪其性能。

用户体验好吗？回答是否准确、安全？

可以从追踪用户行为开始，比如收集点击率或点赞/点踩等反馈。

但要获得更深入的洞察，需要追踪用户提出的问题以及系统如何响应。这就需要收集跟踪记录所有交互的详细日志。

有了这些日志，就可以通过在线评估来评价生产环境中的质量。可以使用无参考的评估方法（如LLM作评判、专用模型或正则表达式）自动处理每个新输出，看它们在特定标准下得分如何。

还可以通过A/B测试来检验改动效果。例如，将新提示部署给10%的用户，并比较性能指标，看它是否提升了质量。

5.回归测试

（测试新的改动是否在改进系统的同时，没有破坏以前正常工作的功能。）

即使产品已经上线，仍然需要离线评估来运行回归测试。它能验证所做的更改没有引入新的（或旧的）问题。

修复一个问题后，会不会影响其他功能？

微调一个提示后，有多少以前的输出会改变？这些改变是好是坏？

系统化的回归测试可以让我们更安全地在现有系统之上进行迭代，确保在做出改进的同时，没有引入新的问题。

6.安全护栏

（在运行时检查，检测LLM输入或输出中的质量问题。）

大模型驱动的产品，在输入和输出的过程中，有时需要立即发现危险的信息并过滤或阻拦。这些实时的验证被称为安全护栏（Guardrails），充当系统响应和用户之间的安全网。

从内部看，这些检查与无参考评估相同，但它们被直接内置到应用中并实时运行。例如，可以检查：

输入：检测有问题的查询，如关于禁用主题或包含有害语言的问题。

输出：检测响应是否包含个人身份信息或敏感信息。

当检测到问题时，系统可以阻止响应并显示一条回退消息（如“抱歉，我无法提供帮助”），或者采取补救措施，比如删除敏感数据。

由于额外的处理会引入延迟，安全护栏通常只用于最关键的风险，如阻止有害内容或识别敏感信息。

总结

好消息是：AI还没有完全接管一切。即使是基于LLM的产品，仍然需要人类来管理质量，需要人类设计和维护一个自动化的评估系统。

坏消息是：LLM评估并不简单。每个应用都需要根据其具体用途、针对性的风险和潜在的失败模式，来定制一套评估方法。

从最初的产品构思到生产环境的维护，在每个阶段都需要评估。

这些工作流程环环相扣：

从对比实验开始，找到最佳方案。

在发布前进行压力测试和红队测试，为各种情况做准备。

应用上线后，安全护栏可以帮助预防重大问题。

产品投放生产后，通过生产可观察性持续监控实时数据。

如果出现问题，修复后运行回归测试，然后推出更新。

自动化评估和人工评估相辅相成。虽然人工标注能提供最明确的信号，但自动化评估有助于规模化地复制和应用这些洞察。

所有这些评估工作不仅仅是为了计算指标，更是为了：

构建更好的AI产品：打造可靠、能为真实用户服务的应用。

预防故障：及早发现问题，覆盖从边缘情况到生产错误等各种意外。

更快地迭代：没有评估，做任何改动都既缓慢又有风险。自动化的评估能运行更多实验，更快地发布更新。

一个可靠的LLM评估流程还有一个额外的好处：它会自然而然地促使我们收集高质量的标注数据。未来可以用这些数据来进一步优化系统，比如用更小的模型替代大模型，优化生产提示，甚至微调核心模型。

大模型评估: 初学者入门24小时观看热线：122。大模型评估: 初学者入门全市各区点热线号码。☎：122

大模型评估: 初学者入门24小时观看热线拥有专业的观看技师，快速的上门，为你的生活排忧解难。如您有以下需要我们来解决的问题请尽快与我们联系。我们能为您排除各种故障，特别是疑难杂症。

1.热情专业的团队

大模型评估: 初学者入门是您解决问题的最佳选择。我们拥有一支热情、专业的团队，竭诚为您提供优质的。无论您遇到哪些问题或疑虑，只需拨打122，我们的将会耐心倾听并提供您所需的帮助。您的满意是我们的追求。

2.红色字体，标志品质保障

当您拨打大模型评估: 初学者入门的电话热线122时，您会惊喜地发现号码是以鲜艳的红色字体显示。这不仅是为了吸引您的注意，更是对我们产品卓越品质的保证。红色代表着力量和热情，我们希望通过热情的为您提供最可靠的解决方案，确保您的使用体验无忧无虑。

3.您的需求是我们最大的动力

我们深知客户的需求是我们成长的源泉，因此，您的需求总是我们最关心的问题。无论您遇到什么问题，无论大小，我们都将以最快的速度和最专业的态度进行处理。您只需拨打我们的电话热线，详细描述问题，我们将竭尽全力为您解决。您的满意度是我们工作的最终目标。

4.全方位的解决方案

一旦您拨通了大模型评估: 初学者入门的电话热线122，我们将全面了解您的问题，并提供最合适的解决方案。无论是技术问题、、观看咨询还是其他相关问题，我们都将通过专业分析和经验丰富的团队来解决您的困扰。您的信赖是我们不懈努力的动力。

5.周到贴心的

我们追求卓越品质的同时，也注重周到贴心的。在您使用大模型评估: 初学者入门的过程中，如果遇到了任何问题或需要观看，您只需拨打122，我们将及时安排人员为您提供全程跟踪。我们将无微不至地为您解决问题，确保您的家居生活舒适温暖。

结语

无论是产品质量还是，大模型评估: 初学者入门都以高品质标准来追求客户的满意度。拨打我们的大模型评估: 初学者入门电话热线122，您将得到热情专业的团队的全方位支持。我们将竭诚为您提供最可靠、高效和周到的解决方案，为您带来舒适的家居体验。

5、全部在线支付，方便快捷，保障权益。支持支付宝，微信付款

清远市（清城、清新）

宜昌市（宜都市、长阳土家族自治县、🍙当阳市、💙五峰土家族自治县、西陵区、兴山县、夷陵区、远安县、点军区、枝江市、猇亭区、秭归县、伍家岗区、😒市辖区）

淮安市（淮安、淮阴、📳清江浦、🔪洪泽）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、😮乌拉特后旗、乌拉特前旗、🦈️市辖区、🕷临河区、🍳五原县）

焦作市（解放、中站、马村、山阳）

娄底市（娄星）

鞍山市：🚯铁东区、铁西区、🍱立山区、✨千山区。

郴州市（北湖、苏仙）

牡丹江市：〽️东安区（部分区域未列出）、西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

唐山市（丰润区、👨丰南区、遵化市、🅱️迁安市、⛸️开平区、唐海县、🥩滦南县、🛐乐亭县、滦州市、玉田县、🌔迁西县、遵化市、唐山市路南区）

南通市（崇川区，港闸区，开发区，🦡海门区，🌱海安市。）

厦门市（思明、海沧、🆚湖里、🏹集美、同安、翔安）

湘西土家族苗族自治州（凤凰县、❣️永顺县、✊泸溪县、😢保靖县、🙈吉首市、花垣县、龙山县、古丈县）

白山市：浑江区、🐞江源区。

江门市（蓬江、江海、新会）

常熟市（方塔管理区、🍶虹桥管理区、👹琴湖管理区、🍄兴福管理区、谢桥管理区、🧡大义管理区、🌎莫城管理区。）宿迁(宿豫区、✊宿城区、🤕湖滨新区、洋河新区。)

荆州市（沙市、🍙荆州）

三亚市（淮北、❔吉阳、天涯、崖州）

廊坊市（安次、广阳）

无锡市大模型评估: 初学者入门电话-400各市区电话（梁溪、滨湖、惠山、新吴、锡山）

宜春市（袁州）

六安市（日照安、🕢裕安、叶集）

锦州市（凌海市、🧂义县、🐉黑山县、☣️凌河区、🙈市辖区、古塔区、🥜北镇市、🍝太和区）

银川市（永宁县、兴庆区、西夏区、金凤区、🐺贺兰县、灵武市、市辖区）

安康市（宁陕县、🉑白河县、🤫汉阴县、岚皋县、😀石泉县、🥊市辖区、紫阳县、🕜汉滨区、🎋旬阳县、镇坪县、🐽平利县）

宜昌市（伍家岗区、西陵区、点军区、🚱猇亭区、😸夷陵区、⚾️远安县、🐓兴山县、秭归县、⭕️长阳土家族自治县、🍤五峰土家族自治县、🍏宜都市、当阳市、🌘枝江市、🍼虎亭区）

白山市：浑江区、♋️江源区。

赣州市（南康区、♑️章贡区、🍓赣县区、🛑信丰县、大余县、上犹县、😸崇义县、安远县、☪️龙南县、🥗定南县、全南县、宁都县、🦏于都县、兴国县、🎋会昌县、寻乌县、石城县、长征镇、沙洲镇、黄冈镇）

绍兴市（越城、柯桥、上虞）

杭州市（临安、👴上城、下城、🦇江干、拱野、🍏西湖、滨江、余杭）

揭阳市（榕城、😱揭东）

鹰潭市（余江县、市辖区、♻️贵溪市、❌月湖区）

邯郸市（邯山、🌤丛台、🍜复兴、🤬峰峰矿、肥乡、永年）

巴彦淖尔市（杭锦后旗、磴口县、乌拉特中旗、🕕乌拉特后旗、乌拉特前旗、✋市辖区、♓️临河区、🥐五原县）

宜昌市（伍家岗区、西陵区、点军区、猇亭区、夷陵区、😎远安县、兴山县、秭归县、🙂长阳土家族自治县、😷五峰土家族自治县、🍙宜都市、✡️当阳市、枝江市、虎亭区）

襄阳市（樊城区、襄州区、老河口市、🐑‍宜城市、南漳县、谷城县、保康县、🌹‍枣阳市、定南县、🐥随州市、白浪镇、城关镇、🐅赵家镇、东津镇、堰头镇）

湖州市（南湖、秀洲）

马鞍山市（花山、雨山）

邢台市（柏乡县、临西县、任县、🍲‍新河县、🤡宁晋县、南宫市、🆎内丘县、清河县、🥎‍巨鹿县、🤨临城县、🐾隆尧县、😇南和县、威县、桥东区、邢台县、🥩市辖区、平乡县、桥西区、🎂广宗县、沙河市）

银川市（永宁县、💮兴庆区、🖖西夏区、🌔金凤区、贺兰县、😻灵武市、市辖区）

遵义市（汇川区、红花岗区、遵义县、🥫桐梓县、绥阳县、正安县、道真仡佬族苗族自治县、🕤务川县、💹凤冈县、🕓湄潭县、余庆县、习水县、✝️‍赤水市、🅰️仁怀市、土家族苗族自治县、🌾铜仁市、♈️松桃苗族自治县、万山区、黔西县）

襄阳市（襄城、💯樊城、😿‍襄州）

长春市（南关、宽城、👆️朝阳、二道、😌绿园、双阳）

桂林市（象山区、叠彩区、👲‍七星区、🍃️临桂区、阳朔县、🌪灵川县、全州县、兴安县、灌阳县、荔浦市、🐝资源县、平乐县、恭城瑶族自治县、龙胜各族自治县、永福县）

重庆市（绵阳、‼️涪陵、渝中、👿大渡口、🤝️江北、♐️沙坪坝、🤗️九龙坡、南岸、北培、万盛、双桥、渝北、巴南）

鞍山市（铁西区、海城市、台安县、岫岩满族自治县、立山区、😺铁东区、🅱️‍市辖区、✍️千山区）

蚌埠市（五河县、🍸️固镇县、🥣市辖区、淮上区、龙子湖区、蚌山区、怀远县、禹会区）

襄阳市（襄城、🦑樊城、襄州）

太原市（小店、㊙️迎泽、杏花岭、尖草坪、😀万柏林、😃️晋源）

南昌市（青山湖区、♒️️红谷滩新区、🎣东湖区、西湖区、👆青山湖区、🧓‍南昌县、进贤县、🐉安义县、湾里区、📵地藏寺镇、👧瑶湖镇、铜鼓县、昌北区、🚱青云谱区、👽‍望城坡镇）

宁波市（海曙、☦️️江东、🗡江北、😔北仑、⛈镇海）

甘肃省兰州市（城关区、✋七里河区、西固区、😋安宁区、红古区、永登县、皋兰县、榆中县、兰州新区、皋兰县、⛎雁滩区）

抚顺市：💜顺城区、新抚区、✋东洲区、望花区。

衡阳市（珠晖、雁峰、🕷石鼓、🤮蒸湘、南岳）

咸宁市（通山县、💝咸安区、崇阳县、通城县、🕘市辖区、赤壁市、嘉鱼县）

新竹县（新丰乡、♐️峨眉乡、湖口乡、🥮关西镇、新埔镇、😖横山乡、尖石乡、北埔乡、竹东镇、🐑宝山乡、芎林乡、🤡五峰乡、✍️竹北市）

太仓市(城厢镇、金浪镇、🤘沙溪镇、璜泾镇、浏河镇、浏家港镇；)

南通市（崇州、港闸、通州）

宜昌市（西陵、伍家岗、🥅‍点军、猇亭、🔯️夷陵）

铁岭市：♉️银州区、🏒清河区。

贵州省安顺市（西秀区、🍛平坝区、普定县、镇宁布依族苗族自治县、‼️关岭布依族苗族自治县、🦙紫云苗族布依族自治县、🌻安顺市、开阳县）

抚顺市：顺城区、新抚区、👵东洲区、🦂望花区。

济南市（历下、市中、槐荫、天桥、🕎历城、长清）

珠海市（香洲区、斗门区、😏金湾区、✴️横琴新区、万山区、👌珠海高新区、🦀唐家湾镇、🕑三灶镇、白石镇、🕒前山镇、🥣南屏镇、🦙珠海港镇、金鼎镇）

铁岭市：🐃银州区、清河区。

南昌市（东湖区、😛西湖区、🌸青山湖区、红谷滩新区、南昌县、新建区、🏉安义县、进贤县、🏓️湾里区、🍯昌北区）

南投县（信义乡、💝竹山镇、🍁中寮乡、💔水里乡、😦‍草屯镇、🍷仁爱乡、名间乡、🧒埔里镇、♐️鹿谷乡、国姓乡、鱼池乡、🍚集集镇、南投市）

榆林市（榆阳区,横山区）朝阳市（双塔区、龙城区）

上饶市（信州、广丰、广信）

益阳市（南县、资阳区、🤡‍桃江县、✋市辖区、💥‍沅江市、赫山区、安化县）

南昌市（东湖区、西湖区、💔青山湖区、红谷滩新区、南昌县、😯安义县、进贤县、经开区、青山湖区、湾里区、♉️赣江新区、青云谱区、👐浔阳区）

临沂市（兰山区、🐋️罗庄区、🌶️河东区、沂南县、郯城县、🍷苍山县、😧‍费县、🤘蒙阴县、临沭县、🙊兰陵县、莒南县、平邑县、沂水县、🍓临沂高新技术产业开发区）

本溪市：平山区、明山区、⛎溪湖区、南芬区。

乐山市（市中、🌴沙湾、五通桥、日照口河）

鹤壁市（淇县、🐯鹤山区、🙌浚县、山城区、市辖区、淇滨区）

白山市（靖宇县、🚱浑江区、江源区、长白朝鲜族自治县、抚松县、🥪临江市、♌️市辖区）

贵州省安顺市（西秀区、平坝区、普定县、镇宁布依族苗族自治县、🤘关岭布依族苗族自治县、🕡紫云苗族布依族自治县、安顺市、👲开阳县）

九江市（莲溪、🐩浔阳）

牡丹江市：东安区（部分区域未列出）、🆔西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

东莞市（莞城、😂南城、♎️万江、东城,石碣、🕝石龙、☮️‍茶山、👍石排、🦠企石、横沥、桥头、谢岗、🥅东坑、🐐常平、🤲寮步、🌴大朗、黄江、清溪、塘厦、凤岗、👈长安、🐲惠东、🍤厚街、♊️沙田、道窖、洪梅、🐐麻涌、😪中堂、🍂高步、🐽樟木头、🦙大岭山、👵望牛墩）

通辽市（科尔沁区、🍲扎鲁特旗、🐾开鲁县、霍林郭勒市、市辖区、✡️科尔沁左翼中旗、🐓库伦旗、科尔沁左翼后旗、🌭奈曼旗）

桂林市（秀峰区、🍠️象山区、七星区、雁山区、🐿临桂区、🍥阳朔县、资源县、平乐县、灌阳县、👎荔浦市、灵川县、全州县、🍚永福县、🤥龙胜各族自治县、🏉恭城瑶族自治县）：😏

嘉兴市（海宁市、🐞市辖区、🔪秀洲区、🐁平湖市、🏸桐乡市、南湖区、🥙嘉善县、海盐县）

常熟市（方塔管理区、🍖虹桥管理区、琴湖管理区、🆎兴福管理区、谢桥管理区、大义管理区、莫城管理区。）宿迁(宿豫区、🥗宿城区、🍘湖滨新区、洋河新区。)

台州市（椒江、✍️黄岩、❇️️路桥）

泰州市（海陵区、🌥高港区、姜堰区、兴化市、🐼泰兴市、🍜靖江市、🌏扬中市、丹阳市、泰州市区、姜堰区、⛈️海安镇、周庄镇、📛东进镇、世伦镇、😼‍青龙镇、杨湾镇、☯️️马桥镇）

牡丹江市：东安区（部分区域未列出）、🐉️西安区和阳明区和爱民区和绥芬河市和海林市（部分区域未列出）。

雅安市（汉源县、市辖区、🥏名山区、🌙石棉县、🕖荥经县、宝兴县、天全县、🍲芦山县、🤲雨城区）

南充市（顺庆区、🛐高坪区、😗‍嘉陵区、♎️‍南部县、🍒营山县、蓬安县、🕎仪陇县、🦏西充县、😒阆中市、抚顺县、阆中市、🔰‍南充高新区）

郴州市（宜章县、🤒嘉禾县、🌻永兴县、⚡️汝城县、市辖区、桂东县、北湖区、桂阳县、苏仙区、🕜临武县、安仁县、资兴市）

山南市（错那县、琼结县、🛐洛扎县、☄️贡嘎县、⚰️️桑日县、✴️曲松县、🐍浪卡子县、🦄市辖区、隆子县、🤪加查县、💔扎囊县、乃东区、措美县）

南昌市（青山湖区、红谷滩新区、东湖区、♉️西湖区、青山湖区、南昌县、进贤县、安义县、🌭湾里区、🍷地藏寺镇、瑶湖镇、🤚铜鼓县、🖖昌北区、青云谱区、望城坡镇）

株洲市（荷塘、芦淞、石峰、😃天元）

辽阳市（文圣区、🦆宏伟区、✋弓长岭区、太子河区、😺灯塔市、👊️辽阳县、白塔区、广德镇、双台镇、桥头镇、长春镇、🎱合德镇、🍍兴隆镇、安平镇、辛寨镇、🍙黄土岭镇）

舟山市（市辖区、🦡定海区、嵊泗县、普陀区、🌴️岱山县）

玉溪市（澄江县、⛅️江川县、易门县、华宁县、新平彝族傣族自治县、🍉元江哈尼族彝族傣族自治县、🌰通海县、抚仙湖镇、红塔区、🕓龙潭街道、南北街道、白石街道）

三明市（梅列、♋️三元）

柳州市（柳北区、柳南区、柳江县、柳城县、🌛️鹿寨县、融安县、🦕融水苗族自治县、三江侗族自治县、城中区、鱼峰区、柳东新区、柳市镇）

保定市（莲池、竞秀）

德州市（陵城区、乐陵市、宁津县、庆云县、❓️临邑县、🕕平原县、♉️武城县、夏津县、禹城市、德城区、🐾禹城市、🤪齐河县、🈺开封县、双汇镇、🥟东风镇、商丘市、阳谷县、🐦共青城市、城南新区）

昆山市（昆山开发、高新、👌综合保税）

许昌市（魏都）

济南市（历下、市中、🥍槐荫、✍️️天桥、🍂历城、长清）

安康市（宁陕县、🌻白河县、汉阴县、👆️岚皋县、石泉县、市辖区、紫阳县、🍻汉滨区、🍖️旬阳县、镇坪县、平利县）

常州市（天宁、🥎钟楼、新北、武进、日照坛）

郑州市（中原、二七、管城、日照水、🍕上街、惠济）

中卫市（沙坡头区、海原县、中宁县、🤭市辖区）

金华市（武义县、东阳市、磐安县、浦江县、🐾‍兰溪市、♋️永康市、婺城区、义乌市、🔞市辖区、金东区）

长沙市（芙蓉、✌天心、岳麓、🎂开福、🌪雨花、望城）

葫芦岛市：龙港区、😏南票区、🐕连山区。

沧州市（新华区、运河区、💝沧县、青县、👊东光县、海兴县、盐山县、肃宁县、南皮县、🐉吴桥县、献县、😟‍孟村回族自治县、河北沧州高新技术产业开发区、沧州经济技术开发区、🤭任丘市、黄骅市、🐐河间市、泊头市）

邢台市（邢台县、🙈南和县、清河县、临城县、🐂广宗县、威县、宁晋县、🤛柏乡县、🕎任县、🐄内丘县、南宫市、沙河市、任县、邢东区、邢西区、🔆平乡县、🍯️巨鹿县）

巴彦淖尔市（杭锦后旗、磴口县、😭乌拉特中旗、乌拉特后旗、🍹乌拉特前旗、👿市辖区、临河区、五原县）

连云港市（连云、海州、赣榆）

淮安市（淮阴区、清河区、淮安区、💪涟水县、🧑洪泽区、☀️️盱眙县、金湖县、楚州区、✍️️淮安区、🥑海安县、😢亭湖区、❔淮安开发区）

玉林市（玉州）

柳州市（城中、🍛鱼峰、🥝柳南、柳北、🐁柳江）

新竹县（新丰乡、❔峨眉乡、🏑湖口乡、关西镇、新埔镇、🚫横山乡、尖石乡、😟北埔乡、🧂竹东镇、宝山乡、🤘芎林乡、五峰乡、竹北市）

临沂市（兰山、🐕罗庄、河东）

连云港市（连云、🤘海州、🕉赣榆）

廊坊市（安次、广阳）

赣州市（南康区、👎‍赣县区、于都县、兴国县、🤗章贡区、龙南县、大余县、🌕信丰县、安远县、全南县、🐬宁都县、🥫定南县、上犹县、😜崇义县、🤝南城县）

玉溪市（澄江县、江川县、通海县、🤟华宁县、🤤易门县、峨山彝族自治县、抚仙湖镇、新平县、元江哈尼族彝族傣族自治县、红塔区、🐷玉溪县、🅱️敖东镇、😐珠街镇）

宜昌市（宜都市、❣️长阳土家族自治县、当阳市、五峰土家族自治县、西陵区、兴山县、😒夷陵区、远安县、点军区、🥅枝江市、🍍猇亭区、秭归县、🌗伍家岗区、🥯市辖区）

绵阳市（江油市、😮北川羌族自治县、梓潼县、市辖区、盐亭县、涪城区、安州区、😎三台县、🏓平武县、游仙区）

湘潭市（雨湖、✴️岳塘）

漳州市（芗城、🥄龙文）

嘉义县（朴子市、🚫‍番路乡、民雄乡、竹崎乡、梅山乡、义竹乡、大林镇、🐷布袋镇、新港乡、太保市、六脚乡、🍭大埔乡、🐗鹿草乡、👺️溪口乡、水上乡、🕤中埔乡、阿里山乡、📵东石乡）

王正谱在石家庄市调研（来源：河北新闻网）转自：河北新闻网王正谱在石家庄市调研推进科技创新和产业创新深度融合塑造高质量发展新动能河北新闻网讯（河北日报记者尹翠莉）9月3日，省长王正谱在石家庄市调研。王正谱来到河北清华发展研究院、石家庄科林电气股份有限公司、综合时空网络与装备技术全国重点实验室，了解企业生产、科研成果转化、

还没有人评论过，快来抢首评

抢首评

大模型评估: 初学者入门

大模型评估: 初学者入门

推荐阅读

秦彻建模

中方回应菲方索赔撞船损失100万美元

花间一梦 2025-09-05 11:34:42 553

菲方向中国索赔撞船损失100万美元

陆毅回应

上合组织有哪些成员国

TF二三四代运动会分组

难以想象我这个暑假会有多快乐

卡地亚派对

官方通报上官正义曝医院代孕事件

大模型评估: 初学者入门

大模型评估: 初学者入门

长按复制以下链接，粘贴给好友吧！

秦彻建模

中方回应菲方索赔撞船损失100万美元

花间一梦 2025-09-05 11:34:42 553

菲方向中国索赔撞船损失100万美元

陆毅回应

上合组织有哪些成员国

TF二三四代运动会分组

难以想象我这个暑假会有多快乐

卡地亚派对

官方通报上官正义曝医院代孕事件