它遵循/法则;很快可以达到%的准确度,但剩下的%却耗费了我们大部分人的所有工作时间。当你的产品期望%以上的答案都非常出色时,即使使用最先进的模型,每一个%的进步也仍然需要大量的工作和创造力。
对我们而言好使的招数是
固定的三步流程 用小模型干路由/检索,成 基于 房主数据库 内存数据库的(- () ),直接将响应示例注入到我们的提示词中(穷人版微调)。(注:是个技术名词,感兴趣的自己再查吧。) 在路由和检索过程中针对每个步骤做特定评估 . 开发速度 我们希望多个团队并行快速推进,因此决定将任务拆分为由不同人员开发的独立智能体(即智能体):岗位评估、理解公司、帖子要点提取等智能体分别由不同团队负责。
这种方法带来了显著的不良影响()。通过并行处理任务,我们在速度上取得了优势,但这却以碎片化为代价。当与智能体的交互可能由不同的模型、提示词或工具管理时,保持统一的用户体验变得极其具有挑战性。 为了解决这个问题,我们采用了一个简单的组织结构: )一个小型“横向”工程小组,负责处理公共组件并专注于整体体验。
这包括
各种支撑此产品的基础服务 评估/测试工具 所有垂 在线数字是您成功所需要的 直领域使用的全局提示词模板(例如,智能体的全局身份标识、对话历史、越狱攻击的防护等) //客户端的共享组件(注:一般就是指按钮、下拉列表这些) 一个服务器端驱动的框架,用于发布新的更改,而无需更改或发布客户端代码。(注:因为在服务端,那就需要有个在服务端生成的框架,很麻烦的一个东西) )多个“纵向”工程小组,各自对其智能体拥有自主权,例如: 个性化帖子摘 1000个手机号码 要 岗位匹配度评估 面试技巧 )那些东西对我们有用: 分而治之,但限制智能体的数量 建立一个中心化的,通过多轮对话支撑的评估过程 共享提示词模板(如“身份”定义)、模板、工具及指令 . 评价输出好坏 评估我们回答的质量比预期的要困难得多。这些挑战大致来自三个方面:制定指南、扩展标注和自动评估。 制定指南:以岗位评估为例:点击“评估我是否适合这份工作”却得到“你非常不适合”的结果其实没啥用。