构建真实多轮对话数据集的关键难点:

你的场景需求总结:

  1. 用户初问模糊 → “天气怎么样?”
  2. 模型需主动追问 → “请问您是想了解今天、明天,还是昨天的天气?”
  3. 用户澄清目标 → “今天的”
  4. 模型再回答天气 + 场景补充推荐

下面我给出一组 完整交互 + 模型主动澄清 + 条件分支 + 场景推荐 的数据结构模板,保持你指定的格式。

场景:天气模糊提问 + 主动澄清 + 多轮推荐(晴天)

{
  "instruction": "天气怎么样?",
  "input": "",
  "output": "请问您是想了解今天、明天,还是昨天的天气?",
  "history": []
},
{
  "instruction": "今天的。",
  "input": "",
  "output": "今天天气晴朗,气温在20到28度之间,空气质量良好。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"]
  ]
},
{
  "instruction": "适合出去玩吗?",
  "input": "",
  "output": "非常适合,可以安排一些户外活动,比如city walk、郊游或者骑行。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"],
    ["今天的。", "今天的天气晴朗,气温在20到28度之间,空气质量良好。"]
  ]
},
{
  "instruction": "有什么推荐的去处?",
  "input": "",
  "output": "推荐去郊区的超级公园,或者市内的滨河绿道,环境不错,人不多。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"],
    ["今天的。", "今天的天气晴朗,气温在20到28度之间,空气质量良好。"],
    ["适合出去玩吗?", "非常适合,可以安排一些户外活动,比如city walk、郊游或者骑行。"]
  ]
}

场景:天气模糊提问 + 主动澄清 + 多轮推荐(雨天)

{
  "instruction": "天气怎么样?",
  "input": "",
  "output": "请问您是想了解今天、明天,还是昨天的天气?",
  "history": []
},
{
  "instruction": "明天的。",
  "input": "",
  "output": "明天可能有小雨,气温在16到21度之间,湿度较高。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"]
  ]
},
{
  "instruction": "适合出去玩吗?",
  "input": "",
  "output": "天气偏湿冷,不太建议安排室外活动。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"],
    ["明天的。", "明天可能有小雨,气温在16到21度之间,湿度较高。"]
  ]
},
{
  "instruction": "那可以做点什么?",
  "input": "",
  "output": "可以考虑去看电影、逛商场,或者在家看书、玩桌游,都是不错的选择。",
  "history": [
    ["天气怎么样?", "请问您是想了解今天、明天,还是昨天的天气?"],
    ["明天的。", "明天可能有小雨,气温在16到21度之间,湿度较高。"],
    ["适合出去玩吗?", "天气偏湿冷,不太建议安排室外活动。"]
  ]
}

数据设计关键点拆解:

维度 说明
模糊提问 “天气怎么样?” 无时间指向
模型主动追问 明确上下文目标(今天/明天/昨天)
条件判断 不同天气 → 不同适配策略(晴/雨)
多轮历史保留 每轮都带上完整上下文

你可以据此构建不同天气/不同时间(今天、明天、周末)/不同用户目的(出游、穿衣、交通)为导向的对话组。