AI真实多轮对话数据集

构建真实多轮对话数据集的关键难点：

你的场景需求总结：

用户初问模糊 → “天气怎么样？”
模型需主动追问 → “请问您是想了解今天、明天，还是昨天的天气？”
用户澄清目标 → “今天的”
模型再回答天气 + 场景补充推荐

下面我给出一组 完整交互 + 模型主动澄清 + 条件分支 + 场景推荐 的数据结构模板，保持你指定的格式。

场景：天气模糊提问 + 主动澄清 + 多轮推荐（晴天）

{
  "instruction": "天气怎么样？",
  "input": "",
  "output": "请问您是想了解今天、明天，还是昨天的天气？",
  "history": []
},
{
  "instruction": "今天的。",
  "input": "",
  "output": "今天天气晴朗，气温在20到28度之间，空气质量良好。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"]
  ]
},
{
  "instruction": "适合出去玩吗？",
  "input": "",
  "output": "非常适合，可以安排一些户外活动，比如city walk、郊游或者骑行。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"],
    ["今天的。", "今天的天气晴朗，气温在20到28度之间，空气质量良好。"]
  ]
},
{
  "instruction": "有什么推荐的去处？",
  "input": "",
  "output": "推荐去郊区的超级公园，或者市内的滨河绿道，环境不错，人不多。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"],
    ["今天的。", "今天的天气晴朗，气温在20到28度之间，空气质量良好。"],
    ["适合出去玩吗？", "非常适合，可以安排一些户外活动，比如city walk、郊游或者骑行。"]
  ]
}

场景：天气模糊提问 + 主动澄清 + 多轮推荐（雨天）

{
  "instruction": "天气怎么样？",
  "input": "",
  "output": "请问您是想了解今天、明天，还是昨天的天气？",
  "history": []
},
{
  "instruction": "明天的。",
  "input": "",
  "output": "明天可能有小雨，气温在16到21度之间，湿度较高。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"]
  ]
},
{
  "instruction": "适合出去玩吗？",
  "input": "",
  "output": "天气偏湿冷，不太建议安排室外活动。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"],
    ["明天的。", "明天可能有小雨，气温在16到21度之间，湿度较高。"]
  ]
},
{
  "instruction": "那可以做点什么？",
  "input": "",
  "output": "可以考虑去看电影、逛商场，或者在家看书、玩桌游，都是不错的选择。",
  "history": [
    ["天气怎么样？", "请问您是想了解今天、明天，还是昨天的天气？"],
    ["明天的。", "明天可能有小雨，气温在16到21度之间，湿度较高。"],
    ["适合出去玩吗？", "天气偏湿冷，不太建议安排室外活动。"]
  ]
}

数据设计关键点拆解：

维度	说明
模糊提问	“天气怎么样？” 无时间指向
模型主动追问	明确上下文目标（今天/明天/昨天）
条件判断	不同天气 → 不同适配策略（晴/雨）
多轮历史保留	每轮都带上完整上下文

你可以据此构建不同天气/不同时间（今天、明天、周末）/不同用户目的（出游、穿衣、交通）为导向的对话组。