您的位置：首页 > > 教程攻略 > ai资讯 >ChatGPT生成mock数据提示词怎么写，才能接近真实业务

ChatGPT生成mock数据提示词怎么写，才能接近真实业务

来源:互联网 更新时间:2026-06-06 13:01

想让ChatGPT生成的Mock数据真正像那么回事儿？光说“给我来10条用户数据”可远远不够。你得把真实业务里的那些条条框框、组织习惯和校验逻辑都塞进提示词里才行。下面这几个技巧，是经过多次实践提炼出来的，掌握好了，你就能让模型交出贴近真实系统的数据。

明确角色与上下文

第一步：在提示词开头用单句定义模型的身份。比如：“你是一名有5年电商中台经验的数据产品经理，正在为订单履约模块设计测试数据。”这能帮助模型切换到正确的业务视角。

第二步：紧接着给出该业务域的真实约束。例如：“所有订单必须满足：下单时间早于支付时间，支付时间早于发货时间；优惠券ID以‘COUPON_’开头且长度固定12位；收货手机号必须为中国大陆11位号码，且不能以14、17、19开头（避开虚拟运营商号段）。”这些限制不是随便加的，而是来自真实系统的业务规则。

第三步：指定输出格式要求。比如：“每条数据用JSON对象表示，字段顺序按数据库表物理列序排列，不加注释，不加空行。”统一格式便于后续解析和测试脚本处理。

注入真实分布规律

方法一：用百分比和典型值描述字段分布。例如：“status字段取值为‘created’（45%）、‘paid’（38%）、‘shipped’（12%）、‘cancelled’（5%），其中cancelled订单的cancel_reason必须从[‘地址错误’、‘用户主动取消’、‘库存不足’]中三选一，且‘库存不足’仅出现在status为‘paid’的订单中。”注意，异常状态必须有对应的解释字段，并且要与业务阶段绑定，不能随意出现。

方法二：绑定关联字段逻辑。例如：“user_level字段为‘VIP3’时，discount_rate必须≥0.15且≤0.22；user_level为‘new’时，first_order_time必须等于order_time，且coupon_used必须为false。”这类跨字段约束是真实系统里最常见的校验点，也是测试数据最容易出错的地方。

【user_id必须由6位数字+2位大写字母组成，例如‘824173AB’，不可使用‘O’‘I’字母，避免与数字0、1混淆】

强制加入业务异常样本

在总数中预留5%～10%的异常数据，并明确定义异常类型。例如：“生成20条订单数据，其中2条为异常样本：1条是payment_amount为负数（模拟退款冲正错误），1条是shipping_address为空但status=‘shipped’（模拟下游系统字段丢失）。”这项要求不能笼统地说“包含一些错误数据”，必须给出具体字段、错误值和发生场景，否则模型要么生成无意义的乱码，要么直接忽略你的要求。

这些异常样本不是为了凑数，而是为了测试数据消费端的容错逻辑。越贴近真实的错误模式，测试覆盖越有效。

复用真实枚举与命名习惯

不要放任模型自由编造枚举值。直接把真实列表植入提示词：“province字段只能是：[‘广东省’, ‘浙江省’, ‘上海市’, ‘北京市’, ‘四川省’]；city字段需与province强匹配，如province=‘广东省’时，city只能从[‘广州市’, ‘深圳市’, ‘东莞市’]中选。”如果换一个省份，city列表也必须同步调整，否则数据会乱。

字段命名采用团队实际用名而非通用英文。比如写“pay_channel_code”而不是“payment_method”，写“inv_status”而不是“invoice_status”，因为真实表里就是这么缩写的。这一点看似细节，却是模型生成的数据能否被开发直接信任的关键。

如果业务中存在多语言字段（如product_name_en、product_name_zh），必须同时声明两者内容逻辑关系。例如“product_name_zh为‘无线降噪耳机’时，product_name_en必须为‘Wireless Noise-Cancelling Headphones’，不可自由翻译”。否则模型可能在中文产品名后配上毫不相干或拼写错误的英文名，这种数据在双语系统里直接不可用。

ChatGPT生成mock数据提示词怎么写，才能接近真实业务

明确角色与上下文

注入真实分布规律

【user_id必须由6位数字+2位大写字母组成，例如‘824173AB’，不可使用‘O’‘I’字母，避免与数字0、1混淆】

强制加入业务异常样本

复用真实枚举与命名习惯

热门资讯

热门手游

相关攻略

热门专题