热门搜索:和平精英 原神 街篮2 

您的位置:首页 > > 教程攻略 > ai资讯 >ChatGPT生成mock数据提示词怎么写,才能接近真实业务

ChatGPT生成mock数据提示词怎么写,才能接近真实业务

来源:互联网 更新时间:2026-06-06 13:01

想让ChatGPT生成的Mock数据真正像那么回事儿?光说“给我来10条用户数据”可远远不够。你得把真实业务里的那些条条框框、组织习惯和校验逻辑都塞进提示词里才行。下面这几个技巧,是经过多次实践提炼出来的,掌握好了,你就能让模型交出贴近真实系统的数据。

ChatGPT生成mock数据提示词怎么写,才能接近真实业务


明确角色与上下文

第一步:在提示词开头用单句定义模型的身份。比如:“你是一名有5年电商中台经验的数据产品经理,正在为订单履约模块设计测试数据。”这能帮助模型切换到正确的业务视角。

第二步:紧接着给出该业务域的真实约束。例如:“所有订单必须满足:下单时间早于支付时间,支付时间早于发货时间;优惠券ID以‘COUPON_’开头且长度固定12位;收货手机号必须为中国大陆11位号码,且不能以14、17、19开头(避开虚拟运营商号段)。”这些限制不是随便加的,而是来自真实系统的业务规则。

第三步:指定输出格式要求。比如:“每条数据用JSON对象表示,字段顺序按数据库表物理列序排列,不加注释,不加空行。”统一格式便于后续解析和测试脚本处理。

注入真实分布规律

方法一:用百分比和典型值描述字段分布。例如:“status字段取值为‘created’(45%)、‘paid’(38%)、‘shipped’(12%)、‘cancelled’(5%),其中cancelled订单的cancel_reason必须从[‘地址错误’、‘用户主动取消’、‘库存不足’]中三选一,且‘库存不足’仅出现在status为‘paid’的订单中。”注意,异常状态必须有对应的解释字段,并且要与业务阶段绑定,不能随意出现。

方法二:绑定关联字段逻辑。例如:“user_level字段为‘VIP3’时,discount_rate必须≥0.15且≤0.22;user_level为‘new’时,first_order_time必须等于order_time,且coupon_used必须为false。”这类跨字段约束是真实系统里最常见的校验点,也是测试数据最容易出错的地方。

【user_id必须由6位数字+2位大写字母组成,例如‘824173AB’,不可使用‘O’‘I’字母,避免与数字0、1混淆】

强制加入业务异常样本

在总数中预留5%~10%的异常数据,并明确定义异常类型。例如:“生成20条订单数据,其中2条为异常样本:1条是payment_amount为负数(模拟退款冲正错误),1条是shipping_address为空但status=‘shipped’(模拟下游系统字段丢失)。”这项要求不能笼统地说“包含一些错误数据”,必须给出具体字段、错误值和发生场景,否则模型要么生成无意义的乱码,要么直接忽略你的要求。

这些异常样本不是为了凑数,而是为了测试数据消费端的容错逻辑。越贴近真实的错误模式,测试覆盖越有效。

复用真实枚举与命名习惯

不要放任模型自由编造枚举值。直接把真实列表植入提示词:“province字段只能是:[‘广东省’, ‘浙江省’, ‘上海市’, ‘北京市’, ‘四川省’];city字段需与province强匹配,如province=‘广东省’时,city只能从[‘广州市’, ‘深圳市’, ‘东莞市’]中选。”如果换一个省份,city列表也必须同步调整,否则数据会乱。

字段命名采用团队实际用名而非通用英文。比如写“pay_channel_code”而不是“payment_method”,写“inv_status”而不是“invoice_status”,因为真实表里就是这么缩写的。这一点看似细节,却是模型生成的数据能否被开发直接信任的关键。

如果业务中存在多语言字段(如product_name_en、product_name_zh),必须同时声明两者内容逻辑关系。例如“product_name_zh为‘无线降噪耳机’时,product_name_en必须为‘Wireless Noise-Cancelling Headphones’,不可自由翻译”。否则模型可能在中文产品名后配上毫不相干或拼写错误的英文名,这种数据在双语系统里直接不可用。

热门手游

相关攻略

手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc