来源:互联网 更新时间:2026-06-14 07:29
这个实验的核心任务很简单:把一份开源的对话数据集(belle_chat_ramdon_10k.json)转换成 MindSpore 能高效读取的 MindRecord 格式。MindRecord 在训练大模型时能大幅提升数据加载效率,所以想用好 MindSpore,这步绕不开。
MindRecord 是 MindSpore 自带的“特供”数据格式,专门为高性能训练优化。通过这个实验,你会亲手走通从原始 JSON 到 MindRecord 的转换流程,知道背后的原理和必要的工具链。
首先,打开 https://www.mindspore.cn/ 进入实训环境。

启动运行环境后,直接进入 Jupyter。注意,实验环境里已经预装了 CANN 组件,不需要你再手动装。


打开“傻瓜式教程.ipynb”文件,依次安装 MindSpore 和 MindFormers。跑一遍所有单元格,确保环境没毛病再继续。

先建一个干净的工作目录,后面所有的文件都放这里。
运行下面这行命令,下载代码压缩包并解压:
wget https://certification-data.obs.cn-north-4.myhuaweicloud.com/CHS/HCIE-AI%20Solution%20Architect/mindformers.zip && unzip mindformers.zip

解压后,相关脚本的路径如下图所示,建议先看一眼目录结构。

转换的原材料来自 Baichuan2 项目提供的一份开源对话数据:
wget https://raw.githubusercontent.com/baichuan-inc/Baichuan2/main/fine-tune/data/belle_chat_ramdon_10k.json

这里用的是 Baichuan2-7B 的 tokenizer.model,它决定了如何处理文本的切分:
wget https://hf-mirror.com/baichuan-inc/baichuan2-7B-Base/resolve/main/tokenizer.model?download=true -O "tokenizer.model"

所有材料准备妥当后,执行核心转换脚本。命令行参数说明:--input_glob 指定原始 JSON 文件,--model_file 指定分词器模型,--output_file 指定输出的 MindRecord 文件名及路径,--seq_length 表示序列最大长度,这里设为 4096。
python belle_preprocess.py --input_glob belle_chat_ramdon_10k.json --model_file tokenizer.model --output_file belle_chat_ramdon_10k_4096.mindrecord --seq_length 4096
执行成功后,终端会打印类似下图的日志信息,同时生成对应的 .mindrecord 文件。


这个实验本质上就是为微调大模型准备数据——把开源对话数据转成 MindRecord 格式,方便后续训练时高效读取。它是整个训练流程的基础环节,实验考试中会占 10% 的分数。掌握好这一步,后续的微调就能跑得更顺。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
免费影视剧APP推荐
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
抖音最火沙雕男生网名(精选100个)
网络热词聊污是什么意思
蒙古上单是什么梗
帅气继父网名女生可爱英文(精选100个)
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
免费看片软件下载地址推荐
免费看电影的软件推荐
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
韦一敏是什么梗
三角洲行动卡战备怎么弄 三角洲行动卡战备攻略
晨字沙雕网名大全女生(精选100个)
帅到极致的网名女生霸气(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc