Appearance
第一步:导入数据
数据分析的第一步,就像做饭前的准备食材。
📥 把数据拖进来
打开软件,你会看到一个清爽的欢迎界面。
- 准备文件:找到你的 Excel (
.xlsx) 文件。🔗 示例数据:点击 下载钢材_demo.xlsx
- 一键导入:直接把文件拖拽到蓝色虚线框里,或者点击按钮选择。
💡 小贴士:第一行最好是点位,第二行最好是列标题(比如“温度”、“压力”、“良品率”),这样软件能读懂每一列是什么。
⚙️ 告诉软件怎么读
文件传上来后,我们需要先给它安个家,然后简单“介绍”一下这份数据。
1. 保存实例与创建模型
- 保存实例:上传成功后,点击保存,系统会自动将其设置为当前工作实例。
- 创建模型:点击“新增模型”进入模型创建,给你的第一个模型起个名字。
- 选择数据表:如果你的 Excel 有多个 Sheet,记得选择包含数据的那一个。
2. 谁是名字?谁是数据?
- 标题行 (Header):通过“设置标题行”按钮告诉软件哪一行是列名。通常是第 1 行。
- 名称行 (Name Row):通过“设置名称行”按钮告诉软件哪一行是名称列。通常是第 2 行。
- 数据预清洗:完成上述设置后,点击任意列即可联动右侧预分析图表。
- 数据概览:直观查看均值、标准差 (Std)、有效样本数及空值统计。
- 快速插补:针对空值,支持直接使用均值进行填充。
- 异常剔除:结合下方的趋势图与分布图,利用套索工具框选异常点,并通过行号右侧按钮快速删除整行或整列。
3. 分配角色
这就像给演员分配剧本角色:
- 观察列 (Observation):这是每个样本的“身份证号”,比如时间戳、批次号。选它!
- X 列 (Feature):这是影响结果的因素,比如原料配比、反应温度。把它们都勾上。
- Y 列 (Target):这是你想预测的结果,比如产品纯度。如果是做预测模型,一定要选它。
- 数据集划分:
- 测试集占比:留出一部分数据(如 20%)用来考试,验证模型准不准。
- 随机分割:是否打乱数据顺序再划分。如果是时间序列数据(按时间先后),建议不要勾选。
配置好后,点击 “确认配置”,数据就准备就绪啦!✅