Skip to content

第一步:导入数据

数据分析的第一步,就像做饭前的准备食材。

📥 把数据拖进来

打开软件,你会看到一个清爽的欢迎界面。

  1. 准备文件:找到你的 Excel (.xlsx) 文件。

    🔗 示例数据点击 下载钢材_demo.xlsx

  2. 一键导入:直接把文件拖拽到蓝色虚线框里,或者点击按钮选择。

💡 小贴士:第一行最好是点位,第二行最好是列标题(比如“温度”、“压力”、“良品率”),这样软件能读懂每一列是什么。

⚙️ 告诉软件怎么读

文件传上来后,我们需要先给它安个家,然后简单“介绍”一下这份数据。

1. 保存实例与创建模型

  1. 保存实例:上传成功后,点击保存,系统会自动将其设置为当前工作实例。
  2. 创建模型:点击“新增模型”进入模型创建,给你的第一个模型起个名字。
  3. 选择数据表:如果你的 Excel 有多个 Sheet,记得选择包含数据的那一个。

2. 谁是名字?谁是数据?

  • 标题行 (Header):通过“设置标题行”按钮告诉软件哪一行是列名。通常是第 1 行。
  • 名称行 (Name Row):通过“设置名称行”按钮告诉软件哪一行是名称列。通常是第 2 行。
  • 数据预清洗:完成上述设置后,点击任意列即可联动右侧预分析图表。
    • 数据概览:直观查看均值、标准差 (Std)、有效样本数及空值统计。
    • 快速插补:针对空值,支持直接使用均值进行填充。
    • 异常剔除:结合下方的趋势图与分布图,利用套索工具框选异常点,并通过行号右侧按钮快速删除整行或整列。

3. 分配角色

这就像给演员分配剧本角色:

  • 观察列 (Observation):这是每个样本的“身份证号”,比如时间戳、批次号。选它!
  • X 列 (Feature):这是影响结果的因素,比如原料配比、反应温度。把它们都勾上。
  • Y 列 (Target):这是你想预测的结果,比如产品纯度。如果是做预测模型,一定要选它。
  • 数据集划分
    • 测试集占比:留出一部分数据(如 20%)用来考试,验证模型准不准。
    • 随机分割:是否打乱数据顺序再划分。如果是时间序列数据(按时间先后),建议不要勾选。

配置好后,点击 “确认配置”,数据就准备就绪啦!✅

让数据说话,让决策更简单。