Simple ML Code：机器学习从入门到实践的保姆级教程

TextMatrix 收录于技术笔记

2026-03-29 约 9000 字预计阅读 23 分钟

Simple ML Code：机器学习从入门到实践的保姆级教程

一文读懂 Datawhale 出品的机器学习实战教程，从理论到代码，从算法到调参全覆盖

学习目标

学完本文后，你将掌握：

理解六大机器学习算法的核心原理与数学推导
掌握使用 NumPy、Matplotlib、scikit-learn 进行数据处理和模型训练
能够独立完成线性回归、决策树、SVM、K-means 等算法的代码实现
理解模型评估指标与可视化方法
建立完整的机器学习实战知识体系

一、项目概述

1.1 是什么

Simple ML Code 是一个专门为机器学习初学者设计的实战教程项目。它来自 Datawhale 开源社区，通过循序渐进的方式，帮助学习者从零开始掌握机器学习的基础算法。

1.2 项目信息

项目	内容
原仓库	datawhalechina/simple-ml-code
Stars	13（fork 版）
语言	Python 54.8%、HTML 26.6%、JavaScript 18.6%
许可证	MIT
教程地址	https://acgpp.github.io/simple-ml-code/

1.3 教程特点

特点	说明
循序渐进	从基础算法开始，逐步深入到更复杂的模型
实践导向	每个章节都包含完整的代码示例和可视化结果
通俗易懂	使用生动的比喻和类比来解释复杂的概念
互动性强	包含大量实际的数据集和可视化结果

二、核心算法详解

2.1 算法概览

本教程涵盖六大机器学习核心算法：

章节	算法	类型	应用场景
第1章	线性回归	监督学习-回归	房价预测、趋势分析
第2章	逻辑回归	监督学习-分类	二分类问题
第3章	决策树	监督学习-分类	风险评估、用户分类
第4章	支持向量机	监督学习-分类	文本分类、图像识别
第5章	K-means	无监督学习-聚类	用户分群、异常检测
第6章	朴素贝叶斯	监督学习-分类	垃圾邮件检测、文本分类

2.2 线性回归（Linear Regression）

2.2.1 核心原理

线性回归是最基础也是最重要的机器学习算法之一。它的核心思想是找到一条直线，使得所有数据点到这条直线的距离之和最小。

数学表达：y = wx + b

其中：
- y 是预测值
- x 是输入特征
- w 是权重（斜率）
- b 是偏置（截距）

2.2.2 损失函数

线性回归使用**均方误差（MSE）**作为损失函数：

MSE = (1/n) × Σ(预测值 - 真实值)²

目标：找到 w 和 b，使得 MSE 最小

2.2.3 梯度下降

参数更新的公式：

w = w - α × ∂MSE/∂w
b = b - α × ∂MSE/∂b

其中 α 是学习率（learning rate）

2.2.4 代码实现

import numpy as np
import matplotlib.pyplot as plt

# 生成模拟数据
np.random.seed(42)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

# 梯度下降参数
learning_rate = 0.01
n_iterations = 1000
m = len(X)  # 样本数量

# 初始化参数
w = np.random.randn(2, 1)
X_b = np.c_[np.ones((m, 1)), X]

# 梯度下降训练
for iteration in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(w) - y)
    w = w - learning_rate * gradients

# 预测
X_new = np.array([[0], [2]])
X_new_b = np.c_[np.ones((2, 1)), X_new]
y_predict = X_new_b.dot(w)

# 可视化
plt.scatter(X, y, alpha=0.6, label='真实数据')
plt.plot(X_new, y_predict, 'r-', linewidth=2, label='预测直线')
plt.legend()
plt.show()

2.3 决策树（Decision Tree）

2.3.1 核心原理

决策树是一种树形结构的分类算法。它通过不断询问"是/否"问题来对数据进行分类。

示例：判断一个人是否喜欢打篮球

问题1：身高 > 180cm？
  ├─ 是 → 问题2：体重 < 80kg？
  │         ├─ 是 → 喜欢
  │         └─ 否 → 不喜欢
  └─ 否 → 不喜欢

2.3.2 信息增益（Information Gain）

决策树使用信息增益来选择最佳分割特征：

信息熵 H(S) = -Σ p_i × log₂(p_i)

信息增益 IG(S, A) = H(S) - Σ (|S_v|/|S|) × H(S_v)

选择信息增益最大的特征进行分割

2.3.3 代码实现

from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier, plot_tree
import matplotlib.pyplot as plt

# 加载 Iris 数据集
iris = load_iris()
X = iris.data
y = iris.target

# 创建决策树分类器
dt_clf = DecisionTreeClassifier(max_depth=3, random_state=42)
dt_clf.fit(X, y)

# 可视化决策树
plt.figure(figsize=(20, 10))
plot_tree(dt_clf,
          feature_names=iris.feature_names,
          class_names=iris.target_names,
          filled=True,
          rounded=True)
plt.show()

# 预测
sample = [[5.0, 3.4, 1.5, 0.2]]
prediction = dt_clf.predict(sample)
print(f"预测类别: {iris.target_names[prediction[0]]}")

2.4 支持向量机（Support Vector Machine, SVM）

2.4.1 核心原理

SVM 的核心思想是找到一个最大间隔超平面，使得两个类别之间的边界最大化。

几何解释：
- 超平面：w·x + b = 0
- 支持向量：离超平面最近的数据点
- 间隔（margin）：两个类别支持向量之间的距离
- 目标：最大化间隔

2.4.2 核函数

当数据不是线性可分时，SVM 使用核函数将数据映射到高维空间：

核函数	公式	适用场景
线性核	K(x, y) = x·y	高维稀疏数据
多项式核	K(x, y) = (x·y + c)^d	非线性边界
高斯核（RBF）	K(x, y) = exp(-γ‖x-y‖²)	通用非线性

2.4.3 代码实现

from sklearn.svm import SVC
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt

# 生成非线性数据
X, y = make_moons(n_samples=100, noise=0.1, random_state=42)

# 创建 SVM 分类器（RBF 核）
svm_clf = SVC(kernel='rbf', gamma='scale', C=1.0)
svm_clf.fit(X, y)

# 可视化决策边界
plt.figure(figsize=(10, 6))
plt.scatter(X[:, 0], X[:, 1], c=y, cmap='coolwarm', s=50)
ax = plt.gca()
xlim = ax.get_xlim()
ylim = ax.get_ylim()
xx, yy = np.meshgrid(np.linspace(xlim[0], xlim[1], 100),
                     np.linspace(ylim[0], ylim[1], 100))
Z = svm_clf.decision_function(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.3, cmap='coolwarm')
plt.contour(xx, yy, Z, colors='k', levels=[-1, 0, 1],
           linestyles=['--', '-', '--'])
plt.show()

2.5 K-means 聚类

2.5.1 核心原理

K-means 是一种无监督学习算法，用于将数据自动分成 K 个簇。

算法步骤：
1. 随机选择 K 个初始质心
2. 计算每个数据点到 K 个质心的距离
3. 将每个数据点分配给最近的质心所在的簇
4. 重新计算每个簇的质心（均值）
5. 重复步骤 2-4，直到质心不再变化或达到最大迭代次数

2.5.2 损失函数

K-means 使用**簇内平方和（Within-Cluster Sum of Squares, WCSS）**作为优化目标：

WCSS = Σ Σ ||x_i - μ_{c_i}||²

其中：
- x_i 是簇 c_i 中的数据点
- μ_{c_i} 是簇 c_i 的质心
- 目标：最小化所有簇的 WCSS

2.5.3 代码实现

from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

# 生成聚类数据
X, y_true = make_blobs(n_samples=300, centers=4,
                        cluster_std=0.6, random_state=42)

# 创建 K-means 聚类器
kmeans = KMeans(n_clusters=4, random_state=42, n_init=10)
y_pred = kmeans.fit_predict(X)

# 可视化结果
plt.figure(figsize=(12, 5))

# 左图：聚类结果
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap='viridis', s=50, alpha=0.7)
plt.scatter(kmeans.cluster_centers_[:, 0],
           kmeans.cluster_centers_[:, 1],
           c='red', marker='X', s=200, label='质心')
plt.title('K-means 聚类结果')
plt.legend()

# 右图：肘部法则确定 K 值
plt.subplot(1, 2, 2)
wcss = []
K_range = range(1, 11)
for k in K_range:
    kmeans_temp = KMeans(n_clusters=k, random_state=42, n_init=10)
    kmeans_temp.fit(X)
    wcss.append(kmeans_temp.inertia_)

plt.plot(K_range, wcss, 'bo-')
plt.xlabel('聚类数量 K')
plt.ylabel('WCSS（簇内平方和）')
plt.title('肘部法则确定最优 K 值')
plt.show()

2.6 朴素贝叶斯（Naive Bayes）

2.6.1 核心原理

朴素贝叶斯是基于贝叶斯定理的分类算法。“朴素"指的是条件独立性假设：给定类别标签，所有特征之间相互独立。

贝叶斯定理：
P(类别|特征) = P(特征|类别) × P(类别) / P(特征)

对于多特征：
P(C|F1,F2,...,Fn) ∝ P(F1|C) × P(F2|C) × ... × P(Fn|C) × P(C)

2.6.2 高斯朴素贝叶斯

当特征是连续值时，常用高斯朴素贝叶斯：

P(x_i|C) = (1 / √(2πσ²_C)) × exp(-(x_i - μ_C)² / 2σ²_C)

其中 μ_C 和 σ²_C 是类别 C 中特征 x_i 的均值和方差

2.6.3 代码实现

from sklearn.naive_bayes import GaussianNB
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import classification_report, confusion_matrix

# 加载数据
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(
    iris.data, iris.target, test_size=0.3, random_state=42)

# 创建朴素贝叶斯分类器
nb_clf = GaussianNB()
nb_clf.fit(X_train, y_train)

# 预测与评估
y_pred = nb_clf.predict(X_test)
print("混淆矩阵:")
print(confusion_matrix(y_test, y_pred))
print("\n分类报告:")
print(classification_report(y_test, y_pred,
                          target_names=iris.target_names))

三、项目结构与安装

3.1 项目结构

simple-ml-code/
├── docs/
│   ├── chapter1/
│   │   ├── 线性回归.md
│   │   └── 线性回归.py
│   ├── chapter2/
│   │   ├── 逻辑回归.md
│   │   └── 逻辑回归.py
│   ├── chapter3/
│   │   ├── 决策树.md
│   │   └── 决策树.py
│   ├── chapter4/
│   │   ├── 支持向量机.md
│   │   └── 支持向量机.py
│   ├── chapter5/
│   │   ├── K-means聚类.md
│   │   └── K-means聚类.py
│   └── chapter6/
│       ├── 贝叶斯.md
│       └── 贝叶斯.py
├── requirements.txt
└── README.md

3.2 环境要求

依赖	版本要求	说明
Python	3.7+	基础运行环境
NumPy	-	数值计算
Pandas	-	数据处理
Matplotlib	-	数据可视化
scikit-learn	-	机器学习算法

3.3 安装步骤

# 1. 克隆项目
git clone https://github.com/datawhalechina/simple-ml-code.git

# 2. 进入目录
cd simple-ml-code

# 3. 安装依赖
pip install numpy pandas matplotlib scikit-learn seaborn

# 或者一键安装
pip install -r requirements.txt

# 4. 开始学习第一章
python docs/chapter1/线性回归.py

四、学习路径规划

4.1 推荐学习顺序

第1周：线性回归 + 数学基础复习
  ↓
第2周：逻辑回归 + 概率基础
  ↓
第3周：决策树 + 信息论基础
  ↓
第4周：支持向量机 + 优化基础
  ↓
第5周：K-means 聚类 + 无监督学习
  ↓
第6周：朴素贝叶斯 + 贝叶斯统计

4.2 每章学习要点

章节	理论重点	实践重点
线性回归	梯度下降、损失函数	数据预处理、模型训练
逻辑回归	Sigmoid 函数、分类边界	二分类、多分类
决策树	信息熵、增益率	过拟合处理、剪枝
SVM	核函数、间隔最大化	参数调优、核函数选择
K-means	迭代质心分配	K 值选择、初始化
朴素贝叶斯	贝叶斯定理、独立假设	文本分类、垃圾邮件过滤

五、实战技巧与最佳实践

5.1 数据预处理

import pandas as pd
from sklearn.preprocessing import StandardScaler, MinMaxScaler

# 读取数据
df = pd.read_csv('data.csv')

# 缺失值处理
df.fillna(df.mean(), inplace=True)  # 用均值填充
# 或 df.dropna()  # 删除缺失行

# 标准化（Z-score）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 归一化（Min-Max）
minmax_scaler = MinMaxScaler()
X_normalized = minmax_scaler.fit_transform(X)

5.2 模型评估

from sklearn.model_selection import cross_val_score
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# 交叉验证
cv_scores = cross_val_score(clf, X, y, cv=5, scoring='accuracy')
print(f"交叉验证准确率: {cv_scores.mean():.3f} (+/- {cv_scores.std():.3f})")

# 详细评估指标
y_pred = clf.predict(X_test)
print(f"准确率 (Accuracy): {accuracy_score(y_test, y_pred):.3f}")
print(f"精确率 (Precision): {precision_score(y_test, y_pred, average='weighted'):.3f}")
print(f"召回率 (Recall): {recall_score(y_test, y_pred, average='weighted'):.3f}")
print(f"F1 分数: {f1_score(y_test, y_pred, average='weighted'):.3f}")

5.3 超参数调优

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [3, 5, 7, None],
    'min_samples_split': [2, 5, 10]
}

# 网格搜索
grid_search = GridSearchCV(clf, param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f"最优参数: {grid_search.best_params_}")
print(f"最优分数: {grid_search.best_score_:.3f}")

六、常见问题与解决方案

Q1: 线性回归拟合效果不好怎么办？

可能原因与解决方案：

问题	原因	解决方案
欠拟合	模型太简单	增加多项式特征、使用更复杂的模型
过拟合	模型太复杂	增加训练数据、正则化（L1/L2）
梯度不下降	学习率不合适	调小学习率、使用学习率衰减

Q2: 决策树容易过拟合怎么解决？

解决方案：

# 预剪枝
dt_clf = DecisionTreeClassifier(max_depth=5, min_samples_split=10)

# 后剪枝（成本复杂度剪枝）
path = dt_clf.cost_complexity_pruning_path(X_train, y_train)
ccp_alphas, impurities = path.ccp_alphas, path.impurities
clf = DecisionTreeClassifier(random_state=42, ccp_alpha=ccp_alphas[10])

Q3: K-means 聚类结果不稳定怎么办？

解决方案：

多次运行取最优：

kmeans = KMeans(n_clusters=K, n_init=10, random_state=42)

使用 K-means++ 初始化：

kmeans = KMeans(n_clusters=K, init='k-means++', n_init=10)

肘部法则确定最优 K（参考 2.5.3 代码）

七、扩展学习资源

7.1 相关项目推荐

项目	说明	链接
Datawhale Pumpkin Book	机器学习南瓜书（公式推导）	https://github.com/datawhalechina/pumpkin-book
Datawhale DOPMC	Python 编程之法	https://github.com/datawhalechina/DOPMC
Sklearn 官方教程	scikit-learn 官方文档	https://scikit-learn.org/stable/tutorial/

7.2 推荐学习路径

入门：Simple ML Code（本文项目）
  ↓
进阶：Pumpkin Book（理论加强）
  ↓
实战：Kaggle 竞赛项目
  ↓
深入：Andrew Ng 机器学习课程

八、总结

Simple ML Code 是一个优秀的机器学习入门教程，它的特点是：

优势	说明
零基础友好	从最基本的概念讲起，无需深厚的数学背景
代码完整	每个算法都有可以直接运行的 Python 代码
可视化强	配套 Matplotlib 可视化，直观理解算法原理
循序渐进	从简单到复杂，符合学习规律

学习建议：

动手实践：不要只看不练，每个章节的代码都要自己跑一遍
理解原理：不仅要会调库，还要理解算法背后的数学原理
多问为什么：遇到不懂的地方，深挖下去，不要一知半解
形成知识体系：学完所有章节后，回顾整体架构，建立知识图谱

九、资源链接

资源	链接
教程网站	https://acgpp.github.io/simple-ml-code/
GitHub 仓库	https://github.com/datawhalechina/simple-ml-code
Datawhale 官网	https://datawhalechina.github.io/
scikit-learn	https://scikit-learn.org/