🤖 AI 魔法课堂

★

🍎 第一步：教电脑认识苹果和香蕉

机器学习是什么意思？就是给电脑看很多例子，让它自己找到规律！不用我们告诉它规则——它通过数据自己学出来。

你看了 100 张苹果和香蕉的照片，就能认出没见过的新水果。机器学习也一样——我们给电脑每种水果的特征数字 （比如"圆不圆""黄不黄"），让它找到一条分界线，把两种水果分开。

这条线就是电脑"学到的规律"。找线的过程就叫训练！

🎮 拖动滑块，找到最好的分界线！

🍎 苹果：圆、不黄 🍌 香蕉：不圆、很黄红圈 = 分错了的！

分界线位置：

答对了：— / 20 准确率：—

📚 学到了什么？

机器学习= 给电脑看例子，让它自己找规律
特征= 用来区分事物的数字（这里是"圆不圆""黄不黄"）
分类器= 找到一条线（或更复杂的界限）把不同类别分开
线越准，准确率越高——但真实数据不总是 100% 完美！
下面几关会讲 AI 怎么用神经网络来做这件事 👇

1

🧠 神经网络——多层计算来判断苹果和香蕉

第一关我们用一条直线分苹果和香蕉。神经网络更厉害—— 它让信号经过好几排"神经元"反复加工，能学会比直线复杂得多的规律！每个神经元把收到的信号加权求和，再决定要不要"激活"传给下一排。

想象一个水果裁判团：你把苹果的两个特征（圆不圆？黄不黄？）告诉第一排裁判，他们各自计算一个分数传给第二排……最后一排宣布： "🍎 苹果可能性 92%，🍌 香蕉可能性 8%！"

这和第一关一模一样的特征，但现在网络会自动学会怎么组合它们——不需要人画线！

每个神经元计算：输出 = σ(w₁×输入₁ + w₂×输入₂ + w₃×输入₃ + 偏置)
σ 是 sigmoid 函数，把任意数压缩到 0~1：σ(x) = 1 / (1 + e^−x)
权重 w = 每个信号的"重要程度"，偏置 b = 让神经元更容易开/关

直接在下面的游戏里看！
连接线上的数字就是权重 w：绿色正数表示"这个特征越强越支持我激活"，红色负数表示"这个特征越强我越不想激活"。节点里面的数字是激活程度（0=完全不亮，1=完全点亮）。

👉 点"🍎 典型苹果"：圆度高、黄度低 → 看 H₁ 节点（它的权重是 圆+3.0、黄−3.0）会亮起来！
👉 点"🍌 典型香蕉"：黄度高、圆度低 → 看 H₂ 节点（权重 圆−3.0、黄+3.0）会亮起来！
👉 点"❓ 难以判断"：H₁ H₂ 都半亮，最后苹果/香蕉概率接近 50%。

下方的逐步计算面板会实时显示每个节点的具体算法过程。

🎮 拖动滑块输入水果特征，看神经网络如何层层判断

和第一关同样的两个特征：圆不圆 + 黄不黄 → 苹果还是香蕉？连接线上的数字是权重，节点内的数字是激活值。

🔵 圆不圆 5.0

不圆（🍌）很圆（🍎）

🟡 黄不黄 5.0

不黄（🍎）很黄（🍌）

快速测试：

📚 学到了什么？

神经网络 = 多层神经元连在一起，输入→隐藏层→输出
每个神经元：加权求和 → sigmoid → 激活值（0~1）
绿线 = 正权重（这个特征越强越支持激活），红线 = 负权重（压制激活）
线越粗 = 当前信号越强，节点越亮 = 激活程度越高
这叫前向传播（Forward Pass）——下一关学它是怎么被"训练"出来的

2

📉 梯度下降——AI 如何从苹果香蕉数据中学会？

神经网络刚建好时，权重全是随机数，什么都不知道。训练就是让 AI 反复看苹果香蕉数据，每次看完一个，就根据"答错了多少"来调整权重——让下次答得更准。这个调整方法叫梯度下降。

就像你练习投篮：投一个，看偏了多少（误差）→ 下次稍微调一点方向（调整权重）→ 再投…… 练得越多越准！

训练的完整循环是：① 看一个苹果/香蕉 → ② 网络猜一下 → ③ 算误差 → ④ 梯度告诉每个权重该往哪调 → ⑤ 调一小步 → 回到①

下面的游戏就是真实地在你眼前做这件事！观察左边的"决策边界" 如何从一团乱到越来越准确地把苹果和香蕉分开。

损失函数：L = (AI答案 − 正确答案)²（答得越准 L 越小）
梯度：∂L/∂w（告诉我们 w 往哪调能让 L 减小）
更新规则：w_新 = w_旧 − 学习率 α × 梯度

用苹果香蕉来理解：
AI 看到 🍎 苹果（圆度7.5, 黄度2.0），目前随机权重猜"苹果概率 23%"——明显猜错了！
误差 L = (0.23 − 1.00)² = 0.59（差得越多，平方后数字越大）

梯度 ∂L/∂w：对每个权重 w 求导数，告诉我们"w 增大一点点，L 会怎么变？"
如果 w 增大导致 L 减小（导数 < 0），那就把 w 调大一点；反之调小一点。
这就是"往误差减小的方向调"——梯度告诉方向，学习率 α 决定步子大小。

反向传播（Backprop）：从输出层开始，把误差"逆流"传回每一层，计算每个权重的梯度。每训练一个样本，所有权重都更新一次。

🎮 观看 AI 从零开始，一步步学会区分苹果和香蕉！

上图：神经网络当前权重（数字随每次训练更新），显示当前样本在网络中的激活情况
下左：AI 当前决策边界（红=苹果区，黄=香蕉区）；下右：误差和准确率曲线

🧠 当前神经网络——权重随训练步骤不断调整

当前决策边界

🔴背景=AI认为是苹果区 🟡背景=香蕉区
红色圆圈 = AI 现在答错了这个点
紫色虚圆圈 = 刚刚学过的那个样本

误差 & 准确率曲线

点击"看下一个样本"，AI 会逐个学习苹果和香蕉的特征！

训练轮次：0 总误差：— 准确率：—

📚 学到了什么？

训练循环：看数据 → 算误差 → 求梯度 → 更新权重，反复循环
误差（Loss）= (预测值 − 正确值)²，越小越好
梯度= 每个权重对误差的影响方向，通过反向传播计算
随着训练步数增加，AI 的决策边界越来越准，误差曲线不断下降
训练 GPT-4 做了类似的事情，只不过数据是几万亿个词，权重有 1 万亿个！

🔬

🔬 模型优化实验室——如何从 90% 到 100%？

Card ★ 中我们用圆度和黄度区分苹果和香蕉，但有两个"边界难题"总是出错—— 它们的圆度和黄度太接近了！工程师有哪些方法来提升准确率？

好比你用"身高"一个特征猜男女同学，准确率只有 85%（有的女生很高，有的男生很矮，分不清）。
解决方法：
① 加特征——再看看声音，立刻清晰了！
② 加层数——神经网络更深，能学习更复杂的分界线。
③ 两个都用——效果最好！

两个"难题"样本：
🍎 难点苹果：圆度 5.0，黄度 5.5 ← 中等圆、中等黄，甜度 7.5 = 很甜 → 是苹果！
🍌 难点香蕉：圆度 5.1，黄度 5.4 ← 几乎一模一样！甜度 3.2 = 不甜 → 是香蕉！

光靠圆度+黄度，两个点在图上几乎重叠 😅。加上甜度，一眼就分出来了！

👇 点击一个方案，AI 自动训练 800 步，看看效果有多大差别：

🧪 选择优化方案，点击自动训练！

← 点击上面的方案开始实验

🧠 神经网络结构图（以"难题苹果"为输入，看信号如何流动）

🗺️ 决策边界（圆度×黄度）

🔴圆圈 = 答错紫虚线圆 = 难题样本
红背景 = 苹果区，黄背景 = 香蕉区

当前准确率

—

训练步数：0

📈 准确率曲线

横轴：训练步数纵轴：准确率

📚 学到了什么？

加特征：当问题缺少关键信息时（两点在 2D 空间重叠），新特征能从根本上解决
加层数：让网络学到更复杂的边界形状，但无法解决信息不足的问题
特征工程 + 网络设计一起优化 = AI 工程师最核心的日常工作！
现实项目中，"加更多好特征"往往比"加更多层"更有效

3

✏️ 在格子里画画，让 AI 来猜！

真正的图像识别 AI（比如手写数字识别）就是这样工作的：把图片变成一格一格的像素数字，输入神经网络，得出答案。

AI 看图就像看一个数字方格表：黑色格子 = 1，白色格子 = 0。你画的形状其实就是一堆 0 和 1！神经网络把这些数字输入，经过层层处理，判断出"这是数字几"或"这是什么字母"。

这类网络叫 CNN（卷积神经网络），特别擅长看图！

🎮 在格子里画个形状（点击/拖动），看神经网络实时处理！

推荐：画数字 0、1、7，或字母 L、T、H、X。右边的网络图会随着你的笔触实时更新。

🧠 神经网络实时权重图（画一笔，看像素如何经过特征层流向输出）

左：25个输入像素（黑=1，白=0） → 中：8个特征检测神经元（亮=激活） → 右：8个输出类别（按概率排序）
绿色连线=正权重（支持激活），红色连线=负权重（抑制激活），线上数字=权重值

📚 学到了什么？

图片 = 像素矩阵，每格是 0（白）或 1（黑）
CNN 先检测边缘，再检测形状，最后识别物体
真实的手写数字识别（MNIST 数据集）准确率超过 99%！
AI 给出的不是确定答案，而是每个可能性的概率

4

📖 大语言模型——和 AI 一起续写故事

ChatGPT、Claude 这类大模型，是怎么会说话的？秘密是：它们学会了预测"下一个词"！通过读了互联网上几乎所有文字（几万亿个词），它们知道什么词最可能接在什么词后面。

就像你读了一万本故事书，有人说"从前有座……"，你马上想到"山"！大模型也一样——只不过它读了一万亿个词，记住了所有词与词之间的联系。

它的核心叫 Transformer + Attention（注意力机制）：处理每个词时，AI 会"注意"句子里其他哪些词最重要。 GPT-4 有大约 1 万亿个参数（权重）！

大模型在做：P(下一个词 | 前面所有的词)
Attention 公式：softmax(QK^T / √d) × V
Q=查询, K=键, V=值——帮 AI 找到哪些词最相关

P(下一个词 | 前面所有的词) 是什么意思？
就是：给定"一只小猫在花园里……"这些词，下一个词是"玩耍"的概率是多少？是"睡觉"的概率是多少？AI 把所有可能的词都算一遍，选概率最高的！

Attention（注意力）公式 是什么？
想象你在看一本侦探小说，读到"它跑走了"时，你要想想"它"指的是前面的猫还是狗？ Attention 让 AI 做同样的事：处理每个词时，"扫描"一遍前面所有的词，判断哪些词最相关。
  • Q（查询）= 当前词在问："谁和我最有关？"
  • K（键）= 每个历史词的"标签"
  • V（值）= 每个历史词的实际内容
  • softmax= 把相关度变成概率（加起来=100%，最相关的那个权重最大）

🎮 和 AI 一起续写故事！点击词语或让 AI 自动选

进度条 = AI 认为这个词接下来出现的概率

一只小猫

🧠 Transformer 注意力机制——AI 如何"回望"故事来预测下一个词（实时更新）

左：注意力权重（越长/越暖 = 越关注） | 右：Q·K 匹配原理（颜色维度重叠越多 → 分数越高） | 点击词语切换视角

📚 学到了什么？

大模型 = 超级大的神经网络（数千亿参数）
训练方式：预测下一个词，学了几万亿个词
Transformer 是大模型的核心架构（2017 年 Google 发明）
Attention（注意力）让 AI 知道哪些词最相关
ChatGPT、Claude、Gemini 都是大语言模型！

🎓

🔬 进阶：反向传播——AI 怎么算出梯度？

每次 AI 猜错了，它要追问自己："到底是哪个权重造成的错误，该怎么调？" 这个追责的过程叫 反向传播（Backpropagation）——从输出层往回算，用链式法则把"责任"分配给每一个权重。

🍎/🍌 神经网络的一次完整学习过程——逐步演示

① 选一个样本：

反向传播的核心是链式法则：如果损失 L 经过多层计算得来，那么
∂L/∂W = ∂L/∂a₂ × ∂a₂/∂z₂ × ∂z₂/∂W = δ₂ × a₁
就像"是谁让我猜错的"——一层一层往前追责！每追一层就用一次链式法则。

📌 反向传播六步总结

① 前向传播（层1）：x → z₁ = W₁x + b₁ → a₁ = σ(z₁)
② 前向传播（层2）：a₁ → z₂ = W₂a₁ + b₂ → a₂ = σ(z₂)
③ 计算损失：L = ½Σ(a₂ - target)²
④ 输出层梯度：δ₂ = (a₂ - target) · a₂ · (1 - a₂) ← sigmoid 导数！
⑤ 隐藏层梯度：δ₁ = (W₂ᵀδ₂) · a₁ · (1 - a₁) ← 链式法则传回来
⑥ 更新权重：W₂ -= lr · δ₂ · a₁ᵀ，W₁ -= lr · δ₁ · xᵀ

🤖 AI 魔法课堂

🍎 第一步：教电脑认识苹果和香蕉

🎮 拖动滑块，找到最好的分界线！

📚 学到了什么？

🧠 神经网络——多层计算来判断苹果和香蕉

🎮 拖动滑块输入水果特征，看神经网络如何层层判断

📚 学到了什么？

📉 梯度下降——AI 如何从苹果香蕉数据中学会？

🎮 观看 AI 从零开始，一步步学会区分苹果和香蕉！

📚 学到了什么？

🔬 模型优化实验室——如何从 90% 到 100%？

🧪 选择优化方案，点击自动训练！

📚 学到了什么？

✏️ 在格子里画画，让 AI 来猜！

🎮 在格子里画个形状（点击/拖动），看神经网络实时处理！

📚 学到了什么？

📖 大语言模型——和 AI 一起续写故事

🎮 和 AI 一起续写故事！点击词语或让 AI 自动选

📚 学到了什么？

🎓 今天学到的 AI 全景图

🧠 机器学习

🌊 深度学习

📉 梯度下降

📖 大语言模型

🔬 进阶：反向传播——AI 怎么算出梯度？

🍎/🍌 神经网络的一次完整学习过程——逐步演示

📌 反向传播六步总结