机器学习是什么意思?就是给电脑看很多例子,让它自己找到规律!
不用我们告诉它规则——它通过数据自己学出来。
你看了 100 张苹果和香蕉的照片,就能认出没见过的新水果。
机器学习也一样——我们给电脑每种水果的特征数字
(比如"圆不圆""黄不黄"),让它找到一条分界线,把两种水果分开。
这条线就是电脑"学到的规律"。找线的过程就叫训练!
🎮 拖动滑块,找到最好的分界线!
🍎 苹果:圆、不黄 🍌 香蕉:不圆、很黄 红圈 = 分错了的!
答对了:— / 20
准确率:—
📚 学到了什么?
- 机器学习= 给电脑看例子,让它自己找规律
- 特征= 用来区分事物的数字(这里是"圆不圆""黄不黄")
- 分类器= 找到一条线(或更复杂的界限)把不同类别分开
- 线越准,准确率越高——但真实数据不总是 100% 完美!
- 下面几关会讲 AI 怎么用神经网络来做这件事 👇
第一关我们用一条直线分苹果和香蕉。神经网络更厉害——
它让信号经过好几排"神经元"反复加工,能学会比直线复杂得多的规律!
每个神经元把收到的信号加权求和,再决定要不要"激活"传给下一排。
想象一个水果裁判团:你把苹果的两个特征(圆不圆?黄不黄?)告诉第一排裁判,
他们各自计算一个分数传给第二排……最后一排宣布:
"🍎 苹果可能性 92%,🍌 香蕉可能性 8%!"
这和第一关一模一样的特征,但现在网络会自动学会怎么组合它们——不需要人画线!
每个神经元计算:输出 = σ(w₁×输入₁ + w₂×输入₂ + w₃×输入₃ + 偏置)
σ 是 sigmoid 函数,把任意数压缩到 0~1:σ(x) = 1 / (1 + e−x)
权重 w = 每个信号的"重要程度",偏置 b = 让神经元更容易开/关
直接在下面的游戏里看!
连接线上的数字就是权重 w:绿色正数表示"这个特征越强越支持我激活",红色负数表示"这个特征越强我越不想激活"。节点里面的数字是激活程度(0=完全不亮,1=完全点亮)。
👉 点"🍎 典型苹果":圆度高、黄度低 → 看 H₁ 节点(它的权重是 圆+3.0、黄−3.0)会亮起来!
👉 点"🍌 典型香蕉":黄度高、圆度低 → 看 H₂ 节点(权重 圆−3.0、黄+3.0)会亮起来!
👉 点"❓ 难以判断":H₁ H₂ 都半亮,最后苹果/香蕉概率接近 50%。
下方的逐步计算面板会实时显示每个节点的具体算法过程。
🎮 拖动滑块输入水果特征,看神经网络如何层层判断
和第一关同样的两个特征:圆不圆 + 黄不黄 → 苹果还是香蕉?连接线上的数字是权重,节点内的数字是激活值。
快速测试:
📚 学到了什么?
- 神经网络 = 多层神经元连在一起,输入→隐藏层→输出
- 每个神经元:加权求和 → sigmoid → 激活值(0~1)
- 绿线 = 正权重(这个特征越强越支持激活),红线 = 负权重(压制激活)
- 线越粗 = 当前信号越强,节点越亮 = 激活程度越高
- 这叫前向传播(Forward Pass)——下一关学它是怎么被"训练"出来的
神经网络刚建好时,权重全是随机数,什么都不知道。
训练就是让 AI 反复看苹果香蕉数据,每次看完一个,
就根据"答错了多少"来调整权重——让下次答得更准。这个调整方法叫梯度下降。
就像你练习投篮:投一个,看偏了多少(误差)→ 下次稍微调一点方向
(调整权重)→ 再投…… 练得越多越准!
训练的完整循环是:① 看一个苹果/香蕉 → ② 网络猜一下 → ③ 算误差
→ ④ 梯度告诉每个权重该往哪调 → ⑤ 调一小步 → 回到①
下面的游戏就是真实地在你眼前做这件事!观察左边的"决策边界"
如何从一团乱到越来越准确地把苹果和香蕉分开。
损失函数:L = (AI答案 − 正确答案)²(答得越准 L 越小)
梯度:∂L/∂w(告诉我们 w 往哪调能让 L 减小)
更新规则:w_新 = w_旧 − 学习率 α × 梯度
用苹果香蕉来理解:
AI 看到 🍎 苹果(圆度7.5, 黄度2.0),目前随机权重猜"苹果概率 23%"——明显猜错了!
误差 L = (0.23 − 1.00)² = 0.59(差得越多,平方后数字越大)
梯度 ∂L/∂w:对每个权重 w 求导数,告诉我们"w 增大一点点,L 会怎么变?"
如果 w 增大导致 L 减小(导数 < 0),那就把 w 调大一点;反之调小一点。
这就是"往误差减小的方向调"——梯度告诉方向,学习率 α 决定步子大小。
反向传播(Backprop):从输出层开始,把误差"逆流"传回每一层,
计算每个权重的梯度。每训练一个样本,所有权重都更新一次。
🎮 观看 AI 从零开始,一步步学会区分苹果和香蕉!
上图:神经网络当前权重(数字随每次训练更新),显示当前样本在网络中的激活情况
下左:AI 当前决策边界(红=苹果区,黄=香蕉区);下右:误差和准确率曲线
当前决策边界
🔴背景=AI认为是苹果区 🟡背景=香蕉区
红色圆圈 = AI 现在答错了这个点
紫色虚圆圈 = 刚刚学过的那个样本
点击"看下一个样本",AI 会逐个学习苹果和香蕉的特征!
训练轮次:0
总误差:—
准确率:—
📚 学到了什么?
- 训练循环:看数据 → 算误差 → 求梯度 → 更新权重,反复循环
- 误差(Loss)= (预测值 − 正确值)²,越小越好
- 梯度= 每个权重对误差的影响方向,通过反向传播计算
- 随着训练步数增加,AI 的决策边界越来越准,误差曲线不断下降
- 训练 GPT-4 做了类似的事情,只不过数据是几万亿个词,权重有 1 万亿个!
Card ★ 中我们用圆度和黄度区分苹果和香蕉,但有两个"边界难题"总是出错——
它们的圆度和黄度太接近了!工程师有哪些方法来提升准确率?
好比你用"身高"一个特征猜男女同学,准确率只有 85%(有的女生很高,有的男生很矮,分不清)。
解决方法:
① 加特征——再看看声音,立刻清晰了!
② 加层数——神经网络更深,能学习更复杂的分界线。
③ 两个都用——效果最好!
两个"难题"样本:
🍎 难点苹果:圆度 5.0,黄度 5.5 ← 中等圆、中等黄,甜度 7.5 = 很甜 → 是苹果!
🍌 难点香蕉:圆度 5.1,黄度 5.4 ← 几乎一模一样!甜度 3.2 = 不甜 → 是香蕉!
光靠圆度+黄度,两个点在图上几乎重叠 😅。加上甜度,一眼就分出来了!
👇 点击一个方案,AI 自动训练 800 步,看看效果有多大差别:
🧪 选择优化方案,点击自动训练!
← 点击上面的方案开始实验
🧠 神经网络结构图(以"难题苹果"为输入,看信号如何流动)
🗺️ 决策边界(圆度×黄度)
🔴圆圈 = 答错 紫虚线圆 = 难题样本
红背景 = 苹果区,黄背景 = 香蕉区
📚 学到了什么?
- 加特征:当问题缺少关键信息时(两点在 2D 空间重叠),新特征能从根本上解决
- 加层数:让网络学到更复杂的边界形状,但无法解决信息不足的问题
- 特征工程 + 网络设计一起优化 = AI 工程师最核心的日常工作!
- 现实项目中,"加更多好特征"往往比"加更多层"更有效
真正的图像识别 AI(比如手写数字识别)就是这样工作的:
把图片变成一格一格的像素数字,输入神经网络,得出答案。
AI 看图就像看一个数字方格表:黑色格子 = 1,白色格子 = 0。
你画的形状其实就是一堆 0 和 1!神经网络把这些数字输入,
经过层层处理,判断出"这是数字几"或"这是什么字母"。
这类网络叫 CNN(卷积神经网络),特别擅长看图!
🎮 在格子里画个形状(点击/拖动),看神经网络实时处理!
推荐:画数字 0、1、7,或字母 L、T、H、X。右边的网络图会随着你的笔触实时更新。
🧠 神经网络实时权重图(画一笔,看像素如何经过特征层流向输出)
左:25个输入像素(黑=1,白=0) → 中:8个特征检测神经元(亮=激活) → 右:8个输出类别(按概率排序)
绿色连线=正权重(支持激活),红色连线=负权重(抑制激活),线上数字=权重值
📚 学到了什么?
- 图片 = 像素矩阵,每格是 0(白)或 1(黑)
- CNN 先检测边缘,再检测形状,最后识别物体
- 真实的手写数字识别(MNIST 数据集)准确率超过 99%!
- AI 给出的不是确定答案,而是每个可能性的概率
ChatGPT、Claude 这类大模型,是怎么会说话的?
秘密是:它们学会了预测"下一个词"!
通过读了互联网上几乎所有文字(几万亿个词),
它们知道什么词最可能接在什么词后面。
就像你读了一万本故事书,有人说"从前有座……",你马上想到"山"!
大模型也一样——只不过它读了一万亿个词,记住了所有词与词之间的联系。
它的核心叫 Transformer + Attention(注意力机制):
处理每个词时,AI 会"注意"句子里其他哪些词最重要。
GPT-4 有大约 1 万亿个参数(权重)!
大模型在做:P(下一个词 | 前面所有的词)
Attention 公式:softmax(QKT / √d) × V
Q=查询, K=键, V=值——帮 AI 找到哪些词最相关
P(下一个词 | 前面所有的词) 是什么意思?
就是:给定"一只小猫在花园里……"这些词,下一个词是"玩耍"的概率是多少?
是"睡觉"的概率是多少?AI 把所有可能的词都算一遍,选概率最高的!
Attention(注意力)公式 是什么?
想象你在看一本侦探小说,读到"它跑走了"时,你要想想"它"指的是前面的猫还是狗?
Attention 让 AI 做同样的事:处理每个词时,"扫描"一遍前面所有的词,
判断哪些词最相关。
• Q(查询)= 当前词在问:"谁和我最有关?"
• K(键)= 每个历史词的"标签"
• V(值)= 每个历史词的实际内容
• softmax= 把相关度变成概率(加起来=100%,最相关的那个权重最大)
🎮 和 AI 一起续写故事!点击词语或让 AI 自动选
进度条 = AI 认为这个词接下来出现的概率
一只小猫
🧠 Transformer 注意力机制——AI 如何"回望"故事来预测下一个词(实时更新)
左:注意力权重(越长/越暖 = 越关注) | 右:Q·K 匹配原理(颜色维度重叠越多 → 分数越高) | 点击词语切换视角
📚 学到了什么?
- 大模型 = 超级大的神经网络(数千亿参数)
- 训练方式:预测下一个词,学了几万亿个词
- Transformer 是大模型的核心架构(2017 年 Google 发明)
- Attention(注意力)让 AI 知道哪些词最相关
- ChatGPT、Claude、Gemini 都是大语言模型!
🎓 今天学到的 AI 全景图
🧠 机器学习
让计算机从大量例子中自己找规律,而不是人工写死规则
🌊 深度学习
用很多层神经网络来学习,层数越深能学的规律越复杂
📉 梯度下降
通过不断调整权重来减小误差,就像蒙眼睛在山上找最低点
📖 大语言模型
学会预测下一个词的超大神经网络,读了几万亿个词
🎉 你已经掌握了 AI 工程师每天工作的基础概念!太厉害了!
每次 AI 猜错了,它要追问自己:"到底是哪个权重造成的错误,该怎么调?"
这个追责的过程叫 反向传播(Backpropagation)——从输出层往回算,用链式法则把"责任"分配给每一个权重。
🍎/🍌 神经网络的一次完整学习过程——逐步演示
① 选一个样本:
反向传播的核心是链式法则:如果损失 L 经过多层计算得来,那么
∂L/∂W = ∂L/∂a₂ × ∂a₂/∂z₂ × ∂z₂/∂W = δ₂ × a₁
就像"是谁让我猜错的"——一层一层往前追责!每追一层就用一次链式法则。
📌 反向传播六步总结
- ① 前向传播(层1):x → z₁ = W₁x + b₁ → a₁ = σ(z₁)
- ② 前向传播(层2):a₁ → z₂ = W₂a₁ + b₂ → a₂ = σ(z₂)
- ③ 计算损失:L = ½Σ(a₂ - target)²
- ④ 输出层梯度:δ₂ = (a₂ - target) · a₂ · (1 - a₂) ← sigmoid 导数!
- ⑤ 隐藏层梯度:δ₁ = (W₂ᵀδ₂) · a₁ · (1 - a₁) ← 链式法则传回来
- ⑥ 更新权重:W₂ -= lr · δ₂ · a₁ᵀ,W₁ -= lr · δ₁ · xᵀ