第6课：深度学习与神经网络入门

发布时间：2026/6/26 2:50:14

一、课程信息课程主题深度学习与神经网络入门适合对象人工智能零基础学习者预计学习时长2小时学习方式建议先用生活类比建立直觉不急着学习复杂数学公式二、学习目标学完本课后你应该能够用通俗语言解释什么是神经网络。理解输入层、隐藏层、输出层的大致作用。知道深度学习为什么适合处理图片、语音、文本等复杂数据。理解“特征提取”是什么意思。能用“多级流水线加工”的比喻解释深度学习。理解深度学习的优势、局限和常见应用场景。三、课程导入为什么要学习深度学习前面几课我们学习了机器学习的基本思想机器从数据中总结规律并用这些规律处理新问题。但现实世界中有很多数据非常复杂。例如一张图片里有颜色、形状、边缘、光线、背景和物体位置。一段语音里有音调、语速、口音、停顿和环境噪声。一段文字里有词语、语法、上下文、语气和隐含含义。一段视频里同时包含画面、动作、声音和时间变化。这些数据很难只靠简单规则处理。深度学习的价值就在于它能够从大量复杂数据中自动学习多层次特征从而完成识别、理解、生成等任务。本课会从最基础的神经网络讲起帮助你理解深度学习为什么重要。四、先看一个例子人脸识别如何工作假设我们要让AI识别一张人脸。对人来说看到熟人照片时通常能很快认出是谁。但如果让机器完成这件事就需要把图片转化成计算机能处理的信息。1. 图片在计算机眼里是什么计算机不会像人一样直接“看见”一张照片。在计算机中图片通常被表示成一堆数字。这些数字描述每个像素的颜色和亮度。通俗理解人看到的是一张脸计算机看到的是一大片数字表格。机器要从这些数字中学会哪些地方可能是边缘哪些地方可能是眼睛哪些地方可能是鼻子哪些地方可能是嘴巴不同五官之间的位置关系最后判断这张脸属于谁2. 多层处理的直觉人脸识别不是一步完成的。可以想象成多级加工过程原始像素 → 边缘和线条 → 五官局部 → 脸部结构 → 身份判断每一级都在前一级的基础上提取更复杂的信息。这就是深度学习非常重要的思想通过多层结构逐步提取从简单到复杂的特征。五、什么是神经网络1. 通俗定义神经网络是一种机器学习模型。它受到人脑神经元连接方式的启发但并不等于真正模拟人脑。可以这样理解神经网络是一种由许多计算单元连接起来的模型它通过多层计算从输入数据中学习规律并输出判断结果。这里的“神经元”不是生物学意义上的真实神经元而是一个简化的计算单元。2. 神经网络解决什么问题神经网络可以用于很多任务判断图片中是什么物体把语音转换成文字判断评论是好评还是差评根据历史数据预测数值生成文本、图片或代码推荐用户可能喜欢的内容神经网络尤其擅长处理复杂数据。例如图像语音文本视频3. 一个生活类比多人接力判断可以把神经网络想象成一个多人接力团队。每个人只负责处理一部分信息。例如识别一张人脸第一个人关注颜色和亮度变化。第二个人关注边缘和线条。第三个人关注眼睛、鼻子、嘴巴。第四个人关注脸型和五官组合。最后一个人判断这是谁。每一层都不是单独完成全部任务而是逐步加工信息。六、神经网络的基本结构一个最基础的神经网络通常可以分成三类层输入层 → 隐藏层 → 输出层如果有多个隐藏层就可以形成更“深”的网络。七、输入层接收原始信息1. 输入层是什么输入层是神经网络接收数据的入口。不同任务的输入不同。例如任务输入内容图片识别图片像素语音识别声音信号文本分类文字转成的数字表示房价预测面积、位置、楼层、房龄等特征推荐系统用户行为、商品信息输入层本身通常不负责复杂判断它只是把数据送进网络。2. 数据需要转成数字计算机处理的是数字。所以图片、文字、语音最终都要变成数字形式。例如图片可以变成像素矩阵。文字可以变成向量。语音可以变成声音特征。用户行为可以变成统计特征。通俗理解输入层负责把“现实世界的信息”送进“机器能计算的系统”。八、隐藏层逐步提取特征1. 隐藏层是什么隐藏层位于输入层和输出层之间。它们是神经网络学习规律的主要部分。“隐藏”并不是神秘的意思而是说这些层不直接对应原始输入或最终输出。它们负责在中间一步步加工信息。2. 隐藏层做什么隐藏层会从输入数据中提取有用特征。例如在人脸识别中不同隐藏层可能逐步学习像素亮度 → 边缘线条 → 五官形状 → 脸部结构 → 身份特征这不是人手工告诉模型每一层必须学什么而是模型在训练中逐渐形成的。3. 多个隐藏层为什么有用一个隐藏层只能提取相对简单的规律。多个隐藏层可以逐步组合出更复杂的规律。生活类比做一道复杂菜不是把所有食材直接变成成品而是先清洗、切配、腌制、翻炒、调味最后装盘。每一步都在前一步基础上加工。深度学习中的多层网络也是类似。九、输出层给出最终结果1. 输出层是什么输出层是神经网络给出最终结果的地方。不同任务的输出不同。例如任务输出结果猫狗识别猫或狗垃圾邮件识别垃圾邮件概率房价预测预测价格情感分析好评、中评或差评文本生成下一段文字2. 输出可能是类别分类任务中输出层可能给出每个类别的概率。例如猫92% 狗8%模型会选择概率更高的类别作为判断结果。3. 输出可能是数值回归任务中输出层可能直接给出一个数值。例如预测房价300万元4. 输出可能是连续生成的内容在大语言模型中输出不是一次性给出一个类别而是一步步生成文字。例如模型会根据上下文不断预测下一个词或下一个片段。这也是后续学习大语言模型时需要理解的基础。十、什么是深度学习1. 通俗定义深度学习是机器学习的一个分支。它通常使用多层神经网络来学习复杂数据中的规律。可以这样理解深度学习就是使用很多层神经网络让模型逐层提取更复杂的特征。这里的“深度”主要指网络层数较多。2. 深度学习和普通机器学习的关系关系可以简单表示为人工智能 └── 机器学习 └── 深度学习深度学习不是人工智能的全部。它是机器学习中的一种重要方法。3. 深度学习为什么重要深度学习的一个重要优势是它可以自动从复杂数据中学习特征。在传统机器学习中很多特征需要人工设计。例如识别图片时研究者可能要手工设计边缘特征颜色特征纹理特征形状特征而深度学习可以在大量数据中自动学习这些特征。这让它在图像、语音、文本等任务上表现突出。十一、什么是特征提取1. 特征是什么特征是帮助模型做判断的关键信息。例如判断一个水果是不是苹果可以看颜色形状大小纹理是否有果柄这些就是特征。2. 图像中的特征在图片识别中特征可能包括边缘角点颜色变化纹理形状物体局部物体整体结构例如识别猫低层特征可能是边缘和线条。中层特征可能是耳朵、眼睛、胡须。高层特征可能是猫脸和身体结构。3. 文本中的特征在文本任务中特征可能包括词语句子结构上下文关系情绪倾向主题语气例如判断一句评论是不是差评这家店真是太“特别”了下次再也不来了。模型不仅要看词语还要理解语气和上下文。4. 语音中的特征在语音任务中特征可能包括音高音量语速停顿音色发音变化背景噪声语音识别需要从声音信号中提取这些特征再转换成文字。十二、深度学习的“多级流水线”类比深度学习可以用流水线加工来理解。假设我们要从一堆原材料生产一个成品。流水线可能是原材料 → 初步加工 → 精细加工 → 组装 → 质检 → 成品每一步只完成一部分工作。神经网络也类似原始数据 → 简单特征 → 局部结构 → 高级特征 → 最终判断以人脸识别为例层次可能学习的内容输入层原始像素低层隐藏层边缘、线条、颜色变化中层隐藏层眼睛、鼻子、嘴巴等局部结构高层隐藏层脸型、五官组合、身份特征输出层判断是谁这个类比不要求完全对应真实模型细节但能帮助理解深度学习的核心思想。十三、神经网络是如何训练的1. 训练的基本过程神经网络训练可以简化成五步输入一批训练数据。模型给出预测结果。把预测结果和正确答案比较。计算错误有多大。调整模型内部参数让下次预测更接近正确答案。这个过程会重复很多次。通俗理解神经网络训练就是不断做题、对答案、改错、再做题。2. 参数是什么参数可以理解为模型内部保存规律的数字。模型训练时会不断调整这些数字。不需要初学者理解每个参数的数学含义。只要先知道训练模型本质上是在调整模型内部大量参数让模型输出更接近正确答案。3. 为什么需要大量数据神经网络通常有很多参数。参数越多模型越有能力学习复杂规律但也更需要足够数据。如果数据太少模型可能只记住少量样本而没有真正学到通用规律。这就是前面讲过的过拟合问题。4. 为什么需要大量算力神经网络训练需要反复计算。数据越多、网络越深、模型越大计算量越高。这就是为什么深度学习的发展离不开GPU等硬件算力提升。十四、深度学习为什么适合图像任务图像数据非常复杂。一张图片里包含像素颜色光照纹理边缘背景物体位置物体大小拍摄角度传统规则很难覆盖所有情况。例如识别猫如果靠人工规则可能需要写有尖耳朵有胡须有尾巴有四条腿眼睛形状类似某种特征但现实中有些猫被遮挡有些图片很模糊有些猫姿态奇怪有些背景很复杂有些狗和猫长得相似深度学习可以从大量图片中自动学习不同层次的视觉特征因此非常适合图像识别、目标检测、图像分割等任务。十五、深度学习为什么适合语音任务语音数据也很复杂。同一句话不同人说出来可能差别很大。差异来自性别年龄口音语速音调情绪背景噪声录音设备例如“今天天气不错”这句话不同人说出来的声音波形都不一样。深度学习可以从大量语音样本中学习声音和文字之间的对应关系。所以它被广泛用于语音识别语音合成声纹识别语音助手会议转写十六、深度学习为什么适合文本任务文本看起来是文字但计算机需要把它转成数字才能处理。文本理解的难点包括同一个词在不同上下文中意思不同一句话可能有歧义反讽和隐含含义难以识别长文本需要理解前后关系不同表达可能意思相近例如苹果真甜。苹果发布了新手机。两个句子中的“苹果”含义不同。深度学习尤其是后来的大语言模型能够更好地利用上下文信息因此在自然语言处理任务中表现突出。常见文本任务包括文本分类情感分析机器翻译自动摘要问答系统文本生成代码生成十七、深度学习的典型应用1. 计算机视觉应用包括人脸识别图像分类目标检测医学影像分析自动驾驶感知工业质检图片修复图像生成2. 自然语言处理应用包括智能问答文本摘要机器翻译情感分析写作辅助文本生成合同审阅知识库问答3. 语音智能应用包括语音转文字文字转语音智能音箱会议转写客服语音质检声纹识别4. 推荐系统应用包括短视频推荐商品推荐新闻推荐音乐推荐课程推荐5. 生成式AI应用包括生成文章生成图片生成代码生成视频脚本生成音乐生成设计草稿十八、深度学习的优势1. 能处理复杂数据深度学习擅长处理图像、语音、文本、视频等非结构化数据。这些数据很难用简单规则或普通表格方法处理。2. 能自动提取特征深度学习可以从数据中自动学习特征减少对人工设计特征的依赖。这让它在复杂任务中更有优势。3. 表现上限较高在数据足够多、算力足够强、模型设计合理时深度学习可以达到很高效果。这也是它推动图像识别、语音识别和大模型发展的重要原因。4. 可迁移到多种任务一些深度学习模型可以先在大规模数据上学习通用能力再迁移到具体任务中。例如大模型可以通过提示词完成问答、总结、改写、翻译等多种任务。十九、深度学习的局限1. 需要大量数据深度学习通常需要大量训练数据。如果数据太少或质量差模型可能表现不稳定。2. 需要较强算力训练深度学习模型通常需要大量计算资源。尤其是大模型训练和使用成本都很高。3. 解释性相对较弱深度学习模型内部有大量参数。它为什么做出某个判断有时不容易解释清楚。在医疗、金融、法律等高风险场景中解释性非常重要。4. 可能学到偏见如果训练数据有偏见模型可能学习并放大偏见。例如数据中某类人群样本不足模型在这类人群上的效果可能较差。5. 可能被干扰有些深度学习模型对输入变化很敏感。例如图片稍微模糊、角度变化、背景复杂都可能影响识别效果。6. 不等于真正理解深度学习模型可以表现出很强能力但这不代表它像人一样真正理解世界。特别是生成式AI可能生成流畅但错误的内容。二十、神经网络和人脑一样吗神经网络这个名字容易让人误解。它确实受到生物神经系统启发但它不是人脑的完整复制。1. 相似点它们都有“多个单元连接起来处理信息”的思想。一个神经网络中的计算单元会接收输入处理后传递给下一层。2. 不同点人工神经网络非常简化。它没有人类的意识、情感、意图和真实理解。它主要是在数据和数学计算基础上学习输入与输出之间的规律。3. 正确理解更准确的说法是神经网络借用了人脑神经连接的部分启发但本质上仍然是一种计算模型。不要因为名字里有“神经”就认为它真的像人脑一样思考。二十一、一个完整案例识别手写数字1. 任务是什么目标给模型一张手写数字图片让它判断是0到9中的哪个数字。2. 输入是什么输入是一张手写数字图片。在计算机中它会被表示成像素数字。3. 输出是什么输出是10个类别中的一个0、1、2、3、4、5、6、7、8、9模型也可以输出每个数字的概率。例如01% 12% 23% 390% 41% 51% 60% 71% 81% 90%这表示模型认为图片最可能是数字3。4. 神经网络如何处理可以简化理解为输入层接收图片像素隐藏层提取线条和形状更高层识别数字结构输出层判断数字类别5. 为什么这个例子适合入门手写数字识别比人脸识别简单但已经能体现神经网络的基本思想图片要转成数字模型要从样本中学习输出是类别概率训练需要大量带标签图片测试要看模型能否识别没见过的手写数字二十二、另一个案例智能客服理解用户问题1. 任务是什么目标判断用户问题属于哪类意图并给出合适回答。例如用户输入我的订单什么时候能到系统需要理解这是在询问物流状态。2. 输入是什么输入是用户的一句话或一段对话。文本需要转换成模型可以处理的数字表示。3. 隐藏层可能学习什么模型可能学习关键词句子结构上下文关系用户意图问题类别4. 输出是什么输出可能是订单查询退款咨询发票问题修改地址转人工客服5. 为什么需要深度学习用户表达方式非常多。例如下面几句话意思接近我的订单什么时候到快递到哪里了能帮我查一下物流吗东西怎么还没送到深度学习可以帮助模型理解这些不同表达背后的相似意图。二十三、深度学习和大模型的关系大模型通常建立在深度学习基础上。特别是大语言模型本质上也是一种规模很大的深度学习模型。可以这样理解深度学习提供了基础方法大模型是在更大数据、更大模型、更强算力下发展出来的结果大模型之所以能写文章、回答问题、生成代码离不开大量文本数据深度神经网络结构大规模训练强大的算力支持所以理解深度学习是后续理解大语言模型的重要基础。二十四、初学者常见误区误区1神经网络就是人脑不是。神经网络只是受到人脑启发的计算模型并不具备人类意识。误区2层数越多越好不一定。层数更多可能学习更复杂特征但也需要更多数据和算力还可能更难训练。合适的模型要匹配任务和资源。误区3深度学习可以解决所有问题不能。有些问题用简单规则或传统机器学习方法就足够。不是所有任务都需要深度学习。误区4模型准确率高就可以直接上线不一定。还要看错误类型是否可接受是否存在偏见真实场景是否稳定是否需要人工审核是否符合安全和合规要求误区5AI输出像人说话就代表真正理解不一定。模型可以生成自然语言但仍可能出错、编造或误解上下文。二十五、如何判断一个任务是否适合深度学习可以从以下几个问题判断1. 数据是否复杂如果数据是图片、语音、文本、视频等复杂数据深度学习通常更有优势。如果只是少量结构化表格数据传统方法可能已经足够。2. 数据量是否足够深度学习通常需要较多数据。如果数据很少模型可能难以学到稳定规律。3. 是否需要自动提取特征如果人工很难设计特征深度学习可能更适合。例如图片识别中很难手工写完所有视觉规则。4. 算力和成本是否可接受深度学习训练和部署可能成本较高。实际项目中要考虑训练成本推理成本响应速度维护成本硬件资源5. 是否需要强解释性如果任务要求清楚解释每个判断原因就要谨慎使用难解释的复杂模型。例如金融审批和医疗诊断场景通常需要更强解释性和人工复核。二十六、课堂活动用流水线解释神经网络活动目标用自己的话解释神经网络的多层处理思想。活动任务请选择一个任务用“流水线加工”的方式描述神经网络可能如何处理。可选任务识别人脸识别猫狗图片判断评论是好评还是差评语音转文字判断邮件是否为垃圾邮件填写模板流水线步骤可能处理的内容输入数据第一层处理中间层处理高层处理输出结果示例识别人脸流水线步骤可能处理的内容输入数据一张人脸图片第一层处理识别像素、亮度变化、边缘中间层处理识别眼睛、鼻子、嘴巴等局部特征高层处理识别五官组合和脸部结构输出结果判断这张脸属于谁二十七、课堂活动判断是否适合深度学习活动目标理解深度学习适合哪些任务以及为什么不是所有任务都必须用深度学习。活动任务判断下面任务是否适合深度学习并说明理由。任务是否适合深度学习理由识别图片中的动物计算两个数字相加把语音转换成文字根据少量表格数据计算平均值生成一篇文章初稿判断医学影像中是否有异常根据固定规则判断是否满减判断提示可以从以下角度思考数据是否复杂规则是否容易写清楚是否需要大量样本学习是否需要自动提取特征错误成本是否很高二十八、本课小结本课我们学习了深度学习和神经网络的基础概念。需要重点记住神经网络是一种由多层计算单元组成的机器学习模型。输入层负责接收数据隐藏层负责提取特征输出层负责给出结果。深度学习通常指使用多层神经网络学习复杂数据中的规律。特征是帮助模型判断的关键信息。深度学习可以逐层提取从简单到复杂的特征。深度学习特别适合图像、语音、文本、视频等复杂数据。深度学习需要大量数据和算力。神经网络不是人脑也不代表机器拥有意识。深度学习模型可能出错、存在偏见也不一定容易解释。大模型建立在深度学习基础之上理解深度学习有助于后续理解大模型。二十九、课后练习练习1解释神经网络请用自己的话回答什么是神经网络输入层、隐藏层、输出层分别有什么作用为什么神经网络可以理解成多级加工流程练习2用流水线类比深度学习请用“流水线加工”的比喻解释神经网络。可以选择一个任务识别人脸识别猫狗判断评论情绪语音转文字填写表格阶段我的解释输入初步加工中间加工高级加工输出练习3为什么深度学习适合图片请回答图片在计算机中通常是什么形式为什么用人工规则识别图片很难深度学习如何从图片中提取特征图片识别可能受到哪些因素影响练习4判断任务是否适合深度学习请判断下面任务是否适合深度学习并说明原因。任务是否适合原因人脸识别计算商品满减价格会议录音转文字根据固定公式计算利息生成图片判断评论情绪练习5思考深度学习的局限请回答为什么深度学习需要大量数据为什么深度学习通常需要较强算力为什么说深度学习模型不一定容易解释在医疗或金融场景中为什么不能只看模型输出三十、参考答案与提示练习1参考提示神经网络是一种由多个计算层组成的模型。输入层接收原始数据。隐藏层逐步提取特征和规律。输出层给出最终判断或结果。它像多级加工流程因为每一层都在前一层基础上继续处理信息。练习2参考示例以识别人脸为例阶段示例解释输入输入一张人脸图片初步加工识别像素、边缘、颜色变化中间加工识别眼睛、鼻子、嘴巴等局部特征高级加工识别五官组合、脸型和整体结构输出判断图片中的人是谁练习3参考提示图片在计算机中通常表现为像素数字。人工规则难以覆盖不同光线、角度、背景、遮挡、姿态等复杂变化。深度学习可以通过多层网络逐步学习边缘、局部结构和整体对象特征。图片识别可能受到模糊、遮挡、背景复杂、光线变化和数据偏差影响。练习4参考答案任务是否适合原因人脸识别适合图像数据复杂需要自动提取视觉特征计算商品满减价格不太需要固定规则即可解决会议录音转文字适合语音数据复杂受口音、语速、噪声影响根据固定公式计算利息不太需要公式明确普通程序即可完成生成图片适合需要学习大量图像模式并生成内容判断评论情绪适合文本含义复杂需要理解上下文和语气练习5参考提示深度学习模型参数多需要大量数据才能学到稳定规律。训练和使用深度学习模型需要大量计算因此需要较强算力。模型内部参数复杂不一定能清楚解释每次判断的具体原因。医疗和金融场景错误成本高必须结合专业人员审核和合规要求。三十一、下一课预告下一课我们将学习自然语言处理让机器理解语言你将了解什么是自然语言处理机器如何处理文字分词、文本分类、情感分析、机器翻译是什么为什么上下文理解很重要自然语言处理和大语言模型有什么关系如果说本课帮助你理解深度学习的基础结构那么下一课会进一步进入AI处理语言的核心领域。

资讯详情

第6课：深度学习与神经网络入门

相关新闻

大模型推理的“两步走”：Prefill 与 Decode 全流程科普详解

输入序列如何到达注意力模块的？

第22篇 数据的存储

3分钟掌握WinAsar：Windows上最轻量级的asar文件可视化工具

哈密顿-雅可比不等式：连接最优控制与优化算法的自然物理原理

工厂从0到1落地追溯体系的四个台阶

飞飞重逢手游官网下载：飞飞重逢7月最新官方下载渠道

离线安装Microsoft TODO

LLM训练全链路实战：内存优化、并行策略与推理部署

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

技术线上面试代码写完就以为通关？留学生利用黑盒测试自证风控「蒸汽教育分享」

暗黑2存档编辑器终极指南：5分钟快速掌握d2s-editor完整使用教程

ComfyUI ControlNet Aux插件：解决模型下载失败的终极指南

轻量级多模态智能体实战：本地部署Qwen-VL图文理解与报告生成

手撕CNN：从卷积计算到工程落地的全链路解析

第22篇数据的存储