第24章总结：自然语言处理

24.1 语言模型

概述：语言模型通过概率分布描述字符串的生成概率，用于预测文本序列、翻译、问答等任务。
词袋模型：基于朴素贝叶斯，假设词之间独立，通过统计词频进行分类，但无法捕捉词序信息。
N元词模型：通过相邻词的依赖关系（如二元、三元模型）提升准确性，适用于分类任务（如情感分析）。
平滑技术：解决低频词和未知词问题，常用拉普拉斯平滑和回退模型。
词表示：从原子模型到结构化表示（如词嵌入），提升泛化能力。

24.2 语法

E0语法：定义简单英语片段的规则，包括名词短语、动词短语等，支持语义和句法分析。
词典：分为开放类（名词、动词等）和封闭类（代词、介词等），后者变化缓慢。

24.3 解析

任务：分析句子结构，构建语法树。
CYK算法：动态规划方法，时间复杂度O(n³)，适用于乔姆斯基范式。
依赖解析：直接表示词间关系，适用于自由语序语言（如拉丁语）。
学习解析器：通过树库（如Penn Treebank）监督学习，或通过无监督方法（如课程学习）从无标注数据中学习。

24.4 增强语法

子类别：通过特征（如主格、单数）细化语法规则，解决歧义。
语义解释：将句子转换为逻辑形式（如一阶逻辑），支持组合语义分析。
学习语义语法：通过问答对或逻辑形式样本训练，如Zettlemoyer和Collins的系统。

24.5 真实语言的复杂性

量化：处理歧义（如“每个代理感受到一阵微风”的不同解释）。
语用学：结合上下文解析指代词和意图（如“我”指说话者）。
歧义：词汇、句法和语义歧义需通过世界模型、语言模型等解决。

24.6 自然语言任务

语音识别：将语音转为文本，基于HMM和深度学习（如WaveNet）。
机器翻译：通过双语语料训练，早期用N元模型，现多用序列到序列模型。
信息抽取：从文本中提取结构化知识（如地址、事件），常用HMM或神经网络。
问答系统：直接生成答案（如“谁创立了美国海岸警卫队？”）。

关键点

N元模型在多种任务中表现优异，但需平滑和数据预处理。
层次化结构（如PCFG）和依赖解析各有优势。
增强语法可处理一致性、语义等问题。
真实语言复杂，需结合多模型解决歧义和上下文。

发展历程

早期：统计模型（如N元模型）与形式语法（如乔姆斯基）对立。
现代：深度学习（如Transformer）推动语音识别、翻译等任务性能提升。

本章展示了自然语言处理的多样性和挑战，从基础模型到复杂任务，强调数据驱动与理论结合的重要性。

第25章总结：自然语言处理的深度学习

核心内容

本章探讨了深度学习在自然语言处理（NLP）中的应用，重点介绍了如何通过深度神经网络捕捉语言的结构和灵活性。主要内容包括词嵌入、循环神经网络（RNN）、序列到序列模型、Transformer架构以及预训练与迁移学习。

25.1 词嵌入

目标：通过连续向量表示词语，避免手动特征工程，同时捕捉词语之间的语法、语义、主题等关系。
方法：
- 使用词嵌入（如WORD2VEC、GloVe、FASTTEXT）将词语映射到高维空间，相似词语在空间中距离相近。
- 词嵌入支持类比推理（如“国王 - 男人 + 女人 ≈ 女王”）。
应用：词嵌入广泛用于NLP任务，可直接使用预训练模型或针对特定任务微调。

25.2 自然语言处理中的循环神经网络

RNN语言模型：
- 通过隐藏状态传递上下文信息，解决固定窗口大小的局限性。
- 支持可变长度输入，但存在信息丢失或扭曲的问题（如“电话游戏”效应）。
LSTM：
- 引入门控机制，选择性记忆和遗忘信息，有效处理长距离依赖。
双向RNN：
- 结合从左到右和从右到左的上下文，提升分类任务（如情感分析）的性能。
应用：RNN可用于词性标注、共指消解等任务。

25.3 序列到序列模型

基本模型：
- 编码器-解码器结构，源语言句子通过编码器转换为隐藏状态，解码器生成目标语言句子。
注意力机制：
- 动态关注源句子中与当前目标词相关的部分，解决长距离依赖和固定上下文限制。
- 注意力矩阵可解释性强（如词对齐）。
解码：
- 贪心解码简单但可能陷入局部最优；束搜索保留多个候选序列，生成更优结果。

25.4 Transformer架构

自注意力机制：
- 通过查询（Query）、键（Key）、值（Value）向量计算词语间的关系，捕捉全局上下文。
- 多头注意力增强模型对不同语义子空间的理解。
位置编码：
- 为输入添加位置嵌入，弥补自注意力对词序不敏感的缺陷。
优势：
- 并行计算高效，支持长距离依赖建模，成为NLP任务的主流架构（如BERT、GPT）。

25.5 预训练与迁移学习

预训练词嵌入：
- 利用无标注文本训练词向量（如GloVe），捕捉词语共现模式。
上下文表示：
- 通过语言模型（如ELMO、BERT）生成动态词向量，解决多义词问题。
掩码语言模型（MLM）：
- 随机掩码词语并预测，训练双向上下文表示。
应用：
- 预训练模型（如T5、ROBERTA）通过微调适配多种任务（如翻译、问答）。

25.6 技术现状

当前进展：
- Transformer模型（如GPT-2、T5）在多项任务中接近或超越人类表现。
- 系统如ARISTO在科学考试中表现优异，但仍有局限性（如无法处理图表）。
挑战与未来：
- 模型依赖海量数据，但效率远低于人类学习。
- 可能的方向包括结合语法与语义的混合方法、扩展多模态数据（如图像、视频）。

总结

本章展示了深度学习如何通过词嵌入、RNN、Transformer等模型解决NLP任务，并强调了预训练和迁移学习的重要性。尽管当前模型表现优异，未来仍需在效率、多模态融合和理论理解上取得突破。

第26章：机器人学总结

本章概述

本章探讨了机器人学的基本概念、技术框架和应用领域。机器人作为物理世界的智能体，通过传感器感知环境并通过执行器影响环境。机器人学问题涉及随机性、部分可观测性和多智能体交互，通常在高维连续状态和动作空间中求解。本章从硬件、感知、规划与控制、人机交互等多个角度系统介绍了机器人学的核心内容。

主要内容

26.1 机器人

机器人是能够操纵物理世界的物理智能体，配备效应器（如轮子、关节）和传感器（如摄像头、雷达）
机器人工作环境具有部分可观测性和随机性，通常建模为连续状态空间和动作空间
机器人学习面临现实世界的时间约束和安全限制，”仿真到现实”（sim-to-real）是研究热点

26.2 机器人硬件

机器人类型

机械臂（工业机械臂、辅助机械臂）
移动机器人（轮式、腿式、无人机、水下机器人等）
其他类型（假肢、外骨骼、群体机器人等）

传感器

被动传感器（如摄像头）与主动传感器（如声纳）
测距传感器（激光雷达、ToF相机等）
定位传感器（GPS、里程计等）
本体感受传感器（轴编码器、惯性传感器等）

执行器

电动、液压和气动执行器
关节类型（旋转关节、棱柱关节等）
夹持器设计（平行夹爪、仿人手等）

26.3 机器人问题建模

机器人问题可建模为MDP（完全可观测）、POMDP（部分可观测）或博弈论模型（多智能体）
通常将问题分解为：任务规划、运动规划、控制、偏好学习和人员预测

26.4 机器人感知

感知将传感器数据映射为环境内部表示
定位与建图（SLAM）技术：
- 蒙特卡洛定位（粒子滤波）
- 扩展卡尔曼滤波
其他感知：温度、气味等环境感知
监督与无监督学习在感知中的应用（低维嵌入、自适应感知）

26.5 规划与控制

构型空间

构型空间表示机器人所有可能状态
正向运动学与逆向运动学计算

运动规划

可见性图法：保证最短路径
Voronoi图法：最大化与障碍物距离
单元分解法：离散化构型空间
随机运动规划（PRM、RRT等）
轨迹优化：通过梯度下降优化路径

控制

开环控制：基于逆动力学模型
闭环控制：PID控制器、计算力矩控制
最优控制：LQR、iLQR等

26.6 不确定性运动规划

处理部分可观测性和随机效应
模型预测控制（MPC）：在线重新规划
信息收集动作：主动感知环境

26.7 机器人中的强化学习

挑战：现实世界样本效率低
利用模型：基于模型RL、sim-to-real迁移
利用其他信息：运动基元、元学习等

26.8 人类与机器人

协调问题

预测人类行为：建模为近似理性智能体
游戏理论框架处理人机交互

学习人类偏好

偏好学习：从演示中推断成本函数
模仿学习：直接学习策略
教学界面：解决对应问题

26.9 替代机器人框架

反应式控制器：基于有限状态机的直接控制
包容架构：组合增广有限状态机（AFSM）

26.10 应用领域

家庭护理：辅助机器人、假肢等
医疗：手术机器人
服务：酒店、医院配送机器人
自动驾驶汽车
娱乐：迪士尼机器人、玩具
探索：太空、水下、危险环境
工业：工厂自动化

关键点

机器人学整合了感知、规划、学习和控制等多个AI领域
连续高维状态空间和现实世界约束是主要挑战
通常采用分层方法分解问题（感知→规划→控制）
人机交互需要协调预测和学习人类偏好
从工业应用到家庭服务，机器人技术正快速渗透各领域

发展趋势

更强大的sim-to-real迁移技术
更自然的人机交互方式
深度强化学习在机器人中的应用
多机器人协作系统
安全可靠的自主决策

第27章计算机视觉总结

引言

计算机视觉通过摄像头捕捉现实世界的图像，从中提取信息，帮助智能体预测未来、导航、识别物体等。本章介绍了从图像数据中恢复信息的方法。

27.1 简介

视觉是一种感知通道，通过被动或主动感知（如雷达）获取信息。计算机视觉的核心问题是重建（从图像构建世界模型）和识别（区分不同对象）。视觉系统依赖于特征提取和基于模型的方法。

27.2 图像形成

无透镜成像（针孔相机）：
- 针孔相机通过小孔成像，几何模型简单，但图像较暗。
- 透视投影公式：( x = -\frac{fX}{Z} ), ( y = -\frac{fY}{Z} )，其中 ( f ) 为焦距，( Z ) 为深度。
- 平行线在图像中会聚于消失点。
透镜系统：
- 透镜收集更多光线，形成更亮的图像，但需调整焦距和景深。
- 焦平面和景深的概念解释了聚焦范围。
缩放正交投影：
- 当物体深度变化较小时，透视投影可简化为 ( x = sX ), ( y = sY )，其中 ( s ) 为缩放因子。
光与阴影：
- 光照模型包括环境光、漫反射（Lambert余弦定律）和镜面反射。
- 阴影和互反射影响亮度。
颜色：
- 颜色由光谱能量密度表示，人类视觉基于三原色（RGB）原理。
- 颜色恒常性指在不同光照下感知物体颜色的能力。

27.3 简单图像特征

边缘检测：
- 边缘是图像亮度的显著变化，由深度、表面方向、反射或光照变化引起。
- 通过高斯滤波平滑图像后计算梯度，标记局部最大值作为边缘。
纹理：
- 纹理是表面的重复模式，通过方向直方图描述。
- 纹理可用于物体识别和图像匹配。
光流：
- 光流是视频序列中物体的表观运动，通过匹配相邻帧中的块计算。
- 用于估计深度和运动。
图像分割：
- 将图像分为相似区域，基于亮度、颜色或纹理。
- 方法包括边界检测和区域聚类（如归一化割）。

27.4 图像分类

卷积神经网络（CNN）：
- CNN通过多层局部模式检测实现图像分类，如AlexNet在ImageNet竞赛中表现优异。
- 数据增强和GPU加速训练。
分类挑战：
- 同一类物体外观差异大（如不同颜色的猫）。
- 同一物体在不同条件下外观变化（如光照、视角、遮挡）。

27.5 物体检测

滑动窗口法：用分类器扫描图像，检测物体。
Faster RCNN：使用区域提议网络（RPN）生成候选框，通过非极大值抑制和边界框回归优化结果。
评估指标包括准确率和召回率。

27.6 3D世界

多视图重建：
- 通过匹配多视图中的点恢复3D几何。
- 应用包括模型构建、动画混合和路径重建。
双目立体视觉：
- 通过左右眼的视差计算深度，基线 ( b ) 和视差 ( \delta\theta ) 的关系为 ( \delta\theta = \frac{b\delta Z}{Z^2} )。
单视图几何：
- 从单张图像预测深度图或物体姿态，依赖纹理、阴影和空间关系等线索。

27.7 计算机视觉应用

行为理解：
- 通过视频分析人体动作，如姿态估计和行为分类。
图像与文字关联：
- 图像标注和描述生成（如COCO数据集），视觉问答（VQA）系统。
三维重建：
- 从多视图或单视图恢复3D结构，用于建筑管理和虚拟现实。
图像生成：
- 风格迁移和生成对抗网络（GAN）生成逼真图像，如深度伪造（deepfake）。
运动控制：
- 视觉用于自动驾驶（车道控制、障碍物避障）和机器人导航（SLAM和路径规划）。

总结

计算机视觉通过图像处理、特征提取和机器学习，实现了物体识别、三维重建和行为分析等任务。尽管仍面临遮挡、光照变化等挑战，但其应用已广泛渗透到各个领域。