Howard's Notes

质量控制：多元统计过程控制 (MSPC)

选题1：基于“重构贡献” (Reconstruction-based Contribution) 的故障诊断

痛点： 发现故障（报警）很容易，但分离故障（Diagnosis）很难。传统的贡献图法（Contribution Plot）存在“涂抹效应”（一个变量坏了，会导致相关变量的贡献值也变大，产生误判）。
数学建模切入点：
- 迭代优化： 假设某个变量坏了，试着用剩下的变量通过 PCA 模型去“重构”它。
- 目标函数： 建立一个优化问题——寻找一个故障幅度的修正方向，使得修正后的样本统计量恢复到正常控制限内。
- 算法： 贝叶斯推断或迭代最小二乘法。
难度： ⭐⭐⭐（逻辑非常严密，非常适合做硕士课题）。

MSPC 必备数据：Tennessee Eastman Process (TEP) 数据集 这是一个仿真化工过程的标准数据集，全世界做 MSPC 的都在用。包含 22 个连续测量变量，11 个操纵变量，20 多种故障模式。

下载： GitHub 上搜 "Tennessee Eastman Process data"。

异常检测：单类支持向量机 (One-Class SVM / SVDD)

选题1：基于“增量学习” (Incremental SVDD) 的在线监测

痛点： 工厂的数据是源源不断进来的。每来一批新数据，传统 SVDD 都要把所有历史数据拿来重新训练，计算量爆炸$$(O(N3)O(N3))$$，电脑扛不住。
数学建模切入点：
- KKT 条件更新： 这是核心数学。当新样本加入时，只有边界上（Support Vectors）的样本参数会变。
- 矩阵分块求逆： 利用 Sherman-Morrison 公式，快速更新逆矩阵，而不需要重新解二次规划。
- 过程： 建立一套机制，只保留“支持向量”，丢弃内部的无用数据，实现模型随时间动态进化。
难度： ⭐⭐⭐（需要扎实的矩阵论和凸优化条件知识，非常硬核且高效）。

选题2：解决“参数敏感性”的混合 SVDD 模型

痛点： SVDD 有两个超参数最难调：核函数宽度 $$σ$$和惩罚系数 $$C$$。通常因为没有“负样本”（没有异常数据），无法使用交叉验证（Cross-Validation）来调参。
数学建模切入点：
- 人造负样本： 在正常数据的边界周围，利用均匀分布生成一些“人工异常点”。
- 混合目标函数： 结合 SVDD（让球体尽可能小）+ 二分类 SVM（让正常点和人工异常点分得尽可能开）。
- 优化： 通过最大化这个混合分类能力来自动确定最佳的 $$σ$$。
难度： ⭐⭐（算法逻辑设计很巧妙，不需要深奥的推导，重在策略）。

SVDD 常用数据：

UCI Machine Learning Repository: 找里面的 "Arrhythmia" (心律失常), "Thyroid" (甲状腺) 等数据集。做法是把某一类当作“正常”，其他类当作“异常”来模拟。
SECOM Dataset: 半导体制造数据，特征多，样本不平衡，非常适合做 SVDD。

工艺优化

选题1：基于响应面法 (RSM) 与机器学习的工艺参数优化

背景与痛点：工厂希望通过调整输入参数（温度、压力、配料比）来最大化产出质量（强度、纯度）。传统方法是“试错”，统计学方法是实验设计 (DOE) 和 建模优化。

题目建议：

基于高斯过程回归（Kriging）与遗传算法的复杂工艺参数多目标优化研究

硕士级工作量与创新点：
1. 黑箱建模：传统的响应面（RSM）用二次多项式回归，拟合能力有限。你可以对比传统RSM与 高斯过程回归 (Gaussian Process Regression, GPR) 或 支持向量回归 (SVR) 的拟合效果。
2. 多目标优化：实际生产往往既要“强度高”又要“成本低”。利用 Desirability Function (满意度函数) 或 Pareto 前沿 来寻找最优解。
3. 算法寻优：在建立好统计模型后，使用遗传算法 (GA) 或 粒子群算法 (PSO) 在模型上寻找最优参数组合。
数据来源：
- UCI Concrete Compressive Strength：非常经典的配方优化数据。输入是水泥、水、粗骨料等7个成分，输出是混凝土强度。
- 3D Printing Data (Kaggle)：输入是打印层高、填充率、温度，输出是拉伸强度和表面粗糙度。
设备需求：Python 的 scikit-learn (建模) + scipy.optimize (优化)，对算力几乎无要求。

医疗诊断中的小样本学习

题目方向： 深度表格基础模型（TabPFN）在稀有病临床风险分层中的应用效能评估

1 研究背景与动机

在临床医学统计中，**“小数据”**是常态。许多罕见病或单中心临床试验的样本量往往不足1000例。在这种数据规模下，深度神经网络（Deep Learning）通常会过拟合，而传统的随机森林和逻辑回归虽然稳健，但未能充分利用特征间的复杂交互。TabPFN作为一种在合成数据上预训练的通用模型，号称在小样本表格数据上能击败经过精细调参的XGBoost，且无需训练即可推理15。验证这一“基础模型”在真实医疗数据上的表现，是一个极具时效性的研究课题。

2 数据来源与处理

推荐数据集：NHANES (National Health and Nutrition Examination Survey) 27
- 描述：美国CDC发布的权威公共卫生数据，包含人口学、饮食、体检和实验室化验数据。
- 变量构建：学生可以构建一个二分类任务，例如“预测代谢综合征”或“预测未确诊糖尿病”。特征包括BMI、血压、胆固醇、甘油三酯、糖化血红蛋白等。
- 样本构造策略：为了模拟“小样本/稀有病”场景，不要使用全量数据。应从数万条记录中随机抽取多个子集（例如），作为实验的训练集，以测试模型在数据稀缺时的表现。
- 处理工具：使用Python的pandas库读取XPT文件（NHANES原始格式），或直接使用GitHub上开源的清洗脚本30。

3 方法论与实验设计

本研究的核心是基准测试（Benchmarking），对比TabPFN与传统强基线模型。

对比模型：

TabPFN：直接使用预训练模型进行上下文推理。注意TabPFN v2版本已发布，支持更多样本（可达10k）和更多特征，但重点应放在其擅长的小样本区间9。
CatBoost：目前公认的处理表格分类任务的最强GBDT变体，特别擅长处理医疗数据中常见的类别特征（如性别、吸烟状况），无需One-Hot编码2。
逻辑回归（LR）：医学统计的金标准，作为可解释性的基准。

实验维度：

样本效率：绘制学习曲线（Learning Curve），横轴为样本量（50至2000），纵轴为AUC。预期假设是TabPFN在极小样本（）下显著优于CatBoost。
特征鲁棒性：向数据中加入噪声特征（随机高斯噪声列），观察模型性能的下降程度。TabPFN由于其基于先验的训练，理论上对无关特征具有更强的鲁棒性15。
计算效率：记录CPU推理时间。TabPFN无需反向传播训练，其端到端的时间成本应远低于需要Grid Search调参的CatBoost。

4 预期贡献

该论文将揭示“大模型”思维在传统统计任务中的边界。如果实验结果证明TabPFN在医疗小数据上有效，这将为临床辅助诊断系统的快速部署提供有力证据16

疾病领域	数据集名称	来源	样本量 (Rows)	关键特征	TabPFN 适配度
糖尿病	Pima Indians	UCI / Kaggle	768	OGTT, BMI, 年龄	最佳 (Optimal)
糖尿病	NHANES (合并后)	CDC / Kaggle	~9,000/周期	HbA1c, 饮食, 人口学	高 (High)
心血管	Cleveland Heart	UCI	303	心绞痛, 铊扫描	最佳 (Optimal)
心血管	BRFSS 2015	Kaggle (Teboul)	253,680	生活方式, 共病	低 (需降采样处理)
慢性肾病	Chronic Kidney Disease	UCI	400	比重, 蛋白尿, RBC	最佳 (Optimal)
慢性肾病	MIMIC-IV Demo	PhysioNet	100 (患者数)	生化指标, ICD-9	高 (原型验证用)
中风	Stroke Prediction	Kaggle	5,110	中风, 高血压, BMI	中 (需注意数据源可靠性)

重症监护环境下的脓毒症（Sepsis）早期预测

1 课题背景与临床意义

脓毒症是 ICU 中导致死亡的首要原因。Sepsis-3 定义将其描述为“宿主对感染的反应失调引起的危及生命的器官功能障碍”。临床痛点在于，一旦患者出现明显的休克症状，往往为时已晚。利用机器学习提前 6-24 小时预测脓毒症的发生，是医学 AI 领域的“圣杯”级课题 24。

2 数据构建策略（MIMIC-IV）

这是一个典型的“时间序列特征化”任务，非常适合展现研究生的数据工程能力。

队列定义（Cohort Selection）：
- 使用 diagnoses_icd 表，检索 ICD-9 代码 995.91 (Sepsis) 或 ICD-10 代码 A40, A41。
- 或者使用更严谨的 Sepsis-3 标准：疑似感染（抗生素使用 + 微生物培养）+ SOFA 评分在 24 小时内上升分。这需要编写 SQL 脚本关联 microbiologyevents 和 prescriptions 表 26。
特征工程（Feature Engineering）：
- 提取入 ICU 后前 24 小时的数据。
- 生命体征：心率、收缩压、呼吸频率、体温、血氧。对于每个指标，计算：最大值、最小值、平均值、标准差（反映波动性）。
- 实验室指标：白细胞计数、乳酸（Lactate）、肌酐、胆红素。
- 衍生特征：休克指数（心率/收缩压）、BUN/肌酐比值。
标签（Target）：院内死亡（Mortality）或 ICU 停留时间是否超过 7 天。

3 论文创新点设计

为了避免与大量现有研究雷同，可以从以下角度切入：

动态窗口预测：不仅预测“是否会发生”，而是预测“未来 4 小时内是否会发生”。
轻量化模型对比：重点对比 XGBoost、LightGBM 和 EBM 在 CPU 上的推理延迟（Inference Latency），论证哪种模型更适合部署在床旁监护仪（Bedside Monitor）这种低算力设备上。
SHAP 交互分析：深入分析“乳酸水平”与“血压”的交互作用。例如，发现只有在血压低的时候，乳酸升高才具有极高的致死风险 27。

慢性肾脏病（CKD）的进展与急性损伤预测

1 课题背景

肾脏病具有隐匿性。利用 EHR 数据预测急性肾损伤（AKI）或慢性肾病的进展（从 3 期进展到 4/5 期）具有重要的临床干预价值。

2 数据构建策略（MIMIC-IV + eICU）

这个课题非常适合做跨中心验证（Cross-Center Validation），这是验证模型泛化能力的最高标准。

训练集：MIMIC-IV（波士顿单中心）。提取基于肌酐变化定义的 AKI 患者（KDIGO 标准）。
测试集：eICU-CRD（全美多中心）。
特征工程：重点关注尿量（Urine Output）**和**肾毒性药物的使用（如万古霉素、造影剂）。这些数据在两个数据库中都有记录。

3 论文创新点

模型迁移性研究：直接将在 MIMIC 上训练的模型应用到 eICU 上，性能通常会下降。研究通过什么样的特征选择（如剔除医院特有的管理流程特征）可以减少这种性能下降。
可解释性对比：比较两个数据库中导致 AKI 的核心风险因子是否一致（利用 SHAP 值排序），从而验证医学规律的普适性 1。

质量控制：多元统计过程控制 (MSPC) ​

选题1：基于“重构贡献” (Reconstruction-based Contribution) 的故障诊断 ​

异常检测：单类支持向量机 (One-Class SVM / SVDD) ​

选题1：基于“增量学习” (Incremental SVDD) 的在线监测 ​

选题2：解决“参数敏感性”的混合 SVDD 模型 ​

工艺优化 ​

选题1：基于响应面法 (RSM) 与 机器学习的工艺参数优化 ​

医疗诊断中的小样本学习 ​

1 研究背景与动机 ​

2 数据来源与处理 ​

3 方法论与实验设计 ​

4 预期贡献 ​

重症监护环境下的脓毒症（Sepsis）早期预测 ​

1 课题背景与临床意义 ​

2 数据构建策略（MIMIC-IV） ​

3 论文创新点设计 ​

慢性肾脏病（CKD）的进展与急性损伤预测 ​

1 课题背景 ​

2 数据构建策略（MIMIC-IV + eICU） ​

3 论文创新点 ​