scikit-learn机器学习读书笔记-小羽的知识库

现在开始看这本书了，平时记录下都看了哪些内容，方便最后做总结。

从20190520开始看这本书，随时记录其中看的一些好的内容，方便后续快速回顾

P5 五折交叉验证的图片展示，这种模型的评价/测试方法从来没有用过

P17 残差平方和RSS做代价函数

P20 R方的评价方法，用来评价回归模型，简单线性回归模型中，R方等于皮尔森积差相关系数（PPMCC）的平方

P28 LabelBinarizer类实现从标签到独热码的转换

P33 衡量回归任务性能的指标：平均绝对误差（MAE）和均方误差（MSE）

P38 prepocessing模块中的scale函数单独对数据集中的任何轴进行标准化

20190521

p39 词汇模型分为词袋模型和词嵌入模型，词袋模型就是简单的根据词汇进行one-hot编码 CountVectorizer可以实现这一功能

p41 使用euclidean_distance可以计算欧几里得距离 p42 使用stopwords 停用词可以降低词汇的维度 P44 使用NLTK可以进行词干提取和词性还原，如将不同形态的动词还原到动词原形 P46 考虑词汇出现的频度，使用TfidfTransformer可以创建tf-idf权重特征向量 P48 哈希技巧，似乎是因为需要遍历两次语料库，哈希技巧可以解决这个问题 P50 使用词向量word2vec模型，加载方法 P58-P65 第五章，讲述了多元回归与多项式回归 P66 正则化，给出了公式，scikit-learn也提供一种实现，但是没有看到代码 P67 提到加州大学机器学习库 https://archive.ics.uci.edu/ml/datasets/Wine

P71 cross_val_score可以轻松实现5折交叉验证 P72 讲述了使用梯度下降方法的原因：维度过大，计算复杂；对梯度下降进行了简单推导；有SGDRegreesor实现 P79 讲解了使用逻辑回归的垃圾邮件识别，使用UCI机器学习中的数据集 P81-P86 给出了二元分类的模型评价方法，如精准率，召回率，F1，ROC AUC P87 给出了网格搜索微调模型，有GridSearchCV实现，值得看看 P89-P97 提到了多分类问题，使用kaggle的电影评价数据做示例，在scikit-learn中调用了多种包，如train_test_split用来分割训练、测试集，classification_report,accuracy_score,confusion_matrix可以用来方便地对模型进行评价；同时，多分类问题可以针对单个类别计算recall，F1，等等

提到了多标签问题，即给一个数据打多个标签，还有对应的模型评价方法汉明损失、杰卡德相似系数