numpy:基于python的数值计算包,用于存储操作多维数组
scipy:基于numpy设计的用于科学计算和工程设计的开发包
matplotlib:绘制二维图像
scikit learn整体结构介绍
分类:垃圾邮件检测、图像识别
算法:支持向量机,最近邻,随机森林,集成方法……
回归:药物反应,股票价格
算法:支持向量机,核岭回归,lasso,弹性网……
聚类:客户细分,分组实验输出
算法:k均值,谱聚类,均值漂移
维数约简:可视化,提高效率
算法:PCA,特征选择,非负矩阵分解……
模型选择:通过参数调节提高精度
算法:网格搜索,交叉验证,评估测度
数据预处理:从原始数据到特征向量
算法:preprocessing,feature extraction……
对机器学习基本概念(分类、回归等)的快速介绍;如何加载数据集;如何调用学习器模型;如何训练,预测以及评估;模型持久化;一些约定俗成;
pandas:数据分析
开发环境搭建:
安装Anaconda、Python、配置环境
sklearn算法库的顶层设计
1、sklearn包含了哪些模块?
sklearn监督学习的各个模块
sklearn无监督学习模块
sklearn数据变换模块
sklearn算法类顶层设计图
2、sklearn中算法的继承关系
sklearn算法类svm继承关系图(以支持向量机为例)
sklearn算法模块cluster继承关系图(以K-Means和Meanshift为例)
sklearn算法模块featyre_extraction继承关系图(以featurehasher和dictvextorizer为例)
3、sklearn中的统一API接口
sklearn六大板块统一API
sklearn监督学习工作流程
例子:鸢尾花的分类
环境为pycharm
sklearn无监督学习工作流程
展示数据预处理工作流程:数据变换
展示无监督学习工作流程:聚类
4、sklearn中算法的学习顺序
sklearn算法模块的学习顺序
sklearn数据集操作API
自带的小数据集(Packaged Dataset)
sklearn.datasets.load_
手写数字数据集:load_digits()
用于多类分类任务的数据集,其构成如下:
乳腺癌数据集:load_breast_cancer()
简单经典的用于二分类任务的数据集
糖尿病数据集:load_diabetes()
经典的用于回归任务的数据集,其构成如下:
注意:这10个特征中的每一个特征都已经被处理成0均值,方差归一化的特征值。
波士顿房价数据集:load_boston()
经典的用于回归任务的数据集
体能训练数据集:load_linnerud()
经典的用于多变量回归任务的数据集,其构成如下:
图像数据集:load_sample_image(name)
加载一张指定名称的图像,其构成如下:
svmlight/libsvm格式的数据集
sklearn.datasets.load_svmlight_file(…)
svmlight/libsvm的每一行样本的存放格式:
这种格式比较适合存放稀疏数据,在sklearn中,用scipy sparse CSR矩阵来存放X,用numpy数组来存放Y.