sklearn数据集操作1

el/2023/12/3 2:32:26

在这里插入图片描述
numpy:基于python的数值计算包,用于存储操作多维数组
在这里插入图片描述
scipy:基于numpy设计的用于科学计算和工程设计的开发包
在这里插入图片描述
matplotlib:绘制二维图像
在这里插入图片描述
scikit learn整体结构介绍

分类:垃圾邮件检测、图像识别
算法:支持向量机,最近邻,随机森林,集成方法……

回归:药物反应,股票价格
算法:支持向量机,核岭回归,lasso,弹性网……

聚类:客户细分,分组实验输出
算法:k均值,谱聚类,均值漂移

维数约简:可视化,提高效率
算法:PCA,特征选择,非负矩阵分解……

模型选择:通过参数调节提高精度
算法:网格搜索,交叉验证,评估测度

数据预处理:从原始数据到特征向量
算法:preprocessing,feature extraction……

对机器学习基本概念(分类、回归等)的快速介绍;如何加载数据集;如何调用学习器模型;如何训练,预测以及评估;模型持久化;一些约定俗成;

在这里插入图片描述
在这里插入图片描述
pandas:数据分析

开发环境搭建:
安装Anaconda、Python、配置环境

sklearn算法库的顶层设计
1、sklearn包含了哪些模块?
sklearn监督学习的各个模块
在这里插入图片描述
sklearn无监督学习模块
在这里插入图片描述
sklearn数据变换模块
在这里插入图片描述
sklearn算法类顶层设计图
在这里插入图片描述
2、sklearn中算法的继承关系
sklearn算法类svm继承关系图(以支持向量机为例)
在这里插入图片描述
sklearn算法模块cluster继承关系图(以K-Means和Meanshift为例)
在这里插入图片描述
sklearn算法模块featyre_extraction继承关系图(以featurehasher和dictvextorizer为例)
在这里插入图片描述

3、sklearn中的统一API接口
sklearn六大板块统一API
在这里插入图片描述
在这里插入图片描述
sklearn监督学习工作流程
在这里插入图片描述
例子:鸢尾花的分类
环境为pycharm
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
sklearn无监督学习工作流程
在这里插入图片描述
展示数据预处理工作流程:数据变换
在这里插入图片描述
展示无监督学习工作流程:聚类
在这里插入图片描述

4、sklearn中算法的学习顺序
在这里插入图片描述
sklearn算法模块的学习顺序
在这里插入图片描述
sklearn数据集操作API

自带的小数据集(Packaged Dataset)
sklearn.datasets.load_

手写数字数据集:load_digits()
用于多类分类任务的数据集,其构成如下:
在这里插入图片描述
在这里插入图片描述
乳腺癌数据集:load_breast_cancer()
简单经典的用于二分类任务的数据集
在这里插入图片描述
糖尿病数据集:load_diabetes()
经典的用于回归任务的数据集,其构成如下:
在这里插入图片描述
注意:这10个特征中的每一个特征都已经被处理成0均值,方差归一化的特征值。

波士顿房价数据集:load_boston()
经典的用于回归任务的数据集
在这里插入图片描述
在这里插入图片描述
体能训练数据集:load_linnerud()
经典的用于多变量回归任务的数据集,其构成如下:
在这里插入图片描述
在这里插入图片描述
图像数据集:load_sample_image(name)

加载一张指定名称的图像,其构成如下:
在这里插入图片描述
svmlight/libsvm格式的数据集
sklearn.datasets.load_svmlight_file(…)

svmlight/libsvm的每一行样本的存放格式:
在这里插入图片描述
这种格式比较适合存放稀疏数据,在sklearn中,用scipy sparse CSR矩阵来存放X,用numpy数组来存放Y.
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.ngui.cc/el/4423622.html

相关文章

sklearn数据集操作2

可在线下载(Downloadable)的数据集 sklearn.datasets.fetch_ 20类新闻文本数据集: 该数据集包含了关于20个话题(topic)的18000条新闻报道,这些数据被分为两个子集:训练集和测试集。 20组新闻文本数据集API用法详解 …

sklearn模型选择与评估

数据集划分方法 数据集划分方法:k折交叉验证 这个方法充分利用了所有样本。但是计算比较繁琐,需要训练k次,测试k次。 数据集划分法:留一法 留一法与k折交叉比较 留P法验证 数据集划分方法:随机划分法

超参数优化方法

什么是超参数(hyper-parameters)? 网格搜索穷举式超参数优化方法 随机采样式超参数优化方法 超参数空间的搜索技巧 技巧一、指定一个合适的目标测度对模型进行评估 暴力参数搜索方法的替代方法

sklearn模型选择之模型验证方法

模型验证(model validation)方法 1、通过交叉验证计算得分 2、对每个输入数据点产生交叉验证估计 3、计算并绘制模型的学习率曲线 4、计算并绘制魔性的验证曲线 5、通过排序评估验证得分的重要性

幸福指数与GDP线性拟合

数据来源: 去到 https://stats.oecd.org/index.aspx?DataSetCodeBLI 下载数据,命名为BLI.csv 储存到notebook 创建的第一个项目相同的路径 去 http://goo.gl/j1MSKe 下载2015世界各国人均GDP数据,命名为WEO_Data.xls, 储存到相同路径 结果为bool值 import…

sklearn框架结构

pip install sklearn 新建一个文件夹 在这个文件底下再建六个文件

KNN算法入门

K近邻算法:nearest neighbors classification 数据

KNN参数cross_val_score调参

什么是交叉式验证? 这样所有的数据都进行了验证,所有的数据也都进行了训练,训练了五次也测试了五次,将这五次得到的数据求一个平均值,这样的数据更有说服力 全部代码 #导包,加载数据import numpy …

载入显示保存图片

import cv2 import matplotlib.pyplot as pltimage cv2.imread(jianghe.jpeg) print("width: %d pixels" % (image.shape[1])) #图片的宽度、高度以及图片的通道数 print("height: %d pixels" % (image.shape[0])) print("channels: %d pixels"…