sklearn数据集操作2

el/2023/12/3 2:31:49

在这里插入图片描述
可在线下载(Downloadable)的数据集
sklearn.datasets.fetch_

在这里插入图片描述
20类新闻文本数据集:
该数据集包含了关于20个话题(topic)的18000条新闻报道,这些数据被分为两个子集:训练集和测试集。
在这里插入图片描述
在这里插入图片描述
20组新闻文本数据集API用法详解
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
野外带标记人脸数据集:fetch_lfw_people()
fetch_lfw_pairs()

这是一个在互联网上收集的带标记的著名人物人脸集合,以Jpeg格式存储,官方网址:https//vis-www.cs.umass.edu/lfw/。每一张图片都包含一个居中对齐的人脸。典型的任务是”人脸验证face verification“:给两张图片,用二元分类器来判断是否是同一个人。

”人脸识别face recognition or identification“:给一张未知的人脸图片,在人脸库里面查找匹配,将这张脸到底是谁给认出来。

不管是人脸识别还是人脸验证,他们都依赖于一个人脸检测算法。所以,LFW中的人脸都是用一个人脸检测算法Viola-Jones在不同的web图像集里面检测并扣取出来的。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
Olivetti人脸数据集:fetch_olivetti_faces()
在这里插入图片描述
在这里插入图片描述
rcv1多标签数据集:fetch_rcv1()
在这里插入图片描述
还有其他的属性如sample_id,target_names等

Forest covertypes:预测森林表面植被类型的数据集,是个多类分类任务数据集。来自美国的森林数据,UCI数据集。

每个样本包含54个特征,其中含有布尔类型的特征。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
计算机生成的数据集
sklearn.datasets.make_

在这里插入图片描述
用于分类任务和聚类任务的:这些函数产生样本特征向量矩阵以及对应的类别标签集合
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
用于回归任务的
在这里插入图片描述
用于流行学习的
在这里插入图片描述
用于因子分解的
在这里插入图片描述
在这里插入图片描述


http://www.ngui.cc/el/4423621.html

相关文章

sklearn模型选择与评估

数据集划分方法 数据集划分方法:k折交叉验证 这个方法充分利用了所有样本。但是计算比较繁琐,需要训练k次,测试k次。 数据集划分法:留一法 留一法与k折交叉比较 留P法验证 数据集划分方法:随机划分法

超参数优化方法

什么是超参数(hyper-parameters)? 网格搜索穷举式超参数优化方法 随机采样式超参数优化方法 超参数空间的搜索技巧 技巧一、指定一个合适的目标测度对模型进行评估 暴力参数搜索方法的替代方法

sklearn模型选择之模型验证方法

模型验证(model validation)方法 1、通过交叉验证计算得分 2、对每个输入数据点产生交叉验证估计 3、计算并绘制模型的学习率曲线 4、计算并绘制魔性的验证曲线 5、通过排序评估验证得分的重要性

幸福指数与GDP线性拟合

数据来源: 去到 https://stats.oecd.org/index.aspx?DataSetCodeBLI 下载数据,命名为BLI.csv 储存到notebook 创建的第一个项目相同的路径 去 http://goo.gl/j1MSKe 下载2015世界各国人均GDP数据,命名为WEO_Data.xls, 储存到相同路径 结果为bool值 import…

sklearn框架结构

pip install sklearn 新建一个文件夹 在这个文件底下再建六个文件

KNN算法入门

K近邻算法:nearest neighbors classification 数据

KNN参数cross_val_score调参

什么是交叉式验证? 这样所有的数据都进行了验证,所有的数据也都进行了训练,训练了五次也测试了五次,将这五次得到的数据求一个平均值,这样的数据更有说服力 全部代码 #导包,加载数据import numpy …

载入显示保存图片

import cv2 import matplotlib.pyplot as pltimage cv2.imread(jianghe.jpeg) print("width: %d pixels" % (image.shape[1])) #图片的宽度、高度以及图片的通道数 print("height: %d pixels" % (image.shape[0])) print("channels: %d pixels"…

画图功能的实现

import numpy as np import cv2 import matplotlib.pyplot as pltdef show(image):plt.imshow(image)plt.axis(off)plt.show()image np.zeros((300,300,3),dtypeuint8) #可以看成一张图片,三通道的、长宽为300*300,里面像素全为0show(image)#显示图片#画…