【sklearn教程】sklearn中常用数据集简介

【sklearn教程】sklearn中常用数据集简介 Bepartofyou 2023-09-07 16:22:49 623

scikit-learn库中提供了包括分类、回归、聚类、降维等多种机器学习任务所需的常用数据集,方便我们进行实验和研究。它们主要被封装在sklearn.datasets中。本文对其中一些常用的数据集进行一下简单的介绍:

Iris(鸢尾花)数据集

该数据集包含150个鸢尾花样本,分为3个品种,每个品种50个样本。每个样本包含4个特征:花萼长度、花萼宽度、花 瓣长度、花 瓣宽度。目的是使用这4个特征来对鸢尾花进行分类。scikit-learn中该数据集主要封装在sklearn.datasets.load_iris()中,使用方法如下:

from sklearn.datasets import load_iris

# 加载数据集
iris = load_iris()

# 打印数据集的描述
print(iris.DESCR)

# 打印特征名
print(iris.feature_names)

# 打印标签类别
print(iris.target_names)

# 获取特征矩阵和目标向量
X = iris.data
y = iris.target

在上面的代码中,load_iris() 方法返回一个包含Iris数据集的对象 iris 。我们可以通过 iris.DESCR、iris.feature_names、iris.target_names 属性打印出数据集的描述、特征名、标签类别。然后,我们可以使用 iris.data 属性获取特征矩阵,使用 iris.target 属性获取标签向量。特征矩阵 X 是一个包含150个样本和4个特征的二维数组,目标向量 y 是一个包含150个元素的一维数组,每个元素表示对应样本的类别。

Wine(葡萄酒)数据集

Wine数据集也是一个分类问题的数据集,包含了三个葡萄酒品种(class)的13种化学特征,一共有178个样本。这个数据集是由美国加州大学欧文分校(UCI)提供的,最初是为了研究酒的化学成分和葡萄酒品种之间的关系而构建的。

Wine数据集中的三个葡萄酒品种分别是:


  1. Class 1: 59个样本
  2. Class 2: 71个样本
  3. Class 3: 48个样本


13个化学特征分别是:


  1. Alcohol(酒精)
  2. Malic acid(苹果酸)
  3. Ash(灰分)
  4. Alcalinity of ash(灰的碱度)
  5. Magnesium(镁)
  6. Total phenols(总酚类化合物)
  7. Flavanoids(类黄酮)
  8. Nonflavanoid phenols(非类黄酮酚)
  9. Proanthocyanins(原花青素)
  10. Color intensity(颜色强度)
  11. Hue(色调)
  12. OD280/OD315 of diluted wines(稀释葡萄酒的OD280/OD315比值)
  13. Proline(脯氨酸)

Wine数据集使用方法和鸢尾花数据集是类似的:

from sklearn.datasets import load_wine

wine = load_wine()
X, y = wine.data, wine.target

其中,X代表数据集中的13个特征,y代表数据集中的三个葡萄酒品种(class)。

Boston(波士顿房价)数据集

Boston数据集则是一个回归问题的经典数据集,包含了美国波士顿地区房屋的14个特征,一共有506个样本。这个数据集同样是由美国加州大学欧文分校(UCI)提供的,我们通常用来研究房屋价格和房屋特征之间的关系。

Boston数据集中的14个特征分别是:


  1. CRIM:城镇人均犯罪率
  2. ZN:占地面积超过25000平方英尺的住宅用地比例
  3. INDUS:城镇非零售业务占地面积的比例
  4. CHAS:查尔斯河虚拟变量(如果河流边界,则为1;否则为0)
  5. NOX:一氧化氮浓度(每千万分之一)
  6. RM:住宅平均房间数
  7. AGE:1940年之前建造的自用房屋的比例
  8. DIS:到波士顿五个就业中心的加权距离
  9. RAD:放射性公路的可达性指数
  10. TAX:每10,000美元的全值财产税率
  11. PTRATIO:城镇师生比例
  12. B:1000(Bk - 0.63)^ 2其中Bk是城镇黑人的比例
  13. LSTAT:人口中地位低下者的百分比
  14. MEDV:自住房屋房价中位数,以千美元计

该数据集使用方法如下:

from sklearn.datasets import load_boston

boston = load_boston()
X, y = boston.data, boston.target

其中,X代表数据集中的14个特征,y代表数据集中的自住房屋房价中位数的目标变量。

digits(手写数字)数据集

Digits数据集是一个手写数字识别数据集,它包含了1797张8x8像素的数字图像。每张图像都被转换为64维的特征向量,每个特征表示图像中的一个像素点。每张图像都被标记为0到9中的一个数字,表示图像所代表的数字。这个数据集非常适合用于机器学习中的图像分类问题。

在sklearn中,Digits数据集可以通过以下代码进行加载:

from sklearn.datasets import load_digits

digits = load_digits()

按上述步骤执行完之后,digits对象同样包含两个主要属性:data和target。digits.data保存的是特征矩阵,它是一个1797x64的数组,每一行代表一张图像的特征向量。标签保存在digits.target中,它是一个长度为1797的一维数组,每个元素代表相应图像的数字标签。我们使用类似的方法可以导出特征和标签:

X, y = boston.data, boston.target

威斯康星州乳腺癌数据集

威斯康星州乳腺癌数据集是一个用于二分类问题的数据集,它包含569个乳腺癌肿瘤样本,每个样本记录了10种与肿瘤细胞核有关的信息,这些信息包括:

  1. radius: 细胞核半径
  2. texture: 细胞核表面的纹理
  3. perimeter: 细胞核周长
  4. area: 细胞核面积
  5. smoothness: 细胞核表面的平滑程度
  6. compactness: 细胞核的紧凑度
  7. concavity:细胞核凹陷的程度
  8. concave points: 细胞核凹陷的点数
  9. symmetry: 细胞核形状的对称性
  10. fractal dimension: 细胞核边界的分形维度

计算样本中以上信息的平均数、标准差和最大值(最差)形成30个特征,用于区分良性和恶性肿瘤。该数据集的使用方法也是类似的:

from sklearn.datasets import load_digits

breast_cancer=load_breast_cancer()

X, y = breast_cancer.data, breast_cancer.target

文章转载自公众号:用Python学机器学习

声明:本文内容由易百纳平台入驻作者撰写,文章观点仅代表作者本人,不代表易百纳立场。如有内容侵权或者其他问题,请联系本站进行删除。
红包 点赞 收藏 评论 打赏
评论
0个
内容存在敏感词
手气红包
    易百纳技术社区暂无数据
相关专栏
置顶时间设置
结束时间
删除原因
  • 广告/SPAM
  • 恶意灌水
  • 违规内容
  • 文不对题
  • 重复发帖
打赏作者
易百纳技术社区
Bepartofyou
您的支持将鼓励我继续创作!
打赏金额:
¥1易百纳技术社区
¥5易百纳技术社区
¥10易百纳技术社区
¥50易百纳技术社区
¥100易百纳技术社区
支付方式:
微信支付
支付宝支付
易百纳技术社区微信支付
易百纳技术社区
打赏成功!

感谢您的打赏,如若您也想被打赏,可前往 发表专栏 哦~

举报反馈

举报类型

  • 内容涉黄/赌/毒
  • 内容侵权/抄袭
  • 政治相关
  • 涉嫌广告
  • 侮辱谩骂
  • 其他

详细说明

审核成功

发布时间设置
发布时间:
是否关联周任务-专栏模块

审核失败

失败原因
备注
拼手气红包 红包规则
祝福语
恭喜发财,大吉大利!
红包金额
红包最小金额不能低于5元
红包数量
红包数量范围10~50个
余额支付
当前余额:
可前往问答、专栏板块获取收益 去获取
取 消 确 定

小包子的红包

恭喜发财,大吉大利

已领取20/40,共1.6元 红包规则

    易百纳技术社区