活动介绍

数据科学中的NumPy与pandas:从数组到字符串处理

立即解锁
发布时间: 2025-08-29 10:27:53 阅读量: 8 订阅数: 18 AIGC
# 数据科学中的NumPy与pandas:从数组到字符串处理 ## 1. 数据科学中的NumPy与pandas基础 在数据科学领域,高效的数据处理和分析至关重要。NumPy的高性能ndarrays(数组)为数据存储和检索提供了强大的支持,而pandas库则进一步扩展了数据处理的能力,特别是通过Series和DataFrame这两种数据结构。 ### 1.1 DataFrame基础 DataFrame是一种增强的二维数组,类似于Series,它可以有自定义的行和列索引,并且支持缺失数据。每个列都是一个Series,不同列可以包含不同类型的元素。 #### 1.1.1 从字典创建DataFrame 可以使用字典来创建DataFrame,字典的键将成为列名,对应的值将成为列中的元素。默认情况下,行索引是从0开始的自动生成的整数。 ```python import pandas as pd grades_dict = {'Wally': [87, 96, 70], 'Eva': [100, 87, 90], 'Sam': [94, 77, 90], 'Katie': [100, 81, 82], 'Bob': [83, 65, 85]} grades = pd.DataFrame(grades_dict) print(grades) ``` 输出结果: ``` Wally Eva Sam Katie Bob 0 87 100 94 100 83 1 96 87 77 81 65 2 70 90 90 82 85 ``` #### 1.1.2 自定义DataFrame的索引 可以使用`index`属性来更改DataFrame的索引。指定索引时,必须提供一个一维集合,其元素数量与DataFrame的行数相同。 ```python grades.index = ['Test1', 'Test2', 'Test3'] print(grades) ``` 输出结果: ``` Wally Eva Sam Katie Bob Test1 87 100 94 100 83 Test2 96 87 77 81 65 Test3 70 90 90 82 85 ``` ### 1.2 访问DataFrame的数据 pandas提供了多种方式来访问和选择DataFrame中的数据。 #### 1.2.1 访问列 可以通过列名来访问DataFrame的列,返回一个Series。如果列名是有效的Python标识符,也可以将其作为属性来访问。 ```python print(grades['Eva']) print(grades.Sam) ``` 输出结果: ``` Test1 100 Test2 87 Test3 90 Name: Eva, dtype: int64 Test1 94 Test2 77 Test3 90 Name: Sam, dtype: int64 ``` #### 1.2.2 访问行 建议使用`loc`和`iloc`属性来访问行。`loc`使用标签索引,`iloc`使用整数索引。 ```python print(grades.loc['Test1']) print(grades.iloc[1]) ``` 输出结果: ``` Wally 87 Eva 100 Sam 94 Katie 100 Bob 83 Name: Test1, dtype: int64 Wally 96 Eva 87 Sam 77 Katie 81 Bob 65 Name: Test2, dtype: int64 ``` #### 1.2.3 使用切片和列表选择行 可以使用切片和列表来选择特定的行。使用`loc`时,包含切片的高索引;使用`iloc`时,不包含切片的高索引。 ```python print(grades.loc['Test1':'Test3']) print(grades.iloc[0:2]) print(grades.loc[['Test1', 'Test3']]) print(grades.iloc[[0, 2]]) ``` 输出结果: ``` Wally Eva Sam Katie Bob Test1 87 100 94 100 83 Test2 96 87 77 81 65 Test3 70 90 90 82 85 Wally Eva Sam Katie Bob Test1 87 100 94 100 83 Test2 96 87 77 81 65 Wally Eva Sam Katie Bob Test1 87 100 94 100 83 Test3 70 90 90 82 85 Wally Eva Sam Katie Bob Test1 87 100 94 100 83 Test3 70 90 90 82 85 ``` #### 1.2.4 选择行和列的子集 可以同时使用切片和列表来选择行和列的子集。 ```python print(grades.loc['Test1':'Test2', ['Eva', 'Katie']]) print(grades.iloc[[0, 2], 0:3]) ``` 输出结果: ``` Eva Katie Test1 100 100 Test2 87 81 Wally Eva Sam Test1 87 100 94 Test3 70 90 90 ``` ### 1.3 布尔索引 布尔索引是pandas强大的选择功能之一。可以使用布尔条件来选择满足条件的数据。 ```python print(grades[grades >= 90]) print(grades[(grades >= 80) & (grades < 90)]) ``` 输出结果: ``` Wally Eva Sam Katie Bob Test1 NaN 100.0 94.0 100.0 NaN Test2 96.0 NaN NaN NaN NaN Test3 NaN 90.0 90.0 NaN NaN Wally Eva Sam Katie Bob Test1 87.0 NaN NaN NaN 83.0 Test2 NaN 87.0 NaN 81.0 NaN Test3 NaN NaN NaN 82.0 85.0 ``` ### 1.4 访问特定单元格 可以使用`at`和`iat`属性来访问DataFrame中的单个单元格。`at`使用标签索引,`iat`使用整数索引。 ```python print(grades.at['Test2', 'Eva']) print(grades.iat[2, 0]) grades.at['Test2', 'Eva'] = 100 grades.iat[1, 2] = 87 print(grades.at['Test2', 'Eva']) print(grades.iat[1, 2]) ``` 输出结果: ``` 87 70 100 87.0 ``` ### 1.5 描述性统计 DataFrame和Series都有`describe`方法,可以计算基本的描述性统计信息。默认情况下,pandas以浮点数计算统计信息,并显示六位小数。可以使用`set_option`函数来控制精度。 ```python print(grades.describe()) pd.set_option('precision', 2) print(grades.describe()) print(grades.mean()) ``` 输出结果: ``` Wally Eva Sam Katie Bob count 3.000000 3.000000 3.000000 3.000000 3.000000 mean 84.333333 92.333333 87.000000 87.666667 77.6666 ```
corwn 最低0.47元/天 解锁专栏
赠100次下载
继续阅读 点击查看下一篇
profit 400次 会员资源下载次数
profit 300万+ 优质博客文章
profit 1000万+ 优质下载资源
profit 1000万+ 优质文库回答
复制全文

相关推荐

张_伟_杰

人工智能专家
人工智能和大数据领域有超过10年的工作经验,拥有深厚的技术功底,曾先后就职于多家知名科技公司。职业生涯中,曾担任人工智能工程师和数据科学家,负责开发和优化各种人工智能和大数据应用。在人工智能算法和技术,包括机器学习、深度学习、自然语言处理等领域有一定的研究
最低0.47元/天 解锁专栏
赠100次下载
百万级 高质量VIP文章无限畅学
千万级 优质资源任意下载
千万级 优质文库回答免费看
立即解锁

专栏目录

最新推荐

自适应复杂网络结构中的同步现象解析

# 自适应复杂网络结构中的同步现象解析 ## 1. 引言 在复杂的动力学网络中,同步现象一直是研究的重点。我们将主稳定性方法拓展到由 $N$ 个扩散且自适应耦合的振荡器组成的复杂网络中。通过对自适应耦合相位振荡器这一典型模型的研究,我们发现了由于稳定性岛屿的存在而导致的多簇现象的出现。接下来,我们将深入探讨相关内容。 ## 2. 自适应耦合振荡器网络模型 考虑一个由 $N$ 个扩散且自适应耦合的振荡器组成的网络,其形式如下: \(\dot{x}_i = f (x_i(t)) - \sigma \sum_{j = 1}^{N} a_{ij} \kappa_{ij} G(x_i - x_j)\

OpenVX:跨平台高效编程的秘诀

### OpenVX:跨平台高效编程的秘诀 #### 1. OpenCL 互操作性扩展 OpenCL 互操作性扩展为 OpenVX 内的应用程序和用户算法提供了高效实现的支持,具备以下六个关键特性: - 共享一个通用的 `cl_context` 对象,供 OpenVX 和 OpenCL 应用程序使用。 - 共享一组有序的 `cl_command_queue` 对象,用于 OpenVX 和 OpenCL 应用程序/用户内核之间的协调。 - 允许 OpenCL 应用程序将 `cl_mem` 缓冲区导出到 OpenVX。 - 允许 OpenCL 应用程序从 OpenVX 收回导出的 `cl_mem

语音情感识别:预加重滤波器与清音影响分析

### 语音情感识别:预加重滤波器与清音影响分析 在语音情感识别领域,多种因素会影响识别的准确性和性能。本文将深入探讨预加重滤波器、清音去除等因素对语音情感分类的影响,并通过一系列实验来揭示不同特征向量大小、帧大小等参数在不同数据库中的表现。 #### 1. 清音去除 在语音情感识别中,通常会使用浊音和清音进行情感识别。然而,清音往往与语音信号记录中的噪声或静音区域具有相似的时间和频谱特征。为了探索去除清音后分类阶段的性能,我们使用自相关函数来去除每一帧中的清音。 具体步骤如下: 1. **自相关函数定义**:对于信号 $x(n)$ 从样本 $n$ 开始的一帧,其短时自相关函数定义为 $

SSH连接与操作全解析

# SSH 连接与操作全解析 ## 1. SSH 主机密钥概述 当 SSH 客户端首次连接到远程主机时,双方会交换临时公钥,以此对后续通信进行加密,防止信息泄露。客户端在披露更多信息之前,需要确认远程服务器的身份。这是合理的,因为若连接到的是黑客软件,我们肯定不希望泄露用户名和密码。 ### 1.1 公钥基础设施的问题 构建公钥基础设施是解决互联网机器身份验证的一种方法。首先要确定证书颁发机构,将其公钥列表安装到所有浏览器和 SSL 客户端中,然后付费让这些机构验证身份并签署 SSL 证书,最后将证书安装到 Web 服务器上。但从 SSH 的角度看,这种方法存在诸多问题。虽然可以创建内部公

言语节奏与大脑定时模式:探索神经机制与应用

# 言语节奏与大脑定时模式:探索神经机制与应用 ## 1. 大脑的预测性与时间维度 人类大脑是一个具有建设性的器官,它能够生成预测以调节自身功能,并持续适应动态环境。在这个过程中,运动和非运动行为的时间维度正逐渐被视为预测性偏差的关键组成部分。然而,编码、解码和评估时间信息以产生时间感和控制感觉运动定时的神经机制之间的复杂相互作用,仍然大部分是未知的。 ### 1.1 事件的时间与类型维度 个体和环境中的所有状态变化都会产生由类型(“是什么”)和时间(“何时”)定义的事件。为了成功地与不断变化的环境进行交互,人们需要不断适应这些事件的“是什么”和“何时”维度。人类不仅会对事件做出反应,还会

计算机视觉中的概率图模型:不完整数据下的贝叶斯网络学习

# 计算机视觉中的概率图模型:不完整数据下的贝叶斯网络学习 在计算机视觉领域,概率图模型是一种强大的工具,可用于处理复杂的概率关系。当数据不完整时,贝叶斯网络(BN)的参数学习和结构学习变得更具挑战性。本文将介绍不完整数据下BN参数学习和结构学习的方法。 ## 1. 不完整数据下的BN参数学习 在不完整数据中,变量 $Z_m$ 可能随机缺失或始终缺失。与完整数据情况类似,不完整数据下的BN参数学习也可通过最大似然法或贝叶斯法实现。 ### 1.1 最大似然估计 最大似然估计(ML)需要通过最大化边际似然来找到BN参数 $\theta = \{\theta_n\}_{n=1}^N$: $$

网络数据上的无监督机器学习

### 网络数据上的无监督机器学习 在处理图数据时,机器学习(ML)并非必需,但它能带来很大的帮助。不过,ML的定义较为模糊,例如社区检测算法虽能自动识别网络中的社区,可被视为无监督ML,但NetworkX提供的一些方法虽类似却未得到数据科学界同等关注,因为它们未被明确称为图ML。 #### 1. 网络科学方法 在处理图数据时,有很多已掌握的方法可避免使用所谓的图ML: - **社区识别**:可以使用Louvain算法或直接查看连通分量。 - **枢纽节点识别**:使用PageRank算法,无需嵌入。 - **孤立节点识别**:使用`k_corona(0)`,无需ML。 - **训练数据创

利用大数据进行高效机器学习

### 利用大数据进行高效机器学习 #### 1. 集群管理与并行计算基础 在处理大数据时,集群的使用至关重要。当集群任务完成后,终止其派生的进程能释放每个节点占用的资源,使用如下命令: ```R stopCluster(cl1) ``` 对于大规模的大数据问题,还可以进行更复杂的`snow`配置,例如配置Beowulf集群(由多个消费级机器组成的网络)。在学术和行业研究中,若有专用计算集群,`snow`可借助`Rmpi`包访问高性能消息传递接口(MPI)服务器,但这需要网络配置和计算硬件方面的知识。 #### 2. 使用`foreach`和`doParallel`实现并行计算 `fore

HNPU-V1:自适应DNN训练处理器的技术解析与性能评估

### HNPU-V1:自适应DNN训练处理器的技术解析与性能评估 在深度学习领域,DNN(深度神经网络)训练处理器的性能对于提高训练效率和降低能耗至关重要。今天我们要介绍的HNPU - V1就是一款具有创新性的自适应DNN训练处理器,它采用了多种先进技术来提升性能。 #### 1. 稀疏性利用技术 在DNN训练过程中,会出现输入或输出稀疏性的情况。传统的输出零预测方法虽然可以同时利用输入和输出稀疏性,但会带来面积和能量开销。而HNPU - V1采用了独特的稀疏性利用技术。 ##### 1.1 切片级输入跳过(Slice - Level Input Skipping) - **原理**:

具有多重时滞和不确定参数的CRDNNs的无源性与同步性研究

# 具有多重时滞和不确定参数的 CRDNNs 的无源性与同步性研究 ## 1. 引言 在神经网络的研究领域中,具有多重时滞和不确定参数的连续反应扩散神经网络(CRDNNs)的无源性和同步性是重要的研究课题。无源性能够保证系统的稳定性和能量特性,而同步性则在信息处理、通信等领域有着广泛的应用。本文将深入探讨 CRDNNs 的无源性和同步性相关问题,包括理论分析和数值验证。 ## 2. 无源性判据 ### 2.1 输出严格无源性条件 当满足以下矩阵不等式时,网络(9.17)具有输出严格无源性: \[ \begin{bmatrix} W_6 & \Xi_2 \\ \Xi_2^T & W_7 \e