Products
GG网络技术分享 2025-03-18 16:09 3
导读:在Python中,进行数据分析的一个主要工具就是Pandas。Pandas是Wes McKinney在大型对冲基金AQR公司工作时开发的,后来该工具开源了,主要由社区进行维护和更新。
Pandas具有NumPy的ndarray所不具有的很多功能,比如集成时间序列、按轴对齐数据、处理缺失数据等常用功能。Pandas最初是针对金融分析而开发的,所以很适合用于量化投资。
作者:赵志强 刘志伟
来源:华章科技
在使用Pandas之前,需要导入Pandas包。惯例是将pandas简写为pd,命令如下:
importpandasaspd
Pandas包含两个主要的数据结构:Series和DataFrame。其中最常用的是DataFrame,下面我们先来学习一下DataFrame。
DataFrame是一个表格型的数据结构。每列都可以是不同的数据类型(数值、字符串、布尔值等)。
DataFrame既有行索引也有列索引,这两种索引在DataFrame的实现上,本质上是一样的。但在使用的时候,往往是将列索引作为区分不同数据的标签。DataFrame的数据结构与SQL数据表或者Excel工作表的结构非常类似,可以很方便地互相转换。
下面先来创建一个DataFrame,一种常用的方式是使用字典,这个字典是由等长的list或者ndarray组成的,示例代码如下:
data={A:[x,y,z],B:[1000,2000,3000],C:[10,20,30]}df=pd.DataFrame(data,index=[a,b,c])
df
运行结果如图3-2所示。
▲图3-2
我们可以看到,DataFrame主要由如下三个部分组成。
下文列出了DataFrame函数常用的参数。其中,类似列表代表类似列表的形式,比如列表、元组、ndarray等。一般来说,data、index、columns这三个参数的使用频率是最高的。
其中data的数据类型有很多种。
下文列举了可以作为data传给DataFrame函数的数据类型。
可以传给DataFrame构造器的数据:
前面生成了一个DataFrame,变量名为df。下面我们来查看一下df的各个属性值。
获取df数据的示例代码如下:
df.values
输出结果如下:
array([[x,1000,10],[y,2000,20],[z,3000,30]],dtype=object)
获取df行索引的示例代码如下:
df.index
输出结果如下:
Index([a,b,c],
Demand feedback