哈喽,大家好,接下来总共为大家准备了120道关于pandas数据分析面试题。我们会分为几篇文章来写,今天是前16道题:
1、如何创建series和DataFrame:
1)可通过列表直接创建series:
pd.Series([1,2,3])
2)也可以通过字典创建series:
dic={
"one":1,"two":2,"three":3
}
df=pd.Series(dic)
3)可以通过字典创建DataFrame:
dic={
"name":['python','pandas'],"price":[40,50],"adress":['北京','上海']
}
df=pd.DataFrame(dic)
2、提取含有字符串“Python”的行
方法:df[df['name']=='python'])
3、提取列名:
方法;df.columns
4、修改列名
将第二列列名改为age:
df.rename(columns={'price':'age'},inplace=True)
5、统计第二列中每项出现的次数
df["name"].value_counts()
6、提取第二列中大于40的行:
df[df['price']>40]
7、对第一列数据进行去重:
df["name"].unique()
8、对price这一列计算平均值:
df["price"].mean()
9、将第一列name列转换为列表:
df["name"].tolist()
10、将该dataframe保存为Excel表:
df.to_excel('pandas面试题.xlsx')
11、查看该dataframe数据情况,有几行几列:
df.shape
12、查找price这一列大于40小于70的行:
df[(df["price"]>40)&(df["price"]
13、交换第一列和最后一列的位置:
df[["adress","price","name"]]
14、提取第二列price中最大值所在的行:
df[df["price"]==df["price"].max()]
15、查看数据前3行:
df.head(3)
16、查看数据后3行:
df.tail(3)