|
|
|
|
公众号矩阵

如何在Pandas中实现类似于SQL查询的数据操作?

SQL 的神奇之处在于其易于学习,而它之所以如此容易学习的原因主要是代码语法非常直观。

作者:为AI呐喊来源:今日头条|2020-11-19 15:26

 介绍

SQL 的神奇之处在于其易于学习,而它之所以如此容易学习的原因主要是代码语法非常直观。

但是,与SQL相比,Pandas 就不那么直观了,尤其是在我们先用的是SQL,再转向 Pandas 时,这种感觉尤为强烈。

那么,我们是不是应该思考在 SQL 中进行的数据操作,能不能在 Pandas 实现?

基于以上目标,本文可以作为一个在Pandas中编写SQL查询的指南。

目录

  • 选择行
  • 组合表格
  • 筛选表
  • 排序值
  • 聚合函数

1. 选择行

SELECT * FROM

如果要选择整个表,只需调用表的名称:

  1. # SQL 
  2. SELECT * FROM table_df 
  3.  
  4. # Pandas 
  5. table_df 

SELECT a, b FROM

如果要从表中选择特定列,请在双括号中列出要的列:

  1. # SQL 
  2. SELECT column_a, column_b FROM table_df 
  3.  
  4. # Pandas 
  5. table_df[['column_a''column_b']] 

SELECT DISTINCT

只需使用 .drop\u duplicates()即可获得不同的值:

  1. # SQL 
  2. SELECT DISTINCT column_a FROM table_df 
  3.  
  4. # Pandas 
  5. table_df['column_a'].drop_duplicates() 

SELECT a as b

如果要重命名列,请使用 .rename():

  1. # SQL 
  2. SELECT column_a as Apple, column_b as Banana FROM table_df 
  3.  
  4. # Pandas 
  5. table_df[['column_a''column_b']].rename(columns={'column_a'
  6. 'Apple''column_b':'Banana'}) 

SELECT CASE WHEN

对于"SELECT CASE WHEN"的等效项,可以使用 np.select(), 其中首先指定每个选项的选择和值。

  1. # SQL 
  2. SELECT CASE WHEN column_a > 30 THEN "Large" 
  3.             WHEN column_a <= 30 THEN "Small" 
  4.             END AS Size 
  5. FROM table_df 
  6.  
  7. # Pandas 
  8. conditions = [table_df['column_a']>30, table_df['column_b']<=30] 
  9. choices = ['Large''Small'
  10. table_df['Size'] = np.select(conditions, choices) 

2. 组合表格

INNER/LEFT/RIGHT JOIN

只需使用 .merge()来连接表,就可以使用“how”参数指定它是 LEFT、RIGHT、 INNER 或者 OUTER联接。

  1. # SQL 
  2. SELECT * FROM table_1 t1 
  3.          LEFT JOIN table_2 t1 on t1.lkey = t2.rkey  
  4.  
  5. # Pandas 
  6. table_1.merge(table_2, left_on='lkey', right_on='rkey', how='left'

UNION ALL

只需使用 pd.concat():

  1. # SQL 
  2. SELECT * FROM table_1 
  3. UNION ALL 
  4. SELECT * FROM table_2 
  5.  
  6. # Pandas 
  7. final_table = pd.concat([table_1, table_2])  

3. 筛选表

SELECT WHERE

在筛选数据帧时,与在 SQL 中使用 WHERE 子句的方式相同时,只需在方括号中定义条件:

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a = 1 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'] == 1] 

SELECT column_a WHERE column_b

如果要从表中选择某个列并筛选其他列,请按照以下格式操作:

  1. # SQL 
  2. SELECT column_a FROM table_df WHERE column_b = 1 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_b']==1]['column_a'

SELECT WHERE AND

如果要按多个条件进行筛选,只需将每个条件换在括号中,并使用"&"分隔每个条件。

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a = 1 AND column_b = 2 
  3.  
  4. # Pandas 
  5. table_df[(table_df['column_a']==1) & (table_df['column_b']==2)] 

SELECT WHERE LIKE

SQL 中的 LIKE 等效项是 .str.contains()。如果要应用大小写不敏感,只需在参数中添加 case=False。

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a LIKE '%ball%' 
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'].str.contains('ball')] 

SELECT WHERE column IN()

SQL 中 IN() 的等效项为 .isin()。

  1. # SQL 
  2. SELECT * FROM table_df WHERE column_a IN('Canada''USA'
  3.  
  4. # Pandas 
  5. table_df[table_df['column_a'].isin(['Canada''USA'])] 

4.排序值

ORDER BY one column

在SQL中,ORDER BY 的等同于 .sort_values()。使用 'ascending' 参数指定是按升序还是降序对值排序,默认值与 SQL 一样升序。

  1. # SQL 
  2. SELECT * FROM table_df ORDER BY column_a DESC 
  3.  
  4. # Pandas 
  5. table_df.sort_values('column_a', ascending=False

ORDER BY multiple columns

如果要按多个列排序,可以列出括号中的列,并在括号中的 “ascending” 参数中指定排序方向。请确保遵循列出的列的相应顺序。

  1. # SQL 
  2. SELECT * FROM table_df ORDER BY column_a DESC, column_b ASC 
  3.  
  4. # Pandas 
  5. table_df.sort_values(['column_a''column_b'], ascending=[FalseTrue]) 

5.聚合函数

COUNT DISTINCT

聚合函数有一个通用模式。

要复制 COUNT DISTINCT,只需使用 .groupby()和.nunique()。

  1. # SQL 
  2. SELECT column_a, COUNT DISTINCT(ID)  
  3. FROM table_df 
  4. GROUP BY column_a 
  5.  
  6. # Pandas 
  7. table_df.groupby('column_a')['ID'].nunique() 

SUM

  1. # SQL 
  2. SELECT column_a, SUM(revenue)  
  3. FROM table_df 
  4. GROUP BY column_a  
  5.  
  6. # Pandas 
  7. table_df.groupby(['column_a''revenue']).sum() 

AVG

  1. # SQL 
  2. SELECT column_a, AVG(revenue)  
  3. FROM table_df 
  4. GROUP BY column_a 
  5.  
  6. # Pandas 
  7. table_df.groupby('column_a')['revenue'].mean() 

总结

Pandas无疑是一个强大的Python数据分析库,但是它也不是无所不能,对于某些操作并不具体和方便。

以上的操作可以帮助大家更好地在Pandas中实现一些SQL查询的实用操作,大家赶紧玩起来~

【编辑推荐】

  1. 文本或代码中 n 和 r 的区别
  2. 代码不止|Google 高效的前端开发秘籍全披露!
  3. 因未发项目奖金,一名程序员决定删代码泄愤
  4. 一段代码瘫痪一座工厂?奇安信现场展示攻防全过程
【责任编辑:华轩 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

订阅专栏+更多

云原生架构实践

云原生架构实践

新技术引领移动互联网进入急速赛道
共3章 | KaliArch

29人订阅学习

数据中心和VPDN网络建设案例

数据中心和VPDN网络建设案例

漫画+案例
共20章 | 捷哥CCIE

193人订阅学习

搭建数据中心实验Lab

搭建数据中心实验Lab

实验平台Datacenter
共5章 | ITGO(老曾)

119人订阅学习

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊

51CTO服务号

51CTO官微