PySpark DataFrames-枚举而不转换为熊猫的方法？（python3枚举）

25-02-28 12

在本文中，我们将详细介绍PySparkDataFrames-枚举而不转换为熊猫的方法？的各个方面，并为您提供关于python3枚举的相关解答，同时，我们也将为您带来关于ApacheSparkDataF

在本文中，我们将详细介绍PySpark DataFrames-枚举而不转换为熊猫的方法？的各个方面，并为您提供关于python3枚举的相关解答，同时，我们也将为您带来关于Apache Spark DataFrames 入门指南：操作 DataFrame、Apache Spark DataFrames入门指南：操作DataFrame、pandas dataframe 与 spark dataframe 互相转换（数据类型应该怎么转换呢？）、pandas的DataFrameGroupBy转换为DataFrame的有用知识。

本文目录一览：

PySpark DataFrames-枚举而不转换为熊猫的方法？（python3枚举）
Apache Spark DataFrames 入门指南：操作 DataFrame
Apache Spark DataFrames入门指南：操作DataFrame
pandas dataframe 与 spark dataframe 互相转换（数据类型应该怎么转换呢？）
pandas的DataFrameGroupBy转换为DataFrame

PySpark DataFrames-枚举而不转换为熊猫的方法？（python3枚举）

我有一个很大的 pyspark.sql.dataframe.DataFrame 名为df。我需要某种枚举记录的方式-
因此，能够访问具有特定索引的记录。（或选择具有索引范围的记录组）

在大熊猫中，我可以

indexes=[2,3,6,7] df[indexes]

在这里我想要类似的东西 （并且不将数据框转换为熊猫）

我最接近的是：

通过以下方式枚举原始数据框中的所有对象：

        indexes=np.arange(df.count())    df_indexed=df.withColumn(''index'', indexes)

* 使用where（）函数搜索所需的值。

问题：

为什么它不起作用以及如何使其起作用？如何在数据框中添加一行？
以后可以做类似的事情吗：

         indexes=[2,3,6,7]      df1.where("index in indexes").collect()

有没有更快，更简单的处理方法？

答案1

小编典典

它不起作用，因为：

的第二个参数withColumn应该Column不是一个集合。np.array在这里不会工作
当您将"index in indexes"SQL表达式传递给时where indexes超出范围，并且不能将其解析为有效标识符

PySpark > = 1.4.0

~~您可以使用相应的窗口函数添加行号，并使用Column.isin方法或格式正确的查询字符串进行查询：~~

    from pyspark.sql.functions import col, rowNumber    from pyspark.sql.window import Window    w = Window.orderBy()    indexed = df.withColumn("index", rowNumber().over(w))    # Using DSL    indexed.where(col("index").isin(set(indexes)))    # Using SQL expression    indexed.where("index in ({0})".format(",".join(str(x) for x in indexes)))

看起来调用无PARTITION BY子句的窗口函数会将所有数据移动到单个分区，因此上述毕竟不是最佳解决方案。

有没有更快，更简单的处理方法？

并不是的。Spark DataFrames不支持随机行访问。

PairedRDD``lookup如果使用进行分区，则可以使用相对较快的方法进行访问HashPartitioner。还有一个index-
rdd项目，它支持有效的查找。

编辑：

与PySpark版本无关，您可以尝试执行以下操作：

    from pyspark.sql import Row    from pyspark.sql.types import StructType, StructField, LongType    row = Row("char")    row_with_index = Row("char", "index")    df = sc.parallelize(row(chr(x)) for x in range(97, 112)).toDF()    df.show(5)    ## +----+    ## |char|    ## +----+    ## |   a|    ## |   b|    ## |   c|    ## |   d|    ## |   e|    ## +----+    ## only showing top 5 rows    # This part is not tested but should work and save some work later    schema  = StructType(        df.schema.fields[:] + [StructField("index", LongType(), False)])    indexed = (df.rdd # Extract rdd        .zipWithIndex() # Add index        .map(lambda ri: row_with_index(*list(ri[0]) + [ri[1]])) # Map to rows        .toDF(schema)) # It will work without schema but will be more expensive    # inSet in Spark < 1.3    indexed.where(col("index").isin(indexes))

Apache Spark DataFrames 入门指南：操作 DataFrame

文章目录

1 二、操作 DataFrame
- 1.1 打印 DataFrame 里面的模式
- 1.2 对 DataFrame 里面的数据进行采样
- 1.3 查询 DataFrame 里面的列
- 1.4 根据条件过滤数据
- 1.5 对 DataFrame 里面的数据进行排序
- 1.6 对列进行重命名
- 1.7 将 DataFrame 看作是关系型数据表
- 1.8 对两个 DataFrame 进行 Join 操作
- 1.9 将 DataFrame 保存成文件

二、操作 DataFrame

　　在前面的文章中，我们介绍了如何创建 DataFrame。本文将介绍如何操作 DataFrame 里面的数据和打印出 DataFrame 里面数据的模式

打印 DataFrame 里面的模式

　　在创建完 DataFrame 之后，我们一般都会查看里面数据的模式，我们可以通过 printSchema 函数来查看。它会打印出列的名称和类型：

students.printSchema

root

|-- id: string (nullable = true)

|-- studentName: string (nullable = true)

|-- phone: string (nullable = true)

|-- email: string (nullable = true)

如果采用的是 load 方式参见 DataFrame 的，students.printSchema 的输出则如下：

root

|-- id|studentName|phone|email: string (nullable = true)

对 DataFrame 里面的数据进行采样

　　打印完模式之后，我们要做的第二件事就是看看加载进 DataFrame 里面的数据是否正确。从新创建的 DataFrame 里面采样数据的方法有很多种。我们来对其进行介绍。

　　最简单的就是使用 show 方法，show 方法有四个版本：
　　（1）、第一个需要我们指定采样的行数 def show(numRows: Int)；
　　（2）、第二种不需要我们指定任何参数，这种情况下，show 函数默认会加载出 20 行的数据 def show()；
　　（3）、第三种需要指定一个 boolean 值，这个值说明是否需要对超过 20 个字符的列进行截取 def show(truncate: Boolean)；
　　（4）、最后一种需要指定采样的行和是否需要对列进行截断 def show(numRows: Int, truncate: Boolean)。实际上，前三个函数都是调用这个函数实现的。

　　Show 函数和其他函数不同的地方在于其不仅会显示需要打印的行，而且还会打印出头信息，并且会直接在默认的输出流打出 (console)。来看看怎么使用吧：

students.show() //打印出20行

+---+-----------+--------------+--------------------+

| id|studentName| phone| email|

+---+-----------+--------------+--------------------+

| 1| Burke|1-300-746-8446|ullamcorper.velit...|

| 2| Kamal|1-668-571-5046|pede.Suspendisse@...|

| 3| Olga|1-956-311-1686|Aenean.eget.metus...|

| 4| Belle|1-246-894-6340|vitae.aliquet.nec...|

| 5| Trevor|1-300-527-4967|dapibus.id@acturp...|

| 6| Laurel|1-691-379-9921|adipiscing@consec...|

| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|

| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|

| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|

| 10| Maya|1-271-683-2698|accumsan.convalli...|

| 11| Emi|1-467-270-1337| est@nunc.com|

| 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|

| 13| Florence|1-603-575-2444|sit.amet.dapibus@...|

| 14| Anika|1-856-828-7883|euismod@ligulaeli...|

| 15| Tarik|1-398-171-2268|turpis@felisorci.com|

| 16| Amena|1-878-250-3129|lorem.luctus.ut@s...|

| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|

| 18| Guy|1-869-521-3230|senectus.et.netus...|

| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|

| 20| Edward|1-711-710-6552|lectus@aliquetlib...|

+---+-----------+--------------+--------------------+

only showing top 20 rows

students.show(15)

+---+-----------+--------------+--------------------+

| id|studentName| phone| email|

+---+-----------+--------------+--------------------+

| 1| Burke|1-300-746-8446|ullamcorper.velit...|

| 2| Kamal|1-668-571-5046|pede.Suspendisse@...|

| 3| Olga|1-956-311-1686|Aenean.eget.metus...|

| 4| Belle|1-246-894-6340|vitae.aliquet.nec...|

| 5| Trevor|1-300-527-4967|dapibus.id@acturp...|

| 6| Laurel|1-691-379-9921|adipiscing@consec...|

| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|

| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|

| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|

| 10| Maya|1-271-683-2698|accumsan.convalli...|

| 11| Emi|1-467-270-1337| est@nunc.com|

| 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|

| 13| Florence|1-603-575-2444|sit.amet.dapibus@...|

| 14| Anika|1-856-828-7883|euismod@ligulaeli...|

| 15| Tarik|1-398-171-2268|turpis@felisorci.com|

+---+-----------+--------------+--------------------+

only showing top 15 rows

students.show(true)

+---+-----------+--------------+--------------------+

| id|studentName| phone| email|

+---+-----------+--------------+--------------------+

| 1| Burke|1-300-746-8446|ullamcorper.velit...|

| 2| Kamal|1-668-571-5046|pede.Suspendisse@...|

| 3| Olga|1-956-311-1686|Aenean.eget.metus...|

| 4| Belle|1-246-894-6340|vitae.aliquet.nec...|

| 5| Trevor|1-300-527-4967|dapibus.id@acturp...|

| 6| Laurel|1-691-379-9921|adipiscing@consec...|

| 7| Sara|1-608-140-1995|Donec.nibh@enimEt...|

| 8| Kaseem|1-881-586-2689|cursus.et.magna@e...|

| 9| Lev|1-916-367-5608|Vivamus.nisi@ipsu...|

| 10| Maya|1-271-683-2698|accumsan.convalli...|

| 11| Emi|1-467-270-1337| est@nunc.com|

| 12| Caleb|1-683-212-0896|Suspendisse@Quisq...|

| 13| Florence|1-603-575-2444|sit.amet.dapibus@...|

| 14| Anika|1-856-828-7883|euismod@ligulaeli...|

| 15| Tarik|1-398-171-2268|turpis@felisorci.com|

| 16| Amena|1-878-250-3129|lorem.luctus.ut@s...|

| 17| Blossom|1-154-406-9596|Nunc.commodo.auct...|

| 18| Guy|1-869-521-3230|senectus.et.netus...|

| 19| Malachi|1-608-637-2772|Proin.mi.Aliquam@...|

| 20| Edward|1-711-710-6552|lectus@aliquetlib...|

+---+-----------+--------------+--------------------+

only showing top 20 rows

students.show(false)

+---+-----------+--------------+-----------------------------------------+

|id |studentName|phone |email |

+---+-----------+--------------+-----------------------------------------+

|1 |Burke |1-300-746-8446|ullamcorper.velit.in@ametnullaDonec.co.uk|

|2 |Kamal |1-668-571-5046|pede.Suspendisse@interdumenim.edu |

|3 |Olga |1-956-311-1686|Aenean.eget.metus@dictumcursusNunc.edu |

|4 |Belle |1-246-894-6340|vitae.aliquet.nec@neque.co.uk |

|5 |Trevor |1-300-527-4967|dapibus.id@acturpisegestas.net |

|6 |Laurel |1-691-379-9921|adipiscing@consectetueripsum.edu |

|7 |Sara |1-608-140-1995|Donec.nibh@enimEtiamimperdiet.edu |

|8 |Kaseem |1-881-586-2689|cursus.et.magna@euismod.org |

|9 |Lev |1-916-367-5608|Vivamus.nisi@ipsumdolor.com |

|10 |Maya |1-271-683-2698|accumsan.convallis@ornarelectusjusto.edu |

|11 |Emi |1-467-270-1337|est@nunc.com |

|12 |Caleb |1-683-212-0896|Suspendisse@Quisque.edu |

|13 |Florence |1-603-575-2444|sit.amet.dapibus@lacusAliquamrutrum.ca |

|14 |Anika |1-856-828-7883|euismod@ligulaelit.co.uk |

|15 |Tarik |1-398-171-2268|turpis@felisorci.com |

|16 |Amena |1-878-250-3129|lorem.luctus.ut@scelerisque.com |

|17 |Blossom |1-154-406-9596|Nunc.commodo.auctor@eratSed.co.uk |

|18 |Guy |1-869-521-3230|senectus.et.netus@lectusrutrum.com |

|19 |Malachi |1-608-637-2772|Proin.mi.Aliquam@estarcu.net |

|20 |Edward |1-711-710-6552|lectus@aliquetlibero.co.uk |

+---+-----------+--------------+-----------------------------------------+

only showing top 20 rows

students.show(10,false)