Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido:
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()
La columna parece truncada:
scala> results.show();
+--------------------+
| col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+
¿Cómo muestro el contenido completo de la columna?
dataFrame.writeStream.outputMode("append").format("console").option("truncate", "false").start()
Si pones
results.show(false)
, los resultados no se truncaránfuente
false
aplica, también.results.show(20, False)
. El que ha mencionado dará error.scala
ambos las opciones son válidas.results.show(false)
yresults.show(20, false)
Las otras soluciones son buenas. Si estos son tus objetivos:
Estas dos líneas son útiles ...
Al persistir, las 2 acciones del ejecutor, contar y mostrar, son más rápidas y más eficientes al usar
persist
ocache
mantener la estructura de trama de datos subyacente provisional dentro de los ejecutores. Ver más sobre persistir y caché .fuente
El siguiente código ayudaría a ver todas las filas sin truncamiento en cada columna
fuente
df
que se recopile dos veces?results.show(20, False)
oresults.show(20, false)
dependiendo de si lo está ejecutando en Java / Scala / Pythonfuente
results.show(false)
le mostrará el contenido completo de la columna.El método Show por defecto limita a 20, y agregar un número antes
false
mostrará más filas.fuente
prueba este comando:
fuente
df
que se recoja dos veces?results.show(20,false)
hizo el truco para mí en Scala.fuente
Dentro de Databricks puede visualizar el marco de datos en formato tabular. Con el comando:
Se verá como
fuente
Yo uso el complemento La extensión de Chrome funciona bastante bien:
[ https://userstyles.org/styles/157357/jupyter-notebook-widefont>[1]
fuente
Prueba esto en scala:
El método show acepta un número entero y un valor booleano pero df.count devuelve Long ... por lo que se requiere conversión de tipo
fuente
En c #
Option("truncate", false)
no trunca datos en la salida.fuente
La siguiente respuesta se aplica a una aplicación Spark Streaming.
Al establecer la opción "truncar" en falso, puede indicarle al receptor de salida que muestre la columna completa.
fuente