-
3 votesanswersviews
如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)?
如何将数据框中的数据写入HDFS中的单个.parquet文件(单个文件中的数据和元数据)? df.show() --> 2 rows +------+--------------+----------------+ | name|favorite_color|favorite_numbers| +------+--------------+----------------+ |Alyssa|... -
1 votesanswersviews
Spark Hive报告ClassNotFoundException:com.ibm.biginsights.bigsql.sync.BIEventListener
我正在尝试在访问Hive表的Cloud 4.2 Enterprise上的BigInsights上运行pyspark脚本 . 首先我创建一个配置表: [biadmin@bi4c-xxxxx-mastermanager ~]$ hive hive> CREATE TABLE pokes (foo INT, bar STRING); OK Time taken: 2.147 seconds hiv... -
0 votesanswersviews
使用外部Oracle数据库设置IBM Open Platform
当我尝试使用Oracle数据库作为RDBMS安装单节点IBM Open Platform集群时,我有点困惑 . 首先,我理解IBM Big Insights的Hadoop部分不是相应Apache版本的修改版本(如HortonWorks那样),因此,当Ambari(来自IBM repo)提供我使用外部Oracle数据库时,我想它应该管用 . 我可能错了,我在糟糕的IBM安装指南中找不到任何oracl... -
-1 votesanswersviews
sqoop - 连接到oracle并将数据导入IBM BigInsights中的HDFS
我想连接到我的数据库(oracle 10g)并将数据导入 HDFS . 我正在使用IBM大型Insight平台 . 但是当我使用下面的命令: sqoop import --connect jdbc:oracle:thin://<IP>:1521/DB--username xxx --password xxx--table t /lib/sqoop/sqoopout 运行Sqoop时... -
2 votesanswersviews
来自python worker的错误:/ usr / bin / python没有名为pyspark的模块
我试图在Yarn上运行Pyspark,但是当我在控制台上键入任何命令时,我收到以下错误 . 我可以在本地和纱线模式下在Spark中运行scala shell . Pyspark在本地模式下运行正常,但在纱线模式下不起作用 . 操作系统:RHEL 6.x Hadoop发行版:IBM BigInsights 4.0 Spark版本:1.2.1 WARN scheduler.TaskSetManag...