博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Spark学习之数据读取与保存(4)
阅读量:5945 次
发布时间:2019-06-19

本文共 782 字,大约阅读时间需要 2 分钟。

Spark学习之数据读取与保存(4)

1. 文件格式

Spark对很多种文件格式的读取和保存方式都很简单。如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件。通过扩展名进行处理。

2. 读取/保存文本文件

Python中读取一个文本文件
input = sc.textfile("file:///home/holen/repos/spark/README.md")    Scala中读取一个文本文件    val input = sc.textFile("file:///home/holen/repos/spark/README.md")    Java中读取一个文本文件    JavaRDD
input = sc.textFile("file:///home/holen/repos/spark/README.md")
saveAsTextFile()方法用了保存为文本文件

3. 读取/保存JSON文件

Python中读取JSON文件
import json    data = input.map(lambda x: json.loads(x))    Python中保存为JSON文件    (data.filter(lambda x: x["lovesPandas"]).map(lambda x: json.dumps(x)))        .saveAsTextFile(outputFile)

4. Spark SQL中的结构化数据

结构化数据指的是有结构信息的数据————也就是所有的数据记录都有具有一致字段结构的集合。在各种情况下,我们把一条SQL查询给Spark SQL,让它对一个数据源执行查询,然后得到由Row对象组成的RDD,每个Row对象表示一条记录。

转载地址:http://nrzxx.baihongyu.com/

你可能感兴趣的文章
SQL Server代理(3/12):代理警报和操作员
查看>>
基于事件驱动的DDD领域驱动设计框架分享(附源代码)
查看>>
Linux备份ifcfg-eth0文件导致的网络故障问题
查看>>
2018年尾总结——稳中成长
查看>>
JFreeChart开发_用JFreeChart增强JSP报表的用户体验
查看>>
度量时间差
查看>>
通过jsp请求Servlet来操作HBASE
查看>>
crontab执行shell脚本日志中出现乱码
查看>>
Shell编程基础
查看>>
Shell之Sed常用用法
查看>>
3.1
查看>>
校验表单如何摆脱 if else ?
查看>>
JS敏感信息泄露:不容忽视的WEB漏洞
查看>>
分布式memcached服务器代理magent安装配置(CentOS6.6)
查看>>
Create Volume 操作(Part III) - 每天5分钟玩转 OpenStack(52)
查看>>
tomcat 8.0虚拟机配置文档
查看>>
pxc群集搭建
查看>>
JS中加载cssText延时
查看>>
常用的脚本编程知识点
查看>>
计算机网络术语总结4
查看>>