当前位置: 首页 > news >正文

专题网站开发 交互方法ks免费刷粉网站推广

专题网站开发 交互方法,ks免费刷粉网站推广,免费做问卷的网站,magento 做商城网站大数据系列之:读取parquet文件统计数据量 一、Spark读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例 一、Spark读取parquet文件统计数据量 首先,创建一个 SparkSession 对象: val spark SparkSession.b…

大数据系列之:读取parquet文件统计数据量

  • 一、Spark读取parquet文件统计数据量
  • 二、parquet-tools统计parquet文件数据量
  • 三、实际应用案例

一、Spark读取parquet文件统计数据量

  1. 首先,创建一个 SparkSession 对象:
val spark = SparkSession.builder().appName("Parquet Data Count").getOrCreate()
  1. 然后,使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame:
val data = spark.read.format("parquet").load("/path/to/hdfs/parquet/file")
  1. 最后,使用 DataFrame 的 count 方法进行数据量统计:
val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具:

  1. 首先,使用 Hadoop 命令行工具 hadoop 运行以下命令:
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount
  1. 该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量,并输出结果。

三、实际应用案例

读取hdfs上的parquet文件:

%sparkval data = spark.read.format("parquet").load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量:

%spark
val count = data.count()count: Long = 433173
http://www.ho-use.cn/article/3332.html

相关文章:

  • 网站开发者的常用工具seo外包公司专家
  • 什么网站做ppt网站百度收录突然消失了
  • 旅游机票网站建设深圳网络推广渠道
  • 跨境电商网站如何做推广营销必备十大软件
  • 衡阳网站开发有哪些公司360优化大师安卓手机版下载安装
  • 手机网站建设哪家公司好深圳华强北
  • 网站备案个人使用个人网页
  • 网页设计作业电影介绍网站代运营公司
  • 网站建设用什么系统好全球疫情最新数据消息
  • 手机软件制作和做网站相同上海优化公司有哪些
  • 宁波专业网站seo公司百度推广账号登陆入口
  • 昆明做网站公司哪家好专业网络推广
  • 网站建设和赚钱方法怎么建网站教程图解
  • 中国风html5网站模板百度收录查询工具官网
  • 机电建设工程施工网站图片百度广告屏蔽
  • c2c电子商务网站有哪些网址
  • 苏州网站建设情况推广软件的app
  • 湖南中耀建设集团有限公司网站seo网站关键词优化快速官网
  • 最好免费观看高清视频直播站长工具seo综合查询推广
  • 如何零基础做网站怎么创建网站赚钱
  • 电脑维护网站模板seo推广招聘
  • 网站的需求青岛新闻最新消息
  • 东湖网站建设凡科建站官网
  • 中国空间站简介100字蚌埠seo外包
  • 成品网站建设咨询必应搜索引擎
  • 网站建设存在四个问题今日热点头条
  • 四川网站开发制作seo顾问服务
  • 简述网站建设与维护头条热点新闻
  • 做后期的网站爱站小工具计算器
  • 长沙网站设计建设优化技术基础