当前位置: 首页 > news >正文

证券公司网站建设方案百度一下 你就知道首页官网

证券公司网站建设方案,百度一下 你就知道首页官网,wordpress 留言信息在哪里,内乡网站制作Hive Sampling 抽样函数 文章目录Hive Sampling 抽样函数Random随机抽样Block 基于数据块抽样Bucket table 基于分桶表抽样语法在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。Random随机抽样 随机抽样使用rand()函数确保…

Hive Sampling 抽样函数

文章目录

  • Hive Sampling 抽样函数
    • Random随机抽样
    • Block 基于数据块抽样
    • Bucket table 基于分桶表抽样
      • 语法

在HQL中,可以通过三种方式采样数据:随机采样,存储桶表采样和块采样。

Random随机抽样

  • 随机抽样使用rand()函数确保随机获取数据,LIMIT来限制抽取的数据个数。
  • 表数据多时抽样速度不快,但随机。
  • 有两种用法:
    方法一:(效率较高)
SELECT * FROM student
DISTRIBUTE BY RAND() SORT BY RAND() LIMIT 2;

方法二:

SELECT * FROM student
ORDER BY RAND() LIMIT 2;

Block 基于数据块抽样

  • 允许随机获取n行数据、百分比数据、指定大小的数据
  • 采样粒度是HDFS块大小
  • 优点是速度快,但不随机
  • 例:
  1. 获取1行数据:
SELECT * FROM student
TABLESAMPLE(1 ROWS);
  1. 百分比数据:
SELECT * FROM student
TABLESAMPLE(50 PERCENT);
  1. 指定大小的数据:
SELECT * FROM student
TABLESAMPLE(1k);

Bucket table 基于分桶表抽样

  • 一种特殊的采样方法,针对分桶表进行了优化
  • 抽样既随机,速度也很快。

语法

  • y必须是table总桶数的倍数或因子。hive根据y的大小,决定抽样的比例。(当y=2,有4个桶时,抽取4/2个桶的数据)
  • x表示从哪个桶开始抽取。
  • x的值必须小于y的值。
  • ON colname表示基于什么抽
    1. ON RAND():表示随机抽
    2. ON 分桶字段:表示基于分桶字段抽样,效率更高
TABLESAMPLE (BUCKET x OUT OF y [ON colname])
  • 例:
SELECT * FROM t_usa_covid19_bucket TABLESAMPLE(BUCKET 1 OUT OF 5 ON RAND());
http://www.shuangfujiaoyu.com/news/36289.html

相关文章:

  • 重庆定制网站建设公司网站seo推广方案
  • 什么样的公司愿意做网站国内最新新闻热点事件
  • 手机网站可以做动态吗网络营销分类
  • 专门做奶粉的网站百度推广登录后台
  • 网站建设有什么系统销售课程培训视频教程
  • 旅游网站怎么做杭州网站推广找哪家
  • 网站怎么建设宁波微信推广平台哪个好
  • 备案期间的网站打开广告软文代理平台
  • 长安公司网站建设百度影音在线电影
  • 个人如何做公益网站抖音企业推广
  • 简单广告设计软件关键词优化平台有哪些
  • 乌鲁木齐网站建设网络营销模式有哪几种
  • 做网站有什么用福州今日头条新闻
  • 创建一个个人网站需要多少钱热搜榜排名今日
  • 宜宾百度网站建设宁波网站建设与维护
  • 做网站时 404网页如何指向北京网站seo招聘
  • 外网网站有什么好的推荐seo搜索优化待遇
  • 做动态网站费用建网站怎么建
  • 做网站建设需要会哪些淘宝标题优化工具推荐
  • 凤岗仿做网站北京seo优化诊断
  • 竞价托管如何托管seo技术培训东莞
  • 济南建设网站国外网页模板
  • 做购物网站需要什么资质百度免费广告发布平台
  • 大德通网站建设网站长尾关键词排名软件
  • php做网站都需要学什么湖南企业竞价优化首选
  • 微信公众号关联网站搜索引擎网站大全
  • 电子商务网站建设论文总结北京网站seo招聘
  • wordpress换了固定链接404衡水seo排名
  • 开源自动化运维平台seo免费培训教程
  • 做交通事故的网站网站是如何建立的