当前位置: 首页 > news >正文

服装网站建设多少钱精准营销的成功案例

服装网站建设多少钱,精准营销的成功案例,单页面网站入侵,创建免费网站需要什么条件RDD概述 中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。 RDD和Hadoop MR 的区别: RDD是先明确数据处理流程,数据在行动算子执行前实际上并未…

RDD概述

中文名为弹性分布式数据集,是数据处理基本单位。代表一个弹性的,不可变,可分区,里面的数据可并行计算的集合。

RDD和Hadoop MR 的区别:

  1. RDD是先明确数据处理流程,数据在行动算子执行前实际上并未被修改
  2. MR本质上是摸石头过河,每一步操作时,数据本体已经被修改了,无法恢复。

RDD特性:

  • 一组分区:标记数据是哪个分区的
  • 一个计算每个分区的函数
  • RDD之间的依赖关系
  • 一个分区器:即RDD的分片函数
  • 一个优先列表:移动数据不如移动计算

Spark编程

RDD的创建

  1. 使用IDEA创建一个spark项目
  2. 添加spark-core_2.12依赖,版本3.3.1
  3. 在setting-plugins搜索Scala插件,方便查询Scala代码
  4. 如果代码出现winutils找不到异常时,需要配置一下windows对于Hadoop的依赖
  5. 开始编程
    • 创建RDD_init的class文件,定义main方法
    • new JavaSparkContext(), 设置SparkConf().setMaster("local[*]").setAppName("rdd");得到sc
    • sc获取RDD的方法
      • textFile(文件路径)
      • parallelize(list集合)

分区

为了能够看到分区的情况,不使用collect收集,而是采用saveAsTextFile方法来看并行操作的具体情形。local[2]代表并行度,也会影响文件的数量,这个是分区数的上限。也可以通过parallelize(list, 分区数)方法来控制分区数量,而不影响分区的上限。

内存数据分区策略:如果数据个数无法被分区数整除,多出来的数据优先分配给后面的分区。

def positions()={val start = ((下标*数据个数)/分区数).toIntval end = ((下标+1)* 数据个数/ 分区数).toInt
}

从集合获取数据时,负载均衡,尽量保证每个分区的数据数量是一致的,后面的分区的数据会比前面的多。

MR和spark的切分区别:

  • MR希望每个任务跑到数据量级尽量多,因为MR底层是单线程多进程的,并发没有那么方便。
  • spark希望跑到任务尽量多,即负载均衡,并发量高,因为spark底层是多进程多线程的。

文件数据分区策略:分区数量最低为2,最高为环境CPU数量。分区数量根据文件大小来计算得出,跟MR切片规则很类似。大致是这样:

  • goalS ize = 文件大小(字节) / 分区数量,最小为1
  • 分区数量 = 文件大小 / goalSize
http://www.shuangfujiaoyu.com/news/61209.html

相关文章:

  • 旅游网站栏目建设玉林网站seo
  • 上海网站建设网页制作培训郑州seo价格
  • 山西品牌设计公司郑州seo实战培训
  • 厦门海沧网站建设淘宝的关键词排名怎么查
  • 环县网站怎么做代写软文公司
  • 学校管理网站源码市场营销策划书范文5篇精选
  • 做外贸soho 需要有网站吗宁波seo行者seo09
  • 网站的首页怎么做的天津seo推广
  • 新开的公司建立网站有哪些要做的百度搜索引擎网址格式
  • 烟台哪里做网站今日小说排行榜百度搜索风云榜
  • 北京网站建设unitewww中国国家培训网官网查询
  • wordpress 登录 404网站seo站长工具
  • 上海最专业的网站建设公司排名seo系统优化
  • 域名停靠网站下载大全怎么制作个人网站
  • 浙江建设信息网青岛seo公司
  • 洛阳高端网站建设百度竞价项目
  • 中国建设招标工程网站广州营销网站建设靠谱
  • 设计一个企业网站大概多少钱西安做seo的公司
  • 中山精品网站建设新闻seo博客网站
  • 晋城网站seo搜索引擎竞价排名
  • 网站后台做1个多少钱谷歌浏览器下载安装2022最新版
  • 企业展示型网站 建站系统谷歌搜索引擎免费入口 台湾
  • 网站开发中网页之间的连接形式南京百度推广优化
  • 服务器色情网站专用北京网站建设运营
  • 做优化网站是什么意思上海最新发布最新
  • 网站关键词多少个字数 站长网注册域名后如何建立网站
  • 漳州建网站深圳知名网络优化公司
  • nodejs 做视频网站重庆seo全面优化
  • 建设银行兰州分行网站百度网站首页
  • 百度站长平台h5网站如何开发软件app