IT博客汇
  • 首页
  • 精华
  • 技术
  • 设计
  • 资讯
  • 扯淡
  • 权利声明
  • 登录 注册

    [原]Spark1.0.0 的一些小经验

    book_mmicky发表于 2014-05-13 15:23:33
    love 0
    1:关于读取本地文件
    使用spark-shell连接Spark集群,然后在运行应用程序中读取本地文件时,会经常碰上文件不存在的错误。
    主要原因是由于:
    spark-shell作为应用程序,是将提交作业给spark集群,然后spark集群分配到具体的worker来处理,worker在处理作业的时候会读取本地文件。这时候冲突就发生了,运行spark-shell的机器可能和运行worker的机器不是同一台,而文件是放在运行spark-shell的机器上,运行worker的机器上没有,就出现了上面的错误。
    解决方法:
    将文件复制到所有节点相同的目录上,或者将文件复制到worker相同的目录上(这个有点难度,要先看日志来判断,spark-shell 的一些小经验 - mmicky - mmicky 的博客)。

    2:关于Core数量的设置
    缺省的情况下,spark-shell会使用spark集群中的所有剩余的Core,但可以通过设置 -c 参数来指定使用的Core数量。这样就可以将多个spark-shell连接到spark集群上了。



沪ICP备19023445号-2号
友情链接