spark
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
양쪽 이전 판이전 판다음 판 | 이전 판 | ||
spark [2016/08/18 04:22] – [설치] rex8312 | spark [2024/03/23 02:38] (현재) – 바깥 편집 127.0.0.1 | ||
---|---|---|---|
줄 26: | 줄 26: | ||
export JAVA_HOME=/ | export JAVA_HOME=/ | ||
export HADOOP_HOME=/ | export HADOOP_HOME=/ | ||
- | export | + | export |
+ | export SPARK_DIST_CLASSPATH=$(hadoop classpath) | ||
export SPARK_HOME=/ | export SPARK_HOME=/ | ||
- | export PATH=$SPARK_HOME/ | + | export PATH=$SPARK_HOME/ |
+ | export SPARK_LOCAL_IP={ip address} | ||
+ | export LD_LIBRARY_PATH=$HADOOP_HOME/ | ||
| | ||
테스트 | 테스트 | ||
줄 53: | 줄 56: | ||
export PYSPARK_DRIVER_PYTHON=ipython | export PYSPARK_DRIVER_PYTHON=ipython | ||
#export PYSPARK_DRIVER_PYTHON_OPTS=qtconsole | #export PYSPARK_DRIVER_PYTHON_OPTS=qtconsole | ||
+ | |||
+ | ===== Spyder와 연동 ===== | ||
+ | |||
+ | .bashrc에 추가 | ||
+ | |||
+ | export PYTHONPATH=$SPARK_HOME/ | ||
+ | export PYTHONPATH=$SPARK_HOME/ | ||
+ | | ||
+ | spyder.py 파일 생성 | ||
+ | |||
+ | cp / | ||
+ | | ||
+ | spark로 spyder 시작 | ||
+ | |||
+ | spark-submit / | ||
+ | | ||
+ | | ||
+ | spark 세션 시작 | ||
+ | |||
+ | <code python> | ||
+ | from pyspark.sql import SparkSession | ||
+ | |||
+ | spark = SparkSession\ | ||
+ | .builder\ | ||
+ | .appName(" | ||
+ | .config(" | ||
+ | .getOrCreate() | ||
+ | </ | ||
+ | |||
+ | ====== ipython notebook 연동 ====== | ||
+ | |||
+ | Linux | ||
+ | |||
+ | PYSPARK_DRIVER_PYTHON_OPTS=notebook pyspark | ||
+ | |||
+ | Windows | ||
+ | |||
+ | set PYSPARK_DRIVER_PYTHON_OPTS=notebook | ||
+ | pyspark | ||
+ | |||
+ | |||
+ | 프로필 생성 | ||
+ | |||
+ | ipython profile create pyspark | ||
+ | | ||
+ | ~/ | ||
+ | |||
+ | <code python 00-pyspark-setup.py> | ||
+ | # Configure the necessary Spark environment | ||
+ | import os | ||
+ | import sys | ||
+ | |||
+ | spark_home = os.environ.get(' | ||
+ | sys.path.insert(0, | ||
+ | |||
+ | # Add the py4j to the path. | ||
+ | # You may need to change the version number to match your install | ||
+ | sys.path.insert(0, | ||
+ | |||
+ | # Initialize PySpark to predefine the SparkContext variable ' | ||
+ | # execfile(os.path.join(spark_home, | ||
+ | exec(open(os.path.join(spark_home, | ||
+ | </ | ||
+ | |||
+ | 실행 | ||
+ | |||
+ | ipython notebook --profile=pyspark | ||
+ | # jupyter notebook --profile=pyspark | ||
+ | |||
+ | |||
+ | ===== Cluster 설정 ===== | ||
+ | |||
+ | - 마스터와 슬레이브에 spark 설정 | ||
+ | - 마스터에서 슬레이브로 암호없이 ssh 연결 가능하도록 설정 | ||
+ | - /etc/hosts 파일 수정 후 재부팅 | ||
+ | - 127.0.1.1 주석 처리, 슬레이브에서 마스터로 연결 거부 될 수 있음 | ||
+ | - 각 호스트의 주소와 이름을 입력 | ||
+ | - 연결이 거부될 경우 telnet {master ip} 7077로 연결 테스트 할 수 있음 | ||
+ | |||
+ | 클러스터 시작 및 종료 | ||
+ | |||
+ | $SPARK_HOME/ | ||
+ | $SPARK_HOME/ | ||
+ | | ||
+ | |||
+ | - 클러스터 상태 페이지: http:// | ||
+ | - 성공적으로 클러스터가 실행중이라면, | ||
+ | - http:// | ||
+ | | ||
+ | 클러스터에 접속 | ||
+ | |||
+ | pyspark --master spark:// | ||
+ | | ||
+ | | ||
spark.1471494144.txt.gz · 마지막으로 수정됨: 2024/03/23 02:37 (바깥 편집)