spark
차이
문서의 선택한 두 판 사이의 차이를 보여줍니다.
| 양쪽 이전 판이전 판다음 판 | 이전 판 | ||
| spark [2016/08/17 07:04] – rex8312 | spark [2024/03/23 02:38] (현재) – 바깥 편집 127.0.0.1 | ||
|---|---|---|---|
| 줄 11: | 줄 11: | ||
| http:// | http:// | ||
| - | 다운로드 | + | spark 다운로드 |
| http:// | http:// | ||
| | | ||
| - | .bashrc에 추가 | + | hadoop 다운로드 및 압축 해제 |
| - | export SPARK_HOME=/ | + | |
| + | |||
| + | |||
| + | .bashrc에 추가 | ||
| + | |||
| + | # JAVA_HOME, HADOOP_HOME, | ||
| + | |||
| + | export JAVA_HOME=/ | ||
| + | export HADOOP_HOME=/ | ||
| + | export PATH=$HADOOP_HOME/ | ||
| + | export SPARK_DIST_CLASSPATH=$(hadoop classpath) | ||
| + | | ||
| export PATH=$SPARK_HOME/ | export PATH=$SPARK_HOME/ | ||
| + | export SPARK_LOCAL_IP={ip address} | ||
| + | export LD_LIBRARY_PATH=$HADOOP_HOME/ | ||
| | | ||
| 테스트 | 테스트 | ||
| 줄 35: | 줄 48: | ||
| pyspark --packages org.mongodb.spark: | pyspark --packages org.mongodb.spark: | ||
| + | | ||
| + | | ||
| + | ===== IPython 사용 ===== | ||
| + | |||
| + | .bashrc에 추가 | ||
| + | |||
| + | export PYSPARK_DRIVER_PYTHON=ipython | ||
| + | #export PYSPARK_DRIVER_PYTHON_OPTS=qtconsole | ||
| + | |||
| + | ===== Spyder와 연동 ===== | ||
| + | |||
| + | .bashrc에 추가 | ||
| + | |||
| + | export PYTHONPATH=$SPARK_HOME/ | ||
| + | export PYTHONPATH=$SPARK_HOME/ | ||
| + | | ||
| + | spyder.py 파일 생성 | ||
| + | |||
| + | cp / | ||
| + | | ||
| + | spark로 spyder 시작 | ||
| + | |||
| + | spark-submit / | ||
| + | | ||
| + | | ||
| + | spark 세션 시작 | ||
| + | |||
| + | <code python> | ||
| + | from pyspark.sql import SparkSession | ||
| + | |||
| + | spark = SparkSession\ | ||
| + | .builder\ | ||
| + | .appName(" | ||
| + | .config(" | ||
| + | .getOrCreate() | ||
| + | </ | ||
| + | |||
| + | ====== ipython notebook 연동 ====== | ||
| + | |||
| + | Linux | ||
| + | |||
| + | PYSPARK_DRIVER_PYTHON_OPTS=notebook pyspark | ||
| + | |||
| + | Windows | ||
| + | |||
| + | set PYSPARK_DRIVER_PYTHON_OPTS=notebook | ||
| + | pyspark | ||
| + | |||
| + | |||
| + | 프로필 생성 | ||
| + | |||
| + | ipython profile create pyspark | ||
| + | | ||
| + | ~/ | ||
| + | |||
| + | <code python 00-pyspark-setup.py> | ||
| + | # Configure the necessary Spark environment | ||
| + | import os | ||
| + | import sys | ||
| + | |||
| + | spark_home = os.environ.get(' | ||
| + | sys.path.insert(0, | ||
| + | |||
| + | # Add the py4j to the path. | ||
| + | # You may need to change the version number to match your install | ||
| + | sys.path.insert(0, | ||
| + | |||
| + | # Initialize PySpark to predefine the SparkContext variable ' | ||
| + | # execfile(os.path.join(spark_home, | ||
| + | exec(open(os.path.join(spark_home, | ||
| + | </ | ||
| + | |||
| + | 실행 | ||
| + | |||
| + | ipython notebook --profile=pyspark | ||
| + | # jupyter notebook --profile=pyspark | ||
| + | |||
| + | |||
| + | ===== Cluster 설정 ===== | ||
| + | |||
| + | - 마스터와 슬레이브에 spark 설정 | ||
| + | - 마스터에서 슬레이브로 암호없이 ssh 연결 가능하도록 설정 | ||
| + | - /etc/hosts 파일 수정 후 재부팅 | ||
| + | - 127.0.1.1 주석 처리, 슬레이브에서 마스터로 연결 거부 될 수 있음 | ||
| + | - 각 호스트의 주소와 이름을 입력 | ||
| + | - 연결이 거부될 경우 telnet {master ip} 7077로 연결 테스트 할 수 있음 | ||
| + | |||
| + | 클러스터 시작 및 종료 | ||
| + | |||
| + | $SPARK_HOME/ | ||
| + | $SPARK_HOME/ | ||
| + | | ||
| + | |||
| + | - 클러스터 상태 페이지: http:// | ||
| + | - 성공적으로 클러스터가 실행중이라면, | ||
| + | - http:// | ||
| + | | ||
| + | 클러스터에 접속 | ||
| + | |||
| + | pyspark --master spark:// | ||
| + | | ||
| + | | ||
| + | |||
spark.1471417486.txt.gz · 마지막으로 수정됨: (바깥 편집)