Data Engineering/PySpark2 [PySpark] PySpark 기본 예제 지난 글에서는 PySpark를 설치하고 Pycharm과 연동하는 것까지 살펴보았습니다. 이번 글에서는 간단하게 예제 데이터를 생성하고, 해당 데이터를 다뤄보는 것을 통해 PySpark의 간단한 사용법을 파악하고자 합니다. from pyspark.sql import SparkSession # 스파크 세션 생성 spark = SparkSession.builder.master("local").appName("SparkSQL").getOrCreate() # 로그 레벨 정의 spark.sparkContext.setLogLevel("ERROR") 우선 spark 세션을 생성하고 로그 레벨을 정의해줍니다. 로그 레벨을 정의하는 것은 필수는 아니지만, 많은 로그가 나올 경우 필요한 로그를 확인하기 어려울 수 있습니다... 2022. 10. 21. [PySpark] PySpark 설치하기 본 글에서는 PySpark를 설치하는 과정을 다루고자 합니다. PySpark를 간단하게 설명하자면 Spark용 Python API의 일종으로, Python에서의 대규모 데이터 처리를 보다 효율적으로 수행할 수 있는 도구입니다. PySpark의 설치 과정은 https://koddol016.tistory.com/6에 있는 글을 참고하여 진행하였습니다. 1. Java 및 Python 설치 우선 아래의 첫 번째 링크에서 Java를 설치합니다. 로그인을 해야 설치가 가능하므로, oracle 계정을 생성해야 합니다. 이후 Python을 설치하면 됩니다. 현재는 3.10 버전까지 나온 것으로 알고 있으나, 혹시 모를 버전 호환 문제 때문에 위의 참고한 글을 따라서 3.8 버전을 설치하였습니다. link (1): ht.. 2022. 10. 21. 이전 1 다음