본문 바로가기
반응형

Programming22

[Apache Spark] Advanced Spark Programming p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다. 이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/advanced_spark_programming.htm Spark에는 두가지 유형의 공유 변수가 있다. - 하나는 Broadcast 변수, 두번째는 accumulators 이다. 브로드캐스트 변수 - 큰 값을 효유렂긍로 배포하는 데 사용. 어큐뮬레이터 - 특정 컬렉션의 정보를 집계하는 데 사용. Broadcast Variables 방송 변수는 프로그래머가 각 기계에서 캐시된 읽기 전용 변수를 업무와 함께 발송하지 않고 유지할 수 있게 한다. 예를 들어, 그것.. 2019. 3. 18.
[Apache Spark] Deployment p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다. 이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/apache_spark_deployment.htm 스파크 애플리케이션은 스파크 서브미트를 사용하여 클러스터에 스파크 애플리케이션을 배치하는 데 사용되는 셸 명령이다. 그것은 균일한 인터페이스를 통해 모든 각 클러스터 관리자를 사용한다. 따라서, 당신은 각각의 신청서를 구성할 필요가 없다. Example 이전에 사용했던 단어 수에 대한 동일한 예를 들어봅시다. 쉘 명령을 사용했었죠. 여기서, 우리는 스파크 적용과 같은 예를 고려한다. Sample Input 다.. 2019. 3. 18.
[Apache Spark] Core Programming p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다. 이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/apache_spark_core_programming.htm 스파크 코어는 전체 프로젝트의 밑거름이 된다. 분산형 작업 파견, 스케줄링 및 기본 I/O 기능을 제공한다. 스파크는 RDD(Resilient Distributed Datasets)로 알려진 전문화된 기본 데이터 구조를 이용한다. RDD는 두 가지 방법으로 만들 수 있다. 하나는 외부 스토리지 시스템의 데이터 세트를 참조하는 것이고, 두 번째는 기존 RDD에 변환(예: 지도, 필터, 감쇠기, 결합).. 2019. 3. 18.
[Apache Spark] Installation p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다. 이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/apache_spark_installation.htm 스파크는 하둡의 하위 프로젝트다. 따라서 Linux 기반 시스템에 스파크를 설치하는 것이 좋다. 다음 단계는 아파치 스파크를 설치하는 방법을 보여준다. Step 1: Verifying Java Installation ( Java 설치 검증 ) 자바 설치는 스파크 설치의 필수 사항 중 하나이다. 다음 명령을 사용해 JAVA 버전을 검증한다. $java -version 만약 자바가 이미 당신의 시스템에 설치되.. 2019. 3. 18.
[Apache Spark] RDD p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다. 이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm 탄력 분산 데이터 세트 RDD(Rilient Distributed Datasets)는 스파크의 기본 데이터 구조다. 그것은 불변의 사물의 분포된 집합체다. RDD의 각 데이터 세트는 논리 파티션으로 나뉘는데, 이는 클러스터의 서로 다른 노드에서 계산될 수 있다. RDD는 사용자 정의 클래스를 포함하여 모든 종류의 Python, Java 또는 Scala 객체를 포함할 수 있다. 형식적으로, RDD는 읽기 전용으로 분할된 레.. 2019. 3. 18.
[Apache Spark] - Home p.s> 개인적인 공부 및 내용 정리를 위해 파파고 및 구글을 통해 번역을 한 것이므로, 틀린 번역 내용이 있을 수도 있습니다.이점을 감안하시고, 읽어봐주세요. 원문 : https://www.tutorialspoint.com/apache_spark/apache_spark_introduction.htm Apache Spark Tutorial Apache Spark는 빠른 계산을 위해 설계된 번개 빠른 클러스터 컴퓨팅입니다. Hadoop MapReduce 위에 구축되었으며 MapReduce 모델을 확장하여 대화식 쿼리 및 스트림 처리를 포함한 더 많은 유형의 계산을 효율적으로 사용합니다. 이것은 Spark Core 프로그래밍의 기본을 설명하는 간단한 튜토리얼입니다. 청중 이 튜토리얼은 Spark Framew.. 2019. 3. 18.
반응형