Публикации по теме amazon-emr [amazon-web-services, php, amazon-emr, hive, amazon-s3]

Вопросы по теме 'amazon-emr'

Передать параметры в скрипт куста с помощью aws php sdk

Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)? Спасибо

2183 просмотров

04.07.2022

Как прервать / удалить поток заданий в Amazon EMR?

Я создал поток заданий с помощью Amazon Elastic MapReduce (Amazon EMR), и он потерпел неудачу по неизвестным причинам. Затем я попытался прервать поток заданий через Консоль управления AWS, но кнопка «Прервать» была отключена. Затем я попытался...

7000 просмотров

amazon-web-services amazon-s3 command-line-interface amazon-emr elastic-map-reduce

03.02.2023

Векторизация индекса solr с помощью mahout с использованием lucene.vector

Я пытаюсь запустить задание кластеризации в Amazon EMR с помощью Mahout. У меня есть индекс solr, который я загрузил на S3, и я хочу векторизовать его с помощью mahouts lucene.vector (это первый шаг в потоке работы) Параметры шага следующие:...

809 просмотров

amazon-emr mahout

04.01.2023

Как получить доступ к Hbase, работающему на Amazon EMR, в ruby on rails

Может ли кто-нибудь помочь мне программно подключиться к Hbase (который работает на Amazon EMR) в ruby? На самом деле, я хочу импортировать массовые данные в таблицу, ориентированную на столбцы Hbase, в Amazon EMR и программно извлекать те же...

942 просмотров

amazon-emr hbase ruby-on-rails-2

17.04.2022

Задание Hive прекращается, а запрос execute () остается зависшим

Я использую hive-jdbc-0.7.1-cdh3u5.jar. У меня есть несколько запросов с интенсивным использованием памяти, выполняемых в EMR, которые иногда терпят неудачу. Когда я смотрю на трекер вакансий, я вижу, что запрос был прерван, и вижу следующую ошибку:...

548 просмотров

amazon-ec2 amazon-emr hive emr

07.06.2023

Запуск эластичной потоковой передачи mapreduce на AMI 3.0.1

Попытка запустить потоковое задание с более новым AMI 3.0.1: я получаю такие ошибки, как: Error: java.lang.RuntimeException: Error in configuring object ... Caused by: java.io.IOException: Cannot run program...

743 просмотров

amazon-web-services amazon-emr hadoop hadoop-streaming

03.01.2023

Запуск заданий MapReduce на AWS-EMR из Eclipse

У меня есть пример WordCount MapReduce в Eclipse. Я экспортировал его в Jar и скопировал на S3. Затем я запустил его на AWS-EMR. Успешно. Затем я прочитал эту статью —...

526 просмотров

java jar amazon-emr mapreduce elastic-map-reduce

17.04.2024

Задание Amazon EMR с множеством файлов json в качестве входных данных

Я пишу потоковое приложение Hadoop на python для работы на EMR. Входными данными для задания EMR является каталог файлов в корзине S3, каждый из которых представляет собой файл json, содержащий один объект json. Я хотел бы, чтобы картограф работал с...

203 просмотров

python json amazon-s3 amazon-emr hadoop

18.05.2022

Ошибка пространства кучи Java при выполнении задания сходства элементов mahout в Amazon EMR

Я пытаюсь запустить задание сходства элементов mahout на входе, состоящем из ~ 250 миллионов пар (строк) в кластере Amazon EMR (m3.2xLarge, 10 основных узлов). Я столкнулся с ошибкой размера кучи Java при выполнении задания на подобие. Что я...

550 просмотров

java amazon-emr mahout mahout-recommender

23.04.2022

Как загрузить дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon EMR

TL;DR Как я могу загрузить или указать дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon Elastic MapReduce (Amazon EMR)? Длинная версия Я хочу проанализировать набор файлов Avro (> 2000 файлов) с помощью Hadoop...

867 просмотров

python jar streaming amazon-emr hadoop

04.08.2023

Apache Pig 0.12.0 на Hue не выполняет предварительную обработку операторов, как ожидалось

Я использую сценарии Hue для PIG на Amazon EMR. Я использую операторы declare и default, как указано в документации. У меня есть несколько операторов %default и %declare, и похоже, что они не предварительно обработаны в Hue. Поэтому, несмотря...

640 просмотров

parameter-passing amazon-emr hue apache-pig

02.03.2024

AWS EMR - шаги

Я запускаю следующий .sh, чтобы запустить команду на AWS с использованием EMR: aws emr create-cluster --name "Big Matrix Re Run 5" --ami-version 3.1.0 --auto-terminate --log-uri FILE LOCATION --enable-debugging --instance-groups...

1429 просмотров

amazon-emr aws-cli

09.05.2023

Файл не существует в Amazon EMR, хотя он пытается его загрузить

Я использовал Amazon EMR для создания emr-4.0.0 cluster : Однако всякий раз, когда я пытаюсь отправить на него искровое приложение, оно терпит неудачу и выдает следующую ошибку: File does not exist:...

1367 просмотров

amazon-web-services amazon-emr hadoop yarn emr

11.04.2023

Ошибка запуска Spark в EMR 4.0

Я создал EMR 4.0 экземпляр в AWS со всеми доступными приложениями, включая Spark . Я делал это вручную, через Консоль AWS. Я запустил кластер и подключился по SSH к главному узлу, когда он был запущен. Там я побежал pyspark . Когда pyspark...

937 просмотров

amazon-web-services apache-spark pyspark amazon-emr

24.06.2022

Медленное или неполное сохранение AsParquetFile из EMR Spark в S3

У меня есть фрагмент кода, который создает DataFrame и сохраняет его на S3. Ниже создается DataFrame из 1000 строк и 100 столбцов, заполненных math.Random . Я запускаю это в кластере с 4 x 4_ рабочими узлами и настраиваю много памяти. Я...

899 просмотров

amazon-s3 parquet apache-spark amazon-emr apache-spark-1.4

26.06.2023

Amazon EMR: у Pyspark странные проблемы с зависимостями

У меня возникли проблемы с запуском задания pyspark в кластере EMR, поэтому я вошел в главный узел и запустил spark-submit прямо там. У меня есть файл Python, который я отправляю в pyspark, и в этом файле у меня есть: import subprocess from...

3312 просмотров

python amazon-web-services pyspark amazon-emr emr

24.09.2022

Как выполнить сценарий оболочки на всех узлах кластера EMR?

Есть ли правильный способ выполнить сценарий оболочки на каждом узле в работающем кластере EMR hadoop? Все, что я ищу, вызывает действия начальной загрузки, но это относится только к запуску кластера, а не к работающему кластеру. Мое приложение...

2339 просмотров

amazon-web-services amazon-emr hadoop

11.07.2022

Запуск свиньи на Tez на Amazon EMR-4

Я пытаюсь запустить свинью на tez на amazon emr 4.5.0. Конфигурация работает без tez, я просто пытаюсь заставить ее работать на Tez. Для создания кластера (из командной строки) мы используем (TEZ_VERSION определяется как 0.5.2):...

348 просмотров

amazon-emr apache-tez apache-pig

27.07.2022

Как вы автоматизируете работу pyspark на emr с помощью boto3 (или иначе)?

Я создаю задание для анализа огромных объемов данных сервера, а затем загружаю их в базу данных Redshift . Моя работа выглядит следующим образом: Получите данные журнала из S3 Либо используйте Spark dataframes , либо Spark sql, чтобы...

16120 просмотров

python amazon-s3 apache-spark pyspark amazon-emr

10.05.2024

Почему мое приложение Spark работает только в одном исполнителе?

Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...

2109 просмотров

apache-spark amazon-emr spark-dataframe

29.10.2022