Вопросы по теме 'amazon-emr'

Передать параметры в скрипт куста с помощью aws php sdk
Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)? Спасибо
2183 просмотров
schedule 04.07.2022

Как прервать / удалить поток заданий в Amazon EMR?
Я создал поток заданий с помощью Amazon Elastic MapReduce (Amazon EMR), и он потерпел неудачу по неизвестным причинам. Затем я попытался прервать поток заданий через Консоль управления AWS, но кнопка «Прервать» была отключена. Затем я попытался...
7000 просмотров

Векторизация индекса solr с помощью mahout с использованием lucene.vector
Я пытаюсь запустить задание кластеризации в Amazon EMR с помощью Mahout. У меня есть индекс solr, который я загрузил на S3, и я хочу векторизовать его с помощью mahouts lucene.vector (это первый шаг в потоке работы) Параметры шага следующие:...
809 просмотров
schedule 04.01.2023

Как получить доступ к Hbase, работающему на Amazon EMR, в ruby ​​on rails
Может ли кто-нибудь помочь мне программно подключиться к Hbase (который работает на Amazon EMR) в ruby? На самом деле, я хочу импортировать массовые данные в таблицу, ориентированную на столбцы Hbase, в Amazon EMR и программно извлекать те же...
942 просмотров
schedule 17.04.2022

Задание Hive прекращается, а запрос execute () остается зависшим
Я использую hive-jdbc-0.7.1-cdh3u5.jar. У меня есть несколько запросов с интенсивным использованием памяти, выполняемых в EMR, которые иногда терпят неудачу. Когда я смотрю на трекер вакансий, я вижу, что запрос был прерван, и вижу следующую ошибку:...
548 просмотров
schedule 07.06.2023

Запуск эластичной потоковой передачи mapreduce на AMI 3.0.1
Попытка запустить потоковое задание с более новым AMI 3.0.1: я получаю такие ошибки, как: Error: java.lang.RuntimeException: Error in configuring object ... Caused by: java.io.IOException: Cannot run program...
743 просмотров

Запуск заданий MapReduce на AWS-EMR из Eclipse
У меня есть пример WordCount MapReduce в Eclipse. Я экспортировал его в Jar и скопировал на S3. Затем я запустил его на AWS-EMR. Успешно. Затем я прочитал эту статью —...
526 просмотров

Задание Amazon EMR с множеством файлов json в качестве входных данных
Я пишу потоковое приложение Hadoop на python для работы на EMR. Входными данными для задания EMR является каталог файлов в корзине S3, каждый из которых представляет собой файл json, содержащий один объект json. Я хотел бы, чтобы картограф работал с...
203 просмотров
schedule 18.05.2022

Ошибка пространства кучи Java при выполнении задания сходства элементов mahout в Amazon EMR
Я пытаюсь запустить задание сходства элементов mahout на входе, состоящем из ~ 250 миллионов пар (строк) в кластере Amazon EMR (m3.2xLarge, 10 основных узлов). Я столкнулся с ошибкой размера кучи Java при выполнении задания на подобие. Что я...
550 просмотров

Как загрузить дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon EMR
TL;DR Как я могу загрузить или указать дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon Elastic MapReduce (Amazon EMR)? Длинная версия Я хочу проанализировать набор файлов Avro (> 2000 файлов) с помощью Hadoop...
867 просмотров
schedule 04.08.2023

Apache Pig 0.12.0 на Hue не выполняет предварительную обработку операторов, как ожидалось
Я использую сценарии Hue для PIG на Amazon EMR. Я использую операторы declare и default, как указано в документации. У меня есть несколько операторов %default и %declare, и похоже, что они не предварительно обработаны в Hue. Поэтому, несмотря...
640 просмотров

AWS EMR - шаги
Я запускаю следующий .sh, чтобы запустить команду на AWS с использованием EMR: aws emr create-cluster --name "Big Matrix Re Run 5" --ami-version 3.1.0 --auto-terminate --log-uri FILE LOCATION --enable-debugging --instance-groups...
1429 просмотров
schedule 09.05.2023

Файл не существует в Amazon EMR, хотя он пытается его загрузить
Я использовал Amazon EMR для создания emr-4.0.0 cluster : Однако всякий раз, когда я пытаюсь отправить на него искровое приложение, оно терпит неудачу и выдает следующую ошибку: File does not exist:...
1367 просмотров

Ошибка запуска Spark в EMR 4.0
Я создал EMR 4.0 экземпляр в AWS со всеми доступными приложениями, включая Spark . Я делал это вручную, через Консоль AWS. Я запустил кластер и подключился по SSH к главному узлу, когда он был запущен. Там я побежал pyspark . Когда pyspark...
937 просмотров

Медленное или неполное сохранение AsParquetFile из EMR Spark в S3
У меня есть фрагмент кода, который создает DataFrame и сохраняет его на S3. Ниже создается DataFrame из 1000 строк и 100 столбцов, заполненных math.Random . Я запускаю это в кластере с 4 x 4_ рабочими узлами и настраиваю много памяти. Я...
899 просмотров

Amazon EMR: у Pyspark странные проблемы с зависимостями
У меня возникли проблемы с запуском задания pyspark в кластере EMR, поэтому я вошел в главный узел и запустил spark-submit прямо там. У меня есть файл Python, который я отправляю в pyspark, и в этом файле у меня есть: import subprocess from...
3312 просмотров

Как выполнить сценарий оболочки на всех узлах кластера EMR?
Есть ли правильный способ выполнить сценарий оболочки на каждом узле в работающем кластере EMR hadoop? Все, что я ищу, вызывает действия начальной загрузки, но это относится только к запуску кластера, а не к работающему кластеру. Мое приложение...
2339 просмотров
schedule 11.07.2022

Запуск свиньи на Tez на Amazon EMR-4
Я пытаюсь запустить свинью на tez на amazon emr 4.5.0. Конфигурация работает без tez, я просто пытаюсь заставить ее работать на Tez. Для создания кластера (из командной строки) мы используем (TEZ_VERSION определяется как 0.5.2):...
348 просмотров
schedule 27.07.2022

Как вы автоматизируете работу pyspark на emr с помощью boto3 (или иначе)?
Я создаю задание для анализа огромных объемов данных сервера, а затем загружаю их в базу данных Redshift . Моя работа выглядит следующим образом: Получите данные журнала из S3 Либо используйте Spark dataframes , либо Spark sql, чтобы...
16120 просмотров

Почему мое приложение Spark работает только в одном исполнителе?
Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...
2109 просмотров