Вопросы по теме 'amazon-emr'
Передать параметры в скрипт куста с помощью aws php sdk
Я пытаюсь запустить скрипт куста на AWS EMR, используя php sdk. Как я могу передать параметры скрипта (например, ввод, вывод и даты для работы)?
Спасибо
2183 просмотров
schedule
04.07.2022
Как прервать / удалить поток заданий в Amazon EMR?
Я создал поток заданий с помощью Amazon Elastic MapReduce (Amazon EMR), и он потерпел неудачу по неизвестным причинам. Затем я попытался прервать поток заданий через Консоль управления AWS, но кнопка «Прервать» была отключена. Затем я попытался...
7000 просмотров
schedule
03.02.2023
Векторизация индекса solr с помощью mahout с использованием lucene.vector
Я пытаюсь запустить задание кластеризации в Amazon EMR с помощью Mahout. У меня есть индекс solr, который я загрузил на S3, и я хочу векторизовать его с помощью mahouts lucene.vector (это первый шаг в потоке работы)
Параметры шага следующие:...
809 просмотров
schedule
04.01.2023
Как получить доступ к Hbase, работающему на Amazon EMR, в ruby on rails
Может ли кто-нибудь помочь мне программно подключиться к Hbase (который работает на Amazon EMR) в ruby?
На самом деле, я хочу импортировать массовые данные в таблицу, ориентированную на столбцы Hbase, в Amazon EMR и программно извлекать те же...
942 просмотров
schedule
17.04.2022
Задание Hive прекращается, а запрос execute () остается зависшим
Я использую hive-jdbc-0.7.1-cdh3u5.jar. У меня есть несколько запросов с интенсивным использованием памяти, выполняемых в EMR, которые иногда терпят неудачу. Когда я смотрю на трекер вакансий, я вижу, что запрос был прерван, и вижу следующую ошибку:...
548 просмотров
schedule
07.06.2023
Запуск эластичной потоковой передачи mapreduce на AMI 3.0.1
Попытка запустить потоковое задание с более новым AMI 3.0.1: я получаю такие ошибки, как:
Error: java.lang.RuntimeException: Error in configuring object
...
Caused by: java.io.IOException: Cannot run program...
743 просмотров
schedule
03.01.2023
Запуск заданий MapReduce на AWS-EMR из Eclipse
У меня есть пример WordCount MapReduce в Eclipse. Я экспортировал его в Jar и скопировал на S3. Затем я запустил его на AWS-EMR. Успешно.
Затем я прочитал эту статью —...
526 просмотров
schedule
17.04.2024
Задание Amazon EMR с множеством файлов json в качестве входных данных
Я пишу потоковое приложение Hadoop на python для работы на EMR. Входными данными для задания EMR является каталог файлов в корзине S3, каждый из которых представляет собой файл json, содержащий один объект json. Я хотел бы, чтобы картограф работал с...
203 просмотров
schedule
18.05.2022
Ошибка пространства кучи Java при выполнении задания сходства элементов mahout в Amazon EMR
Я пытаюсь запустить задание сходства элементов mahout на входе, состоящем из ~ 250 миллионов пар (строк) в кластере Amazon EMR (m3.2xLarge, 10 основных узлов). Я столкнулся с ошибкой размера кучи Java при выполнении задания на подобие.
Что я...
550 просмотров
schedule
23.04.2022
Как загрузить дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon EMR
TL;DR
Как я могу загрузить или указать дополнительные файлы JAR для задания потоковой передачи Hadoop в Amazon Elastic MapReduce (Amazon EMR)?
Длинная версия
Я хочу проанализировать набор файлов Avro (> 2000 файлов) с помощью Hadoop...
867 просмотров
schedule
04.08.2023
Apache Pig 0.12.0 на Hue не выполняет предварительную обработку операторов, как ожидалось
Я использую сценарии Hue для PIG на Amazon EMR. Я использую операторы declare и default, как указано в документации.
У меня есть несколько операторов %default и %declare, и похоже, что они не предварительно обработаны в Hue. Поэтому, несмотря...
640 просмотров
schedule
02.03.2024
AWS EMR - шаги
Я запускаю следующий .sh, чтобы запустить команду на AWS с использованием EMR:
aws emr create-cluster --name "Big Matrix Re Run 5" --ami-version 3.1.0 --auto-terminate --log-uri FILE LOCATION --enable-debugging --instance-groups...
1429 просмотров
schedule
09.05.2023
Файл не существует в Amazon EMR, хотя он пытается его загрузить
Я использовал Amazon EMR для создания emr-4.0.0 cluster :
Однако всякий раз, когда я пытаюсь отправить на него искровое приложение, оно терпит неудачу и выдает следующую ошибку:
File does not exist:...
1367 просмотров
schedule
11.04.2023
Ошибка запуска Spark в EMR 4.0
Я создал EMR 4.0 экземпляр в AWS со всеми доступными приложениями, включая Spark . Я делал это вручную, через Консоль AWS. Я запустил кластер и подключился по SSH к главному узлу, когда он был запущен. Там я побежал pyspark . Когда pyspark...
937 просмотров
schedule
24.06.2022
Медленное или неполное сохранение AsParquetFile из EMR Spark в S3
У меня есть фрагмент кода, который создает DataFrame и сохраняет его на S3. Ниже создается DataFrame из 1000 строк и 100 столбцов, заполненных math.Random . Я запускаю это в кластере с 4 x 4_ рабочими узлами и настраиваю много памяти. Я...
899 просмотров
schedule
26.06.2023
Amazon EMR: у Pyspark странные проблемы с зависимостями
У меня возникли проблемы с запуском задания pyspark в кластере EMR, поэтому я вошел в главный узел и запустил spark-submit прямо там.
У меня есть файл Python, который я отправляю в pyspark, и в этом файле у меня есть:
import subprocess
from...
3312 просмотров
schedule
24.09.2022
Как выполнить сценарий оболочки на всех узлах кластера EMR?
Есть ли правильный способ выполнить сценарий оболочки на каждом узле в работающем кластере EMR hadoop?
Все, что я ищу, вызывает действия начальной загрузки, но это относится только к запуску кластера, а не к работающему кластеру.
Мое приложение...
2339 просмотров
schedule
11.07.2022
Запуск свиньи на Tez на Amazon EMR-4
Я пытаюсь запустить свинью на tez на amazon emr 4.5.0. Конфигурация работает без tez, я просто пытаюсь заставить ее работать на Tez.
Для создания кластера (из командной строки) мы используем (TEZ_VERSION определяется как 0.5.2):...
348 просмотров
schedule
27.07.2022
Как вы автоматизируете работу pyspark на emr с помощью boto3 (или иначе)?
Я создаю задание для анализа огромных объемов данных сервера, а затем загружаю их в базу данных Redshift .
Моя работа выглядит следующим образом:
Получите данные журнала из S3
Либо используйте Spark dataframes , либо Spark sql, чтобы...
16120 просмотров
schedule
10.05.2024
Почему мое приложение Spark работает только в одном исполнителе?
Я все еще довольно новичок в Spark, но мне удалось создать приложение Spark, которое мне нужно, чтобы иметь возможность повторно обрабатывать данные с нашего SQL Server с помощью драйверов JDBC (мы удаляем дорогие SP), приложение загружает несколько...
2109 просмотров
schedule
29.10.2022