Вопросы по теме 'elastic-map-reduce'

Жизнь распределенного кеша в Hadoop
Когда файлы передаются узлам с помощью механизма распределенного кэша в задании потоковой передачи Hadoop, удаляет ли система эти файлы после завершения задания? Если они удалены, как я полагаю, есть ли способ сохранить кеш для нескольких заданий?...
1941 просмотров

Как сообщить Hadoop, сколько памяти выделить для одного задания картографа?
Я создал задание Elastic MapReduce и пытаюсь оптимизировать его производительность. В данный момент я пытаюсь увеличить количество мапперов на экземпляр. Я делаю это через mapred.tasktracker.map.tasks.maximum=X elastic-mapreduce --create...
3075 просмотров

Минимальные требования к политике AWS для выполнения задания EMR
Я хочу запустить Elastic Mapreduce для данных из корзины S3 com.test.mybucket , используя инфраструктуру MRJob Python. Однако у меня есть много других данных в S3 и других экземплярах EC2, которые я не хочу трогать. Какой минимально возможный набор...
1546 просмотров

Планирование задания на AWS EC2
У меня есть веб-сайт, работающий на AWS EC2. Мне нужно создать ночное задание, которое создает файл карты сайта и загружает файлы в различные браузеры. Я ищу утилиту на AWS, которая позволяет использовать эту функцию. Я рассмотрел следующее: 1)...
17359 просмотров

Экспорт таблицы Hive в корзину S3
Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL...
29943 просмотров
schedule 03.04.2023

Как разобрать дамп квадроциклов freebase с помощью Amazon mapreduce
Я пытаюсь извлечь информацию о фильме из бесплатной базы, мне просто нужно название фильма, имя и идентификатор режиссера и актеров. Мне было трудно сделать это, используя дампы тем freebases, потому что там нет ссылки на ID директора, только имя...
952 просмотров
schedule 22.05.2023

Как прервать / удалить поток заданий в Amazon EMR?
Я создал поток заданий с помощью Amazon Elastic MapReduce (Amazon EMR), и он потерпел неудачу по неизвестным причинам. Затем я попытался прервать поток заданий через Консоль управления AWS, но кнопка «Прервать» была отключена. Затем я попытался...
7000 просмотров

Почему экземпляры EMR не имеют столько редукторов, сколько преобразователей?
По умолчанию во время задания EMR экземпляры настраиваются на меньшее количество редукторов, чем преобразователей. Но редукторам не дается дополнительной памяти, поэтому кажется, что они должны иметь такое же количество. (Например, очень большие...
1495 просмотров

Почему поток заданий Elastic MapReduce не работает в AWS MapReduce?
Я создал поток заданий в AWS MapReduce, я создал поток заданий контекстной рекламы (скрипт Hive) — сделал «Начать интерактивный сеанс Hive», выбрал экземпляры m1.small, продолжил работу без идентификатора подсети VPC и настроил Hadoop в действиях...
680 просмотров

Amazon EMR: настройка хранилища на узлах данных
Я использую Amazon EMR и могу нормально выполнять большинство заданий. У меня возникает проблема, когда я начинаю загружать и генерировать дополнительные данные в кластере EMR. В кластере заканчивается место для хранения. Каждый узел данных...
1669 просмотров

Выполнение запросов HIVE непосредственно из входных файлов S3
Я использую Interative Hive Session в Elastice Map Reduce для запуска Hive. Раньше я загружал данные из S3 в таблицы Hive. Теперь я хочу запустить несколько сценариев для входных файлов S3, не загружая данные в таблицы Hive. Возможно ли это? Если...
958 просмотров

Задание Hive/Map-Reduce в кластере Hadoop: как (примерно) рассчитать необходимое дисковое пространство?
следующий вариант использования: Я запускаю запрос улья для данных размером около 500 ГБ со сжатием .gz: select count(distinct c1), c2 from t1 group by c2; Этот запрос приводит к ~2800 заданиям карты и ~400 заданиям сокращения. При...
1758 просмотров

Карта Hadoop UniqValueCount и Aggregate Reducer для большого набора данных (1 миллиард записей)
У меня есть набор данных, содержащий примерно 1 миллиард точек данных. Я хочу извлечь из этого около 46 миллионов уникальных точек данных. Я хочу использовать Hadoop для извлечения уникальных значений, но продолжаю получать ошибки «Недостаточно...
1698 просмотров

Как Hadoop обрабатывает большие файлы?
Я совершенно новичок в Hadoop, хотя я довольно хорошо понимаю концепцию уменьшения карты. Большинство руководств по Hadoop начинаются с примера WordCount. Поэтому я написал простую программу подсчета слов, которая отлично работала. Но затем я...
4841 просмотров
schedule 07.12.2022

Объект Hadoop DistributedCache изменен во время задания
Я пытаюсь запустить KMeans на AWS и столкнулся со следующим исключением при попытке прочитать обновленные центроиды кластера из DistributedCache: java.io.IOException: The distributed cache object s3://mybucket/centroids_6/part-r-00009 changed...
497 просмотров

Операция соединения с использованием Hadoop MapReduce
Как объединить два набора записей с помощью Map Reduce? Большинство решений, в том числе опубликованных на SO, предполагают, что я испускаю записи на основе общего ключа, а в редукторе добавляю их, чтобы сказать HashMap, а затем беру перекрестный...
579 просмотров
schedule 28.08.2023

Mapper vs Reducer Время вычислений и влияние на производительность сети Hadoop
Мне нужно сгенерировать n*(n-1)/2 пар кандидатов из списка n кандидатов. Это можно сделать в каждом экземпляре преобразователя или в каждом экземпляре редюсера. Но я заметил, что когда эта операция выполнялась на этапе сокращения, она...
549 просмотров

Как я могу отключить спекулятивное выполнение Hadoop из Java
Прочитав спекулятивное выполнение задачи Hadoop , я пытаюсь отключить спекулятивное выполнение с помощью нового Java API, но это не имеет никакого эффекта. Это мой основной класс: public class Main { public static void main(String[] args)...
2018 просмотров

Как данные секционируются и распределяются между узлами данных в MapReduce?
Я новичок в MapReduce, у меня есть задача обрабатывать большие данные (строки записей). Одна вещь, которую я должен использовать, это номер строки конкретной записи в моем преобразователе, а затем редюсер обрабатывает информацию о номере строки на...
306 просмотров

Запуск заданий MapReduce на AWS-EMR из Eclipse
У меня есть пример WordCount MapReduce в Eclipse. Я экспортировал его в Jar и скопировал на S3. Затем я запустил его на AWS-EMR. Успешно. Затем я прочитал эту статью —...
526 просмотров