Публикации по теме elastic-map-reduce [amazon-web-services, hadoop, elastic-map-reduce, java, amazon]

Вопросы по теме 'elastic-map-reduce'

Когда файлы передаются узлам с помощью механизма распределенного кэша в задании потоковой передачи Hadoop, удаляет ли система эти файлы после завершения задания? Если они удалены, как я полагаю, есть ли способ сохранить кеш для нескольких заданий?...

1941 просмотров

amazon-web-services hadoop elastic-map-reduce

23.06.2023

Как сообщить Hadoop, сколько памяти выделить для одного задания картографа?

Я создал задание Elastic MapReduce и пытаюсь оптимизировать его производительность. В данный момент я пытаюсь увеличить количество мапперов на экземпляр. Я делаю это через mapred.tasktracker.map.tasks.maximum=X elastic-mapreduce --create...

3075 просмотров

java hadoop amazon mapreduce elastic-map-reduce

22.11.2022

Минимальные требования к политике AWS для выполнения задания EMR

Я хочу запустить Elastic Mapreduce для данных из корзины S3 com.test.mybucket , используя инфраструктуру MRJob Python. Однако у меня есть много других данных в S3 и других экземплярах EC2, которые я не хочу трогать. Какой минимально возможный набор...

1546 просмотров

amazon-web-services mrjob elastic-map-reduce

05.01.2023

Планирование задания на AWS EC2

У меня есть веб-сайт, работающий на AWS EC2. Мне нужно создать ночное задание, которое создает файл карты сайта и загружает файлы в различные браузеры. Я ищу утилиту на AWS, которая позволяет использовать эту функцию. Я рассмотрел следующее: 1)...

17359 просмотров

amazon-web-services amazon-ec2 cron jobs elastic-map-reduce

25.06.2022

Экспорт таблицы Hive в корзину S3

Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL...

29943 просмотров

amazon-s3 hive elastic-map-reduce emr

03.04.2023

Как разобрать дамп квадроциклов freebase с помощью Amazon mapreduce

Я пытаюсь извлечь информацию о фильме из бесплатной базы, мне просто нужно название фильма, имя и идентификатор режиссера и актеров. Мне было трудно сделать это, используя дампы тем freebases, потому что там нет ссылки на ID директора, только имя...

952 просмотров

mapreduce freebase elastic-map-reduce

22.05.2023

Как прервать / удалить поток заданий в Amazon EMR?

Я создал поток заданий с помощью Amazon Elastic MapReduce (Amazon EMR), и он потерпел неудачу по неизвестным причинам. Затем я попытался прервать поток заданий через Консоль управления AWS, но кнопка «Прервать» была отключена. Затем я попытался...

7000 просмотров

amazon-web-services amazon-s3 command-line-interface amazon-emr elastic-map-reduce

03.02.2023

Почему экземпляры EMR не имеют столько редукторов, сколько преобразователей?

По умолчанию во время задания EMR экземпляры настраиваются на меньшее количество редукторов, чем преобразователей. Но редукторам не дается дополнительной памяти, поэтому кажется, что они должны иметь такое же количество. (Например, очень большие...

1495 просмотров

amazon-web-services reducers hadoop memory elastic-map-reduce

11.05.2023

Почему поток заданий Elastic MapReduce не работает в AWS MapReduce?

Я создал поток заданий в AWS MapReduce, я создал поток заданий контекстной рекламы (скрипт Hive) — сделал «Начать интерактивный сеанс Hive», выбрал экземпляры m1.small, продолжил работу без идентификатора подсети VPC и настроил Hadoop в действиях...

680 просмотров

amazon-ec2 amazon-s3 amazon-iam elastic-map-reduce

16.04.2022

Amazon EMR: настройка хранилища на узлах данных

Я использую Amazon EMR и могу нормально выполнять большинство заданий. У меня возникает проблема, когда я начинаю загружать и генерировать дополнительные данные в кластере EMR. В кластере заканчивается место для хранения. Каждый узел данных...

1669 просмотров

amazon-web-services amazon-ec2 hadoop elastic-map-reduce emr

12.04.2022

Выполнение запросов HIVE непосредственно из входных файлов S3

Я использую Interative Hive Session в Elastice Map Reduce для запуска Hive. Раньше я загружал данные из S3 в таблицы Hive. Теперь я хочу запустить несколько сценариев для входных файлов S3, не загружая данные в таблицы Hive. Возможно ли это? Если...

958 просмотров

amazon-web-services amazon-s3 hive elastic-map-reduce

07.08.2022

Задание Hive/Map-Reduce в кластере Hadoop: как (примерно) рассчитать необходимое дисковое пространство?

следующий вариант использования: Я запускаю запрос улья для данных размером около 500 ГБ со сжатием .gz: select count(distinct c1), c2 from t1 group by c2; Этот запрос приводит к ~2800 заданиям карты и ~400 заданиям сокращения. При...

1758 просмотров

hadoop hdfs hive mapreduce elastic-map-reduce

24.11.2022

Карта Hadoop UniqValueCount и Aggregate Reducer для большого набора данных (1 миллиард записей)

У меня есть набор данных, содержащий примерно 1 миллиард точек данных. Я хочу извлечь из этого около 46 миллионов уникальных точек данных. Я хочу использовать Hadoop для извлечения уникальных значений, но продолжаю получать ошибки «Недостаточно...

1698 просмотров

hadoop mapreduce hadoop-streaming elastic-map-reduce

12.06.2023

Как Hadoop обрабатывает большие файлы?

Я совершенно новичок в Hadoop, хотя я довольно хорошо понимаю концепцию уменьшения карты. Большинство руководств по Hadoop начинаются с примера WordCount. Поэтому я написал простую программу подсчета слов, которая отлично работала. Но затем я...

4841 просмотров

hadoop elastic-map-reduce

07.12.2022

Объект Hadoop DistributedCache изменен во время задания

Я пытаюсь запустить KMeans на AWS и столкнулся со следующим исключением при попытке прочитать обновленные центроиды кластера из DistributedCache: java.io.IOException: The distributed cache object s3://mybucket/centroids_6/part-r-00009 changed...

497 просмотров

java amazon-web-services hadoop mapreduce elastic-map-reduce

27.04.2024

Операция соединения с использованием Hadoop MapReduce

Как объединить два набора записей с помощью Map Reduce? Большинство решений, в том числе опубликованных на SO, предполагают, что я испускаю записи на основе общего ключа, а в редукторе добавляю их, чтобы сказать HashMap, а затем беру перекрестный...

579 просмотров

hadoop mapreduce elastic-map-reduce

28.08.2023

Mapper vs Reducer Время вычислений и влияние на производительность сети Hadoop

Мне нужно сгенерировать n*(n-1)/2 пар кандидатов из списка n кандидатов. Это можно сделать в каждом экземпляре преобразователя или в каждом экземпляре редюсера. Но я заметил, что когда эта операция выполнялась на этапе сокращения, она...

549 просмотров

java performance hadoop mapreduce elastic-map-reduce

17.01.2023

Как я могу отключить спекулятивное выполнение Hadoop из Java

Прочитав спекулятивное выполнение задачи Hadoop , я пытаюсь отключить спекулятивное выполнение с помощью нового Java API, но это не имеет никакого эффекта. Это мой основной класс: public class Main { public static void main(String[] args)...

2018 просмотров

java hadoop speculative-execution elastic-map-reduce

04.07.2023

Как данные секционируются и распределяются между узлами данных в MapReduce?

Я новичок в MapReduce, у меня есть задача обрабатывать большие данные (строки записей). Одна вещь, которую я должен использовать, это номер строки конкретной записи в моем преобразователе, а затем редюсер обрабатывает информацию о номере строки на...

306 просмотров

python hadoop mapreduce elastic-map-reduce

18.03.2023

Запуск заданий MapReduce на AWS-EMR из Eclipse

У меня есть пример WordCount MapReduce в Eclipse. Я экспортировал его в Jar и скопировал на S3. Затем я запустил его на AWS-EMR. Успешно. Затем я прочитал эту статью —...

526 просмотров

java jar amazon-emr mapreduce elastic-map-reduce

17.04.2024