Публикации по теме 'emr'


Применение машинного обучения в здравоохранении
Основные моменты декабрьской встречи Bots & AI Meetup: «Прикладное машинное обучение в здравоохранении» Приложения машинного обучения в здравоохранении пользовались большим успехом у аудитории Нью-Йорка. По крайней мере 130 восторженных посетителей присоединились к мероприятию Bots and AI 10 декабря, когда толпа простиралась далеко в дальний конец комнаты. Люси Хе из Flatiron Health начала вечер с изучения влияния машинного обучения на выбор когорт медицинских исследований...

Вопросы по теме 'emr'

Экспорт таблицы Hive в корзину S3
Я создал таблицу Hive с помощью интерактивного сеанса Elastic MapReduce и заполнил ее из файла CSV следующим образом: CREATE TABLE csvimport(id BIGINT, time STRING, log STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; LOAD DATA LOCAL...
29943 просмотров
schedule 03.04.2023

Amazon EMR: настройка хранилища на узлах данных
Я использую Amazon EMR и могу нормально выполнять большинство заданий. У меня возникает проблема, когда я начинаю загружать и генерировать дополнительные данные в кластере EMR. В кластере заканчивается место для хранения. Каждый узел данных...
1669 просмотров

Как заставить Amazon EMR использовать S3 для ввода и вывода
Как заставить Amazon EMR (0.20.205 MapR) использовать корзины S3 для ввода и вывода? Я попытался добавить следующее в XML-файл основной конфигурации (через действия начальной загрузки): <property>...
844 просмотров
schedule 23.03.2023

Задание Hive прекращается, а запрос execute () остается зависшим
Я использую hive-jdbc-0.7.1-cdh3u5.jar. У меня есть несколько запросов с интенсивным использованием памяти, выполняемых в EMR, которые иногда терпят неудачу. Когда я смотрю на трекер вакансий, я вижу, что запрос был прерван, и вижу следующую ошибку:...
548 просмотров
schedule 07.06.2023

EMR (Elastic Map Reduce) и не EMR (EC2-Hadoop)
В чем разница между запуском заданий на EMR или на некоторых инстансах EC2, на которых они установили Hadoop, с точки зрения производительности. Я знаю, что ключевое отличие заключается в том, что выполнение заданий с помощью EMR намного проще, но...
279 просмотров
schedule 31.07.2022

Как уменьшить количество выходных файлов в Apache Hive
Кто-нибудь знает инструмент, который может «сжимать» выходные файлы Apache Hadoop в меньшее количество файлов или в один файл. В настоящее время я загружаю все файлы на локальный компьютер и объединяю их в один файл. Кто-нибудь знает API или...
6305 просмотров
schedule 02.05.2022

Масштаб для Elastic MapReduce (EMR)?
Я оцениваю EC2/ EMR для запуска ~ Кластер Hadoop из 20 узлов. ( пользовательский кластер JAR ) . Я запустил простой пример WordCount на локальном экземпляре VMWare с тактовой частотой 3,3 ГГц и 2 ГБ ОЗУ с одним узлом, выполнение которого заняло...
392 просмотров
schedule 10.07.2022

Apache Giraph на EMR
Кто-нибудь пробовал Apache Giraph на EMR? Мне кажется, что единственным требованием для работы в EMR является добавление правильных сценариев начальной загрузки в конфигурацию потока заданий. Тогда мне просто нужно использовать стандартный шаг...
1094 просмотров
schedule 07.05.2023

Amazon Elastic MapReduce завершает действия начальной загрузки на главном узле, но зависает на основных узлах
Я запускаю задание Amazon Elastic MapReduce (EMR) на 1 главном узле и 25 основных узлах. Действия начальной загрузки завершаются на главном узле, но зависают на основных узлах. Затем сообщается, что ~ 5000 (из 5200) задач, составляющих шаг карты,...
188 просмотров

Как позволить EMR сначала выполнить клиентскую банку
Поскольку hadoop 1.0.3 не поддерживает распаковку bzip2, я скопировал те же классы из hadoop 2.2 в свой проект, но мой проект (или мы называем его jar) все еще работает в кластере hadoop 1.0.3. Я обнаружил, что Hadoop все еще выполняет классы из...
320 просмотров
schedule 01.10.2022

Ошибка начальной загрузки Hue при установке с помощью AWS EMR с Boto
С выпуском AMI 3.3.0 AWS поддерживает Hue как устанавливаемое «приложение» в EMR, например Hive/Pig. Используя веб-интерфейс EMR, создание кластера с Hue у меня работает нормально, однако при добавлении действия начальной загрузки установки Hue через...
855 просмотров
schedule 01.12.2022

Pyspark --py-файлы не работает
Я использую это, как предлагает документ http://spark.apache.org/docs/1.1.1/submitting-applications.html спсарк версия 1.1.0 ./spark/bin/spark-submit --py-files /home/hadoop/loganalysis/parser-src.zip \ /home/hadoop/loganalysis/ship-test.py...
35621 просмотров
schedule 18.07.2023

Кластер EMR hadoop (MRv2) максимально загружен на 80%. Как получить оставшиеся 20%?
Я использую Elastic MapReduce (Hadoop 2.0 с YARN) на AWS. Конфигурация следующая: 10 x g2.2xlarge core instances with 15GB of RAM and 8 CPU cores yarn.nodemanager.vmem-check-enabled=false yarn.scheduler.minimum-allocation-mb=2048...
1752 просмотров
schedule 15.07.2023

Администрирование AWS EMR Hadoop
В настоящее время мы используем Apache Hadoop (ванильная версия) в нашей организации. Мы планируем перейти на AWS EMR. Я пытаюсь понять, как AWS EMR Hadoop работает внутри (а не как его использовать), меня в основном интересуют шаги...
606 просмотров
schedule 21.07.2023

Пример использования HBase в EMR
Я читал документацию по AWS, но вопрос все еще неясен. Является ли S3 основным хранилищем кластера EMR? или все же данные в EC2, а S3 это всего лишь копия? В документе: «HBase в Amazon EMR предоставляет возможность резервного копирования...
1275 просмотров

Загрузка собственных модулей Python для пользовательских функций Pig в Amazon EMR
Я пытаюсь вызвать два моих собственных модуля из Pig. Вот module_one.py: import sys print sys.path def foo(): pass Вот module_two.py: from module_one import foo def bar(): foo() Я получил их обоих в s3. Вот что я...
364 просмотров
schedule 13.07.2022

запустить mrjob на Amazon EMR, t2.micro не поддерживается
Я пробовал запустить скрипт mrjob на Amazon EMR. Он работал хорошо, когда я использовал экземпляр c1.medium, однако у меня была ошибка, когда я изменил instnace на t2.micro. Полное сообщение об ошибке показано ниже. C: \ Users \ Administrator...
364 просмотров
schedule 25.02.2023

Загрузить файл из Интернета прямо в мою корзину S3
Я работаю с EMR (Elastic MapReduce) в инфраструктуре AWS, и способ по умолчанию предоставлять входные файлы (большие наборы данных) для программ — загружать их в корзину S3 и ссылаться на эти корзины из EMR. Обычно я загружаю наборы данных на...
775 просмотров
schedule 07.11.2022

Файл не существует в Amazon EMR, хотя он пытается его загрузить
Я использовал Amazon EMR для создания emr-4.0.0 cluster : Однако всякий раз, когда я пытаюсь отправить на него искровое приложение, оно терпит неудачу и выдает следующую ошибку: File does not exist:...
1367 просмотров

как найти JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar
Практикую видеоурок от множественного числа про Amazon EMR. Я застрял, так как не могу продолжить, так как получаю эту ошибку Not a valid JAR: /home/hadoop/contrib/streaming/hadoop-streaming.jar Обратите внимание, что учебник устарел и...
12922 просмотров
schedule 03.09.2022