mapreduce- все статьи тега


mrjob: как в Примере автоматически узнать, как найти строки в текстовом файле?

Я пытаюсь лучше понять пример для mrjob from mrjob.job import MRJob class MRWordFrequencyCount(MRJob): def mapper(self, _, line): yield "chars", len(line) yield "words", len(line.split()) yield "lines", 1 def reducer(self, key, values): yield key, sum(values) if __name__ == '__main__': MRWordFrequencyCount.run() Я управляю им по $ python word_count.py my_file.txt И он работает, как и ожидалось, но я не понимаю, как он автоматически знает, ч ...

Java8: HashMap для HashMap с использованием Stream / Map-Reduce / Collector

Я знаю, как" преобразовать " простой Java List С Y ->Z, например: List<String> x; List<Integer> y = x.stream() .map(s -> Integer.parseInt(s)) .collect(Collectors.toList()); теперь я хотел бы сделать в основном то же самое с картой, т. е.: INPUT: { "key1" -> "41", // "41" and "42" "key2" -> "42 // are Strings } OUTPUT: { "key1" -> 41, // 41 and 42 "key2" -> 42 // are Integers } решение не должно ограничиваться String ...

Цепочка нескольких заданий MapReduce в Hadoop

во многих реальных ситуациях, когда вы применяете MapReduce, конечные алгоритмы заканчиваются несколькими шагами MapReduce. т. е. Map1 , Reduce1 , Map2 , Reduce2 и так далее. таким образом, у вас есть выход из последнего сокращения, который необходим в качестве входных данных для следующей карты. промежуточные данные-это то, что вы (в целом) не хотите хранить после успешного завершения конвейера. Также потому, что эти промежуточные данные в целом некоторые структура данных (например, "карта" ...

Имя узла находится в безопасном режиме. Не в состоянии уйти

root# bin/hadoop fs -mkdir t mkdir: org.apache.hadoop.hdfs.server.namenode.SafeModeException: Cannot create directory /user/root/t. Name node is in safe mode. не в состоянии создать что-либо в hdfs Я root# bin/hadoop fs -safemode leave но показывает safemode: Unknown command в чем проблема? решение ...

Когда начинаются задачи сокращения в Hadoop?

в Hadoop когда начинаются задачи сокращения? Они начинаются после завершения определенного процента (порога) картографов? Если да, то является ли этот порог фиксированным? Какой порог обычно используется? ...

Может ли apache spark работать без hadoop?

существуют ли какие-либо зависимости между Искра и Hadoop? Если нет, есть ли какие-либо функции, которые я пропущу при запуске Искра без Hadoop? ...