rdd- все статьи тега


Как найти стандартное отклонение в столбце В RDD в PySpark

У меня есть RDD, и я хочу найти standard deviation в данных, которые являются одним из столбцов RDD. Мой текущий код: def extract(line): # line[11] is the column in which I want to find standard deviation return (line[1],line[2],line[5],line[6],line[8],line[10],line[11]) inputfile1 = sc.textFile('file1.csv').zipWithIndex().filter(lambda (line,rownum): rownum>=0).map(lambda (line, rownum): line) data = (inputfile1 .map(lambda line: line.split(";")) .filter(lambda line: len ...

Apache Spark RDD фильтр на два RDDs

Мне нужно разделить RDD на 2 части: 1 часть, которая удовлетворяет условию; другая часть, которая не удовлетворяет. Я могу сделать filter дважды на оригинальном RDD, но это кажется неэффективным. Есть ли способ сделать то, что мне нужно? Я ничего не могу найти ни в API, ни в литературе. ...

СПАРК - передел() против объединиться()

Согласно учебной Искре Имейте в виду, что перераспределение данных-довольно дорогостоящая операция. Spark также имеет оптимизированную версию функции repartition () под названием coalesce (), которая позволяет избежать перемещения данных, но только при уменьшении числа разделов RDD. Одно отличие, которое я получаю, состоит в том, что с помощью repartition () количество разделов может быть увеличено/уменьшено, но с coalesce () количество разделов может быть только уменьшившийся. Если ра ...

Разница между DataFrame (в Spark 2.0 т. е. DataSet[Row]) и RDD в Spark

мне просто интересно, в чем разница между RDD и DataFrame(Spark 2.0.0 DataFrame - это просто псевдоним типа для Dataset[Row]) в Apache Spark? вы можете конвертировать один в другой? ...

Как работает HashPartitioner?

Я прочитал в документации HashPartitioner. К сожалению, ничего особенного не было объяснено, кроме вызовов API. Я исхожу из предположения, что HashPartitioner разбивает распределенный набор на основе хэша ключей. Например, если мои данные как (1,1), (1,2), (1,3), (2,1), (2,2), (2,3) таким образом, разделитель поместил бы это в разные разделы с одинаковыми ключами, попадающими в один и тот же раздел. Однако я не понимаю значение аргумента конструктора new HashPartitoner(numPartitions) //Wh ...