【在python中使用Hadoop处理大型csv文件】教程文章相关的互联网学习教程文章

在python中使用Hadoop处理大型csv文件【代码】

我有一个巨大的CSV文件,我想在Amazon EMR(python)上使用Hadoop MapReduce处理. 该文件有7个字段,但是,我只查看日期和数量字段."date" "receiptId" "productId" "quantity" "price" "posId" "cashierId"首先,我的mapper.pyimport sysdef main(argv):line = sys.stdin.readline()try:while line:list = line.split('\t')#If date meets criteria, add quantity to express keyif int(list[0][11:13])>=17 and int(list[0][11:13])<=...