• 微信公众号:美女很有趣。 工作之余,放松一下,关注即送10G+美女照片!

08 分布式计算MapReduce–词频统计

开发技术 开发技术 3小时前 1次浏览

def getText():
txt=open("D:\test.txt","r").read()
txt=txt.lower()
punctuation = r"""!"#$%&'()*+,-./:;<=>?@[]^_`{|}~“”?,!【】()、。:;’‘……·"""
for ch in punctuation:
txt=txt.replace(ch,"")
return txt

hamletTxt=getText()
words=hamletTxt.split()
counts={}
for word in words:
counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(100):
word,count=items[i]
print("{0:<10}{1:>5}".format(word,count))

程序员灯塔
转载请注明原文链接:08 分布式计算MapReduce–词频统计
喜欢 (0)