Ronaldo Widholzer: Mineração de Texto com Python

Criei minha nuvem de palavras a partir da minha dissertação de mestrado, com mais de 10.000 palavras., Tive problema em mudar a linguagem do Inglês (padrão) para o português;

# coding: latin1
import matplotlib.pyplot as plt
import nltk
from nltk.corpus import PlaintextCorpusReader
from nltk.corpus import stopwords
from matplotlib.colors import ListedColormap
from wordcloud import WordCloud
import os, nltk.test

corpus = PlaintextCorpusReader('Arquivos', ".*")
testdir = os.path.split(nltk.test.__file__)[0]
text = open(os.path.join(testdir, 'Disertacao.txt'), 'rb').read().decode('ISO 8859-1')
#coding: latin-1
#for fileid in corpus.fileids():
# print (type(fileid))
# print (fileid.encode('ascii'))
#corpus = corpus.decode('utf8')
#arquivos = corpus.fileids()
palavras = corpus.words()
len(palavras)
todo_texto= corpus.raw()
#excepitons_tutorial.py
stops = stopwords.words('english')
mapa_cores = ListedColormap(['orange', 'green', 'red', 'magenta'])
nuvem = WordCloud(background_color = 'white', colormap = mapa_cores, stopwords = stops, max_words = 100)
nuvem.generate(todo_texto)
plt.imshow(nuvem)

Ronaldo Widholzer

segunda-feira, 12 de agosto de 2019

Mineração de Texto com Python

Nenhum comentário:

Postar um comentário