Papaass · January 11, 2019 17:32
diff --git a/bag_of_words_fr.py b/bag_of_words_fr.py
 import numpy as np
 from nltk import word_tokenize

 corpus = ["La vie est courte mais la vie peut paraître longue","La nuit est proche"]

 #definir deux phrases du corpus
 phrase_1 = "La vie est courte mais la vie peut paraître longue"
 phrase_2 = "La nuit est proche"

 # fonction retournant un vocabulaire
 def vocabulary(corpus):
    voc = []
    for sentence in corpus:
        words = word_tokenize(sentence.lower())
        voc.extend(words)
        
    voc_clean= []
    for w in voc: 
        if w not in voc_clean: 
            voc_clean.append(w)
    return voc_clean


 # fonction retournant un sac de mots 
 def bagofwords(sentence,corpus):
    vocab = vocabulary(corpus)
    sentence_words  = words = word_tokenize(sentence.lower())
    bag_of_words = np.zeros(len(vocab))
    for w_in_sentence in sentence_words :
        for i,w in enumerate(vocab) : 
            if w == w_in_sentence : 
                bag_of_words[i] += 1
    return bag_of_words
diff --git a/phrase1.py b/phrase1.py
 print(bagofwords(phrase_1,corpus))
diff --git a/phrase_2.py b/phrase_2.py
 print(bagofwords(phrase_2,corpus))
	import numpy as np
	from nltk import word_tokenize

	corpus = ["La vie est courte mais la vie peut paraître longue","La nuit est proche"]

	#definir deux phrases du corpus
	phrase_1 = "La vie est courte mais la vie peut paraître longue"
	phrase_2 = "La nuit est proche"

	# fonction retournant un vocabulaire
	def vocabulary(corpus):
	voc = []
	for sentence in corpus:
	words = word_tokenize(sentence.lower())
	voc.extend(words)

	voc_clean= []
	for w in voc:
	if w not in voc_clean:
	voc_clean.append(w)
	return voc_clean


	# fonction retournant un sac de mots
	def bagofwords(sentence,corpus):
	vocab = vocabulary(corpus)
	sentence_words = words = word_tokenize(sentence.lower())
	bag_of_words = np.zeros(len(vocab))
	for w_in_sentence in sentence_words :
	for i,w in enumerate(vocab) :
	if w == w_in_sentence :
	bag_of_words[i] += 1
	return bag_of_words