venik · May 31, 2018 00:13
diff --git a/ForKonstantin.py b/ForKonstantin.py
 import numpy as np
 import numpy.linalg as linalg
 import matplotlib.pyplot as plt

 corpus = []
 corpus.append('I like deep learning')
 corpus.append('I like NLP')
 corpus.append('I enjoy flying')

 word_index = {}
 uniq_words = []
 idx = 0

 # build matrix of corpus words
 for txt in corpus:
    words = txt.split()
    for i in xrange(0, words.__len__()):
        if words[i] not in word_index:
            print('word: ' + words[i] + ' new index: ' + str(idx))
            word_index[words[i]] = idx
            uniq_words.append(words[i])
            idx += 1

 print('================')
 occurances = np.zeros(idx * idx).reshape(idx, idx)
 # build matrix of occurances - window 1
 for txt in corpus:
    words = txt.split()
    print("=> " + txt)
    for i in xrange(0, words.__len__()):
        print('word: ' + words[i] + ' index: ' + str(word_index[words[i]]))
        cur_word_idx = word_index[words[i]]
        if i > 0:
            left_word_idx = word_index[words[i - 1]]
            occurances[cur_word_idx][left_word_idx] += 1

        if i < words.__len__() - 1:
            right_word_idx = word_index[words[i + 1]]
            occurances[cur_word_idx][right_word_idx] += 1
        
        # print('' + str(occurances))

 print ('' + str(occurances))

 # factorization
 U, s, Vh = linalg.svd(occurances, full_matrices=False)
 for i in xrange(len(uniq_words)):
    plt.text(U[i, 0], U[i, 1], uniq_words[i])

 # plt.axis([-10, -10, 10, 10])
 plt.grid()
 plt.ylim([-0.05, 0.95])
 plt.xlim([-1, 0.2])
 plt.show()
	import numpy as np
	import numpy.linalg as linalg
	import matplotlib.pyplot as plt

	corpus = []
	corpus.append('I like deep learning')
	corpus.append('I like NLP')
	corpus.append('I enjoy flying')

	word_index = {}
	uniq_words = []
	idx = 0

	# build matrix of corpus words
	for txt in corpus:
	words = txt.split()
	for i in xrange(0, words.__len__()):
	if words[i] not in word_index:
	print('word: ' + words[i] + ' new index: ' + str(idx))
	word_index[words[i]] = idx
	uniq_words.append(words[i])
	idx += 1

	print('================')
	occurances = np.zeros(idx * idx).reshape(idx, idx)
	# build matrix of occurances - window 1
	for txt in corpus:
	words = txt.split()
	print("=> " + txt)
	for i in xrange(0, words.__len__()):
	print('word: ' + words[i] + ' index: ' + str(word_index[words[i]]))
	cur_word_idx = word_index[words[i]]
	if i > 0:
	left_word_idx = word_index[words[i - 1]]
	occurances[cur_word_idx][left_word_idx] += 1

	if i < words.__len__() - 1:
	right_word_idx = word_index[words[i + 1]]
	occurances[cur_word_idx][right_word_idx] += 1

	# print('' + str(occurances))

	print ('' + str(occurances))

	# factorization
	U, s, Vh = linalg.svd(occurances, full_matrices=False)
	for i in xrange(len(uniq_words)):
	plt.text(U[i, 0], U[i, 1], uniq_words[i])

	# plt.axis([-10, -10, 10, 10])
	plt.grid()
	plt.ylim([-0.05, 0.95])
	plt.xlim([-1, 0.2])
	plt.show()