import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import one_hot
import numpy as np
docs = ['good film',
'bad film',
'girl',
'nice woman',
'Excellent!',
'Weak',
'well done',
'not good',
'a good film',
'it will be the best one']
words_size = 50
encode_docs = [one_hot(word, words_size) for word in docs]
print(encode_docs)
# 由于纬度不相同 最长的为4列
# 继续处理数据
word_max_lenth = 6
word_squence = pad_sequences(encode_docs, word_max_lenth, padding='post')
print(word_squence)
words_size 表示docs 中不重复的单词的一个大概估算的数量 以保证进行独热编码时候数字足够使用代表不同单词
打印编码后的单词后 最长为6个数字长度,所以后面的word——max——lenth设置为了6 比最大的长度短的以0补齐。
网络世界,不加微信QQ手机,留言沟通
发表评论