收藏   订阅   蔚来影讯
你现在的位置:首页 » 业余爱好 » 正文

影视正负面评论数据预处理为向量的方法:one_hot pad_squences举例

时间:2019年09月13日 22:14:28 | 作者 :老马 | 分类 : 业余爱好 | 浏览:864 | 评论:0
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.preprocessing.text import one_hot
import numpy as np

docs = ['good film',
        'bad film',
        'girl',
        'nice woman',
        'Excellent!',
        'Weak',
        'well done',
        'not good',
        'a good film',
        'it will be the best one']
words_size = 50
encode_docs = [one_hot(word, words_size) for word in docs]
print(encode_docs)
# 由于纬度不相同 最长的为4列
# 继续处理数据
word_max_lenth = 6
word_squence = pad_sequences(encode_docs, word_max_lenth, padding='post')
print(word_squence)
words_size 表示docs 中不重复的单词的一个大概估算的数量 以保证进行独热编码时候数字足够使用代表不同单词
打印编码后的单词后 最长为6个数字长度,所以后面的word——max——lenth设置为了6 比最大的长度短的以0补齐。


上一篇:tensorflow库自动求导函数GradientTape使用 下一篇:关于 pad_Sequence embedding用法 (未完待更新)
本站致力于揭露全国影视投资诈骗案件 避免更多老百姓受骗上当
经历分享 请投稿

网络世界,不加微信QQ手机,留言沟通

发表评论

必填

回复后邮件通知

客服会联系您

◎欢迎参与讨论,聆听心声,下滑更多影视投资诈骗相关内容。

栏目
文章归档
标签列表