影视剧字幕是什么?
还记得上一篇文章《基于美剧字幕做聊天机器人方案》讲的吗?影视剧字幕是一个很好的聊天语料,所以经过我近半个月的努力,获取了3000多万影视剧字幕语料,有了这份语料,我们可以实现一个自己的聊天机器人了
如何训练这个聊天机器人呢?
为了说明语料的用途,我先用一个最简单的方法来应用到我的聊天机器人,我们暂且不用机器学习,更不用深度学习,我们先用一个最简单的方法:搜索引擎。原理就是:我们假设影视剧字幕里后一句是前一句最好的回答,所以假设一个字幕有以下句子构成:曝光20明星大尺度床戏 真实堪比不雅视频图
(sentence1, sentence2, sentence3, sentence4)
那么我们在搜索引擎里建这样的索引:
field1, field2
sentence1,sentence2
sentence2,sentence3
sentence3,sentence4
那么当我搜索field1时,我们就给回复field2
当然这里对field1的搜索我们是要考虑相关性的,相关性越高,结果越好
提供检索服务
为了能使用这份索引,我们需要建设一个检索服务,支持http协议访问,然后我们通过网站后端php来访问这个服务,并从返回的结果中选出排序最优的那个作为回答,具体效果就像是:
我: 早上好
小二兔: 你也醒了
我: 是啊,睡得怎么样
小二兔: 你要问我什么吗 瑞恩
我把这个聊天机器人叫做小二兔,发布在了www.shareditor.com/chatbot/,欢迎把玩
效果怎样?
这样的机器人毕竟比较简单,回答的结果差强人意,有时候驴唇不对马嘴,接下来就是继续改善算法的时候了,我会参考一些自动问答相关的论文来完善这里面的算法,让它逐渐产生智能,希望大家多多关注交流
娱乐圈中被包养的女星数不胜数,包养男人的女星也数不胜数,但是很多女星被包养后还死 ...
讲到女性做爱至高潮算得上是一件很神秘的事情,因为男女之间的区别,男性在高潮时伴有 ...
近日,一美国19岁女孩在图书馆里面不管不顾公众场所,公然自慰事件引起了网友们的关注 ...
昨天,院长写了一篇关于电影《大只佬》的原版解析。这部当年囊括23届金像奖多个奖项的 ...
据韩国媒体日刊体育报道,《RunningMan》改版,金钟国被裁,宋智孝也被节目组抛弃。宋 ...