NLP自然语言处理API
情感分析
一件事情给人造成正负面情感影响, 将会促使人进行相应的行动, 因此具有预测性.
百度的API分析情感还是比较准确的.只是只能分析2048个字符, 换成汉字就只有1024个.
百度多实体情感倾向分析可以在文章中分析不同实体的情感倾向.目前邀测阶段. 可以分析娱乐/财经/体育类型, 输入包括标题和正文, 正文可达6000字节.
判断两段文本说的是「同一件事情」
某一件事情第一次出现是新闻, 第二次就不是了. 所以怎么判断第二次说的和第一次的是同一件事情?
知乎上有个问题是问这个的, 答案有这么几种:
- 语义匹配
- 语义角色标注(SRL, semantic role labelling)
百度API有短文本相似度, 最大512字节. 似乎不能判断英文和中文的相似度, 不过对中文判断似乎还好. 如"笔记本"和"膝上型电脑"相似度为0.70, 与"手提电脑"相似度为0.60, 与"手机"相似度为0.36,判断还算正确.
还有词义相似度, 最大64字节.
但对于文章相似度分析还差得很远.
另一个思路, 从文章中抽取高频关键词, 看关键词是否有一致的.