2．有效地找到特定类型文本这种蕴含的实体关系_洞见数据之密-QQ阅读男生都市网

2．有效地找到特定类型文本这种蕴含的实体关系

如何找到文本里面的实体关系。这是一个工业界也好，学术界都在持续做的事情，在这里列出来这些步骤，其实主要是想说我们做这个事情，从最开始到逐渐去完善，到最后去结合实际，把事情做到产品级别；

第一步，因为我们是处理中文，分词是必须的，也是最关键的第一步。第二步就是分词之后才会出现所谓的实体，这个实体就是一个字符串，什么样的字符串才是实体，这个我慢慢跟大家分享。

第二步就是关系的提取，这块虽然有各种深度学习的方法，但我们发现是统计的思路依然非常好用。但有一个问题，对于模型训练问题，我们需要巨大的人工。举例来说，你告诉机器1+1等于2一万次，这样下次它遇到的同等情况就会以较大概率猜到1+1等于2。

关系不只限于二元，你和你的亲戚、父母都是二元关系，还有多元关系，我和我的朋友一起去旅游，假如说我们一共有四个人，分别叫张三、李四、王五、刘七，那这个就是所谓的高阶关系。为了处理这些关系，我们除了基于基于统计，还可以利用一些规则的东西。

所有这些做完之后，我们得到了很多的事实，如何把文本本身提取到的实体进一步完善，确认这个实体，这个人名，我怎么确定这个人就是我想找的那个人，而不是重名的人，我们就需要利用知识库来做一些事情。