Q&A

Q1:文本的实体分析目前我们明略识别的准确率是多少?

A1:利用纯粹的自然语言处理技术,人名的识别率能够达到95%,地名也在90%以上,但国内某些小城市的名字比较有特色,如“任城镇”这类,就不容易识别对,如果没有地理信息库的话。

Q2:感觉明略的大数据专家团队女性很少很少,女性在从事这方面工作中有什么样的明显劣势?

A2:女生确实偏少,但我相信后续会越来越多。我们的工作氛围和互联网公司非常像,扁平管理,所有人都能学到和了解到公司的方方面面。胆大心细的女生其实会有更大的机会。

Q3:文本的实体关系分析有成熟的方法论吗?感觉还是在就事论事的阶段。我们都是到plantir在connect方面做的很牛,有可借鉴的地方吗?

A3:我们有自己的NLP开发SDK,但是我们不会把所有问题都使用同样的pipeline来处理。我们非常在意准确率。Palantir的方法其实大家都在猜测,但我们认为足够多的数据以及优秀的人才才是真正的核心。

Q4:实体的识别是根据分词后的词性得到的吗?你提到分词模型要重新训练,所用的训练数据源是怎么得到的,是靠专家的标记么?

A4:实体的识别可以把词性加到特征里面,还可以加入更多的特征。我们所使用的数据源来自于客户,但是并不需要专家来标记。

Q5:老师,我想向大数据发展,怎么开始?

A5:最好的建议是把现有的工作做好,提升内功,然后找机会进入一家大数据公司,比如明略数据。