Q&A
Q1:文本的实体分析目前我们明略识别的准确率是多少?
A1:利用纯粹的自然语言处理技术,人名的识别率能够达到95%,地名也在90%以上,但国内某些小城市的名字比较有特色,如“任城镇”这类,就不容易识别对,如果没有地理信息库的话。
Q2:感觉明略的大数据专家团队女性很少很少,女性在从事这方面工作中有什么样的明显劣势?
A2:女生确实偏少,但我相信后续会越来越多。我们的工作氛围和互联网公司非常像,扁平管理,所有人都能学到和了解到公司的方方面面。胆大心细的女生其实会有更大的机会。
Q3:文本的实体关系分析有成熟的方法论吗?感觉还是在就事论事的阶段。我们都是到plantir在connect方面做的很牛,有可借鉴的地方吗?
A3:我们有自己的NLP开发SDK,但是我们不会把所有问题都使用同样的pipeline来处理。我们非常在意准确率。Palantir的方法其实大家都在猜测,但我们认为足够多的数据以及优秀的人才才是真正的核心。
Q4:实体的识别是根据分词后的词性得到的吗?你提到分词模型要重新训练,所用的训练数据源是怎么得到的,是靠专家的标记么?
A4:实体的识别可以把词性加到特征里面,还可以加入更多的特征。我们所使用的数据源来自于客户,但是并不需要专家来标记。
Q5:老师,我想向大数据发展,怎么开始?
A5:最好的建议是把现有的工作做好,提升内功,然后找机会进入一家大数据公司,比如明略数据。