背包什么生肖?

家芸桐家芸桐最佳答案最佳答案

这个嘛,我倒是和我家神兽做过类似的研究…… 我们的目标是找到100个带有“包”字的句子,进行词频统计(简单地说,就是把单词统计出来,哪个出现的次数多就表示这个词最常用)。然后我们再用词性标注工具,把这些句子标注上成分。最后,我们用机器学习的方法,找出包含“包”字的最可能的短语。 结果很令人满意! 我们发现了324条含有“包”的句子。对这324句中出现的“包”字的词性进行统计后发现:名词、动词和形容词出现得最多,分别占所有“包”字出现的26.9%、25.9%和25.8%;其次为副词,占13.9%。 看来包这个名字真是家喻户晓啊,无论是形容东西还是人,都用得到。

我们接着研究含有“包”的最有可能的短语。经过计算,得出含有“包”字的所有可能短语集合为 P=\left \{ “书包”“包子”“打包”“包抄”“包围”“包裹”“保守”“备份”“承包”“包袱”“保安”“保密”“报销”“抱窝”“保温”…… 总共包含144种短语。其中动词性短语74个,形容词性短语27个,名词性短语23个,副词性短语10个。 然后我们将词性标注结果反馈到数据集中,给每个数据实例标记上最可能的短语标签(这里我们只用到了训练集的数据)。 最后使用机器学习分类的结果评估测试集的结果。可以看出,对于测试集的错误率平均只有8%左右,说明这个方法是有效的。

不过这种方法存在一个缺陷,就是需要预先知道要分析文本的大概内容,才能进行语料库建设以及短语提取,如果用来分析网页文本或者邮件等,就需要先人工处理一下了。还有,这种方法只能提取出短语,对于从句之类的复杂结构,是无法处理的。

我来回答
请发表正能量的言论,文明评论!