我一直在使用gate.ac.uk GUI来编写我的数据文本,现在我正在尝试使用它的机器学习模块 . 为了做到这一点,我已经创建了几个xml架构来加载到GATE . 这是一个例子:
<?xml version="1.0"?>
<schema xmlns="http://www.w3.org/2000/10/XMLSchema">
<!-- XSchema definition for Condition -->
<element name="Condition">
<complexType>
<attribute name="attrb_ConditionStatus" use="optional" value="other">
<simpleType>
<restriction base="string">
<enumeration value="value_condition"/>
</restriction>
</simpleType>
</attribute>
</complexType>
</element>
</schema>
我为每个要注释的属性创建了一个类似的模式 . 我将在创建模式后说明我实现的步骤:1 . 我为这些目的加载'Schema Annotation Editor',然后通过'Language Resources'菜单项加载自定义模式 . 我还加载了文件和语料库 . 3.然后我运行Annie 4.我可以在文档5的Annotations选项卡中看到自定义模式 . 我使用自定义注释注释术语
现在我想通过'学习 - 批量学习PR'插件运行机器学习 . 我已将处理资源添加到我的应用程序管道中 . 我的问题是关于机器学习配置文件/模式的创建,我已经搜索了互联网,但无法很好地了解如何正确创建模式 . 我看过各种例子,这是我的尝试:
<?xml version="1.0"?>
<ML-CONFIG>
<VERBOSITY level="1"/>
<SURROUND value="true"/>
<PARAMETER name="thresholdProbabilityEntity" value="0.2"/>
<PARAMETER name="thresholdProbabilityBoundary" value="0.4"/>
<multiClassification2Binary method="one-vs-others"/>
<EVALUATION method="holdout" ratio="0.66"/>
<ENGINE nickname="PAUM" implementationName="PAUM"
options="-p 50 -n 5 -optB 0.3"/>
<DATASET>
<INSTANCE-TYPE>Token</INSTANCE-TYPE>
<ATTRIBUTELIST>
<NAME>ManType</NAME>
<SEMTYPE>NOMINAL</SEMTYPE>
<TYPE>Manufactuer</TYPE>
<FEATURE>category</FEATURE>
<RANGE from="-2" to="2"/>
</ATTRIBUTELIST>
<ATTRIBUTELIST>
<NAME>ModelType</NAME>
<SEMTYPE>NOMINAL</SEMTYPE>
<TYPE>Model</TYPE>
<FEATURE>orth</FEATURE>
<RANGE from="-2" to="2"/>
</ATTRIBUTELIST>
<ATTRIBUTE>
<NAME>Class1</NAME>
<SEMTYPE>NOMINAL</SEMTYPE>
<TYPE>Manufacturer</TYPE>
<FEATURE>majorType</FEATURE>
<POSITION>0</POSITION>
</ATTRIBUTE>
<ATTRIBUTE>
<NAME>Class2</NAME>
<SEMTYPE>NOMINAL</SEMTYPE>
<TYPE>Model</TYPE>
<FEATURE>type</FEATURE>
<POSITION>0</POSITION>
<CLASS/>
</ATTRIBUTE>
</DATASET>
</ML-CONFIG>
我希望机器学习算法学习注释制造商和模型(类型),这也是我通过模式创建的自定义注释 . 我的第一个问题是ml配置结构是否正确?我添加了一个新的Corpus pipelin,添加批处理学习PR流程,选择“评估”模式,然后我在我的培训文档上运行该应用程序 . 这是输出:
The number of threads used is 1
** Evaluation mode started:
Hold-out test: runs=1, ratio of training docs is 0.66
Split, k=1, trainingNum=0.
HOLDOUT Fold 0: (correct, partialCorrect, spurious, missing)= (0.0, 0.0, 0.0, 0.0); (precision, recall, F1)= (0.0, 0.0, 0.0); Lenient: (0.0, 0.0, 0.0)
*** Averaged results for each label over 1 runs as:
Results of single label:
Overall results as:
(correct, partialCorrect, spurious, missing)= (0.0, 0.0, 0.0, 0.0); (precision, recall, F1)= (0.0, 0.0, 0.0); Lenient: (0.0, 0.0, 0.0)
This learning session finished!
输出表明没有正确配置某些内容 - ml配置文件或我为此目的创建的管道线 . 如果有人可以就此事分享一些见解,我将不胜感激 . 再次,我搜索了互联网的高低,并阅读了几个手册和ppt在机器学习gate.ac.uk,但我似乎仍然很模糊 .
关心Ofer