WEO啦

一种基于流形距离的中文语块聚类分析方法 - 中国计算
收录时间:2022-11-25 21:36:34  浏览:0
1 新闻出版重大科技工程项目 1041STC40889 资助 收稿日期 2012 05 31 修回日期 2012 08 15 网络出版时间 网络出版地址 北京大学学报 自然科学版 Acta Scientiarum Naturalium Universitatis Pekinensis 一种基于流形距离的中文语块聚类分析方法 雷霖1 熊伟1 景宁1 肖建夫2 1 国防科学技术大学电子科学与工程学院 长沙 410073 2 长江日报报业集团 武汉 430015 E mail leihema 摘要 将中文语块分析看做词在句子内部聚类并标记语块类别的过程 建立了中文语块分析的聚类模型 首 先构建词的语***能空间 使用 ISOMAP 方法重构词空间的低维流形嵌入 进而考察词在低维空间中的分布 情况 在使用层次聚类方法分析语块时 使用流形上的距离替代传统的欧式距离 在算法复杂度可以接受的 范围内 提高了语块分析效果 关键词 语块分析 流形距离 层次聚类 语***能空间 中图分类号 TP391 A Clustering Chunking Method Based on Manifold Geodesic Distance LEI Lin1 XIONG Wei1 JING Ning1 XIAO Jianfu2 1 College of Electronic Science and Engineering National University of Defense Technology Changsha 410073 2 Changjiang Daily News Group Wuhan 430015 E mail leihema Abstract Regarding the Chinese chunker analysis as a procedure of inner sentence word clustering and chunker type labeling a grammar function space is constructed at first and then embedding the space to a lower dimension space by applying ISOMAP to observe the distribution character of Chinese word in the embedding space In the hierarchical clustering algorithm which is aiming at partitioning word into different clusters the manifold geodesic distance is employed instead of Euclidean distance to measure the similarity between words The algorithm facilitates the increment of Chinese chunker analysis performance under the condition of appropriate algorithm complexity Key words chunker analysis manifold geodesic distance hierarchical clustring grammar function space 中文语块分析 chunking 是浅层句法分析 sha llow parsing 中最主要的任务 1 对机器翻译 信息 检索等自然语言处理具有重要作用 目前对于中文 语块尚未形成公认的权威解释 沿用 Abney 2 的观 点 中文语块 下文皆称语块 是符合一定语***能 的非递归短语 每个语块都有一个中心词 语块内 的所有成分都围绕该中心词展开 任何一种类型的 语块内部不包含其他类型的语块 语块具有以下 3 个特点 1 全覆盖 即将中文句子 下文皆称句子 分 词之后 每个词都属于一个语块 2 无嵌套 即语 块中不包含其他语块 3 无重叠 即没有一个词属 于两个语块 语块的划分大大降低了句子句法解析 的难度 为信息检索 自动翻译和中文智能校对等 多个领域的研究提供基础 目前对于中文语块分析主要采用有监督的序列 标注方法 包括 SVMs CRFs TBL 以及基于记忆的 学习方法 MBL 等 文献 3 对这些方法进行了比较 在相同的数据集 宾州中文树库 4 0 上的实验表明 SVMs 方法在语块识别效果方面优于其他方法 而 采用***方法判定语块标记 可以进一步降低算法 的复杂度 在此基础上 文献 4 提出基于大间隔的 语块分析方法 整体效果优于其他汉语语块分析方 法 与此同时 面向大规模真实语料库 Zhang 等 5 提出一种无监督方法 在大规模 N gram N 取 2 20 中利用快速统计子串约减方法生成语块 使得计算 规模非常大的语块分析方法能够利用现有计算能力 2012 10 26 17 04 北京大学学报 自然科学版 2 实现 如果将 N gram 看做一种统计意义上的词聚 类 与此相类似的 文献 6 也提出利用聚类思想识 别语块 这一方法目的是发现并提取词与语块之间 关系的新特征 称之为词簇 该方法使用含有语法 结构信息的信息熵定义簇间距离 使用了词簇信息 的语块识别系统性能得到了提高 此外 文献 7 将 语块识别问题描述成聚类问题 解决语料库稀疏问 题和特征规模大的问题 验证了聚类方法在该问题 上的有效性 语块的聚类 是一个特征发现和抽取的过程 在大规模真实语料库处理过程中 对词的信息进行 加工 使用高维数据处理方法是无法避免的 利用 降维方法可以发现出数据的分布规律 由于这类数 据并不是全局线性的 很多研究者提出大量的非线 性方法分析数据特征 其中流形学习方法在分析处 理高维数据方面取得了较好的效果 如图像处理 模式识别等领域 在自然语言领域 流形学习也应 用在中文词汇的语义空间分析 8 文本分类 9 等方 面 但是在语法结构学习方面 尚没有出现相关的 研究成果 本文试图挖掘词根据其语***能在数据 空间中的分布 将没有规律可循的词的语***能转 换为具有几何结构的数据集 从而反映词在构成句 子上下文时体现的功能 赋予词除词性特征之外的 高层语法特征 并研究这种规律在浅层语法分析中 的应用 本文首先建立中文语块分析的聚类模型 然后 构造词的语***能空间 并利用流形学习的方法挖 掘高维词空间的低维流形嵌入 给出三维空间中词 根据其语***能的分布 进而使用这种分布规律 使用词在流形上的距离作为聚类结果的度量 对句 子中的词进行聚类 进而获得中文语块 最后 通 过在宾州中文树库 10 上的实验表明 在不使用大规 模统计特性的基础上 验证了其有效性 1 中文语块分析的聚类模型 语块以核心词为中心 句子内的其他词围绕核 心词构成语块的附属成分 形成具有一定语***能 的词序列 语块之间具有明显的间隔 与词的词性 特征类似 语块也具有语块类别标记 本文根据宾 州中文树库 CTB5 提取出的语块类别包括 ADJP ADVP CC DEC DP ETC IJP LCP NP PP QP VP 其中 CC 为 CC 和 CC 或 CC 并 CC 且 CC 而 等连词 DEC 为 DEC 的 DEV 地 DER 得 等 de 字 结构 ETC 为 ETC 等 IJP 为 SP 呢 SP 啊 等虚词结构 LCP 为 LC 前 LC 来 LC 上 LC 里 LC 以后 等介词结构 将句子进行 划分成语块之后 形成如下结构 为了简单起见 省略了标点符号的表示 欧佩克 原油 价格 跌破 了 每 桶 10 美元 大关 而且 仍 在 下滑 NR NN NN VV AS DT M CD M NN CC AD AD VV NP VP DP QP NP CC ADVP VP 语块中核心词的词性决定了语块的类别 如 语块 跌破了 中 跌破 是核心词 由于跌破的词性 为动词 因而语块的类别为 VP 动词语块 从上述 例子看出 找到核心词是语块识别的首要任务 中 文语块识别的聚类分析模型基本思想就是围绕核心 词 考察核心词周围词与核心词之间的关系 将属 于同一语块的词聚合到一起 同时确定语块之间的 边界 如 欧佩克原油价格 中 价格 是核心词 欧 佩克 和 原油 都是附着在核心词 价格 上的限定 成分 与核心词关系更紧密 同时 价格 的词性是 NN 名词 因此语块的类别为 NP 名词语块 跌破 作为描述 价格 动作的成分 在句子结构中起*** 的关键作用 因而不能与 价格 划分为同一语块 而是作为***的语块表征与相邻语块具有同等的语 法地位 按照聚类的思想来考察这个句子 欧佩 克 原油 与 价格 之间在语***能上 距离 更近 聚为同一语块 根据聚类问题的一般描述 11 语块聚类的形式 化描述为 令 12 p Ww ww 为中文句子 由词 序列组成 i w表示第i个词 i 1 n L W为句 子长度 12 ttttqttq CcccL CL Wc 为划分 的语块 使得 1 1 k iti cW 且 titjttitj c cC cc 2 Min proximity Max proximity ti mtj n ww ti xti y ww 其中proximity X Y是表示词间距离 的函数 s t w表示语块s中的第t个词 2 基于流形距离的语块聚类算法 聚类算法中 需要对数据间的距离进行度量 常用的距离度量包括欧氏距离 曼哈顿距离及min kowski距离等 考察词在空间中分布情况 一般的 方法都是将词建模成为由多个变量组成的向量进行 雷霖等 一种基于流形距离的中文语块聚类分析方法 3 分析 构成高维空间 并使用这些距离度量计算词 间距离 这些距离度量的基本假设是数据分布在欧 式空间内 数据之间的距离代表它们在所处空间中 的相似性 但是词的空间分布并不满足欧氏空间假 设 采用欧式距离难以反映它们之间的复杂结构关 系 通过构造词在欧式空间的分布并计算词间距离 进行聚类的方法 无法体现词在所构造空间中的全 局相似性 甚至影响聚类效果 12 流形和流形学习方法为我们提供了一种考察词 在高维空间分布情况及其本质特征的方法 本文通 过构造词的语***能分布空间 不采用传统的欧氏 空间假设 而是基于流形距离的概念 保留空间中 的非线性特征 从词的语***能角度描述其***情 况 重新把握数据的结构 面对词的语***能空间 的高维度特性和词分布的稀疏性 采用流形学习的 方法 通过对高维空间的降维来发现词在该空间中 的低维流形嵌入 从而为词距离的度量提供依据 进而实现基于流形距离的语块聚类分析方法 流形是可以概括地描述为局部处处为欧式空间 的拓扑空间 具有局部可坐标化的特性 从拓扑空 间的一个开集 邻域 到欧式空间的开子集的同胚映 射 使得每个局部可坐标化 流形学习作为一种高 维数据处理方法 其目的是在保持数据全局或局部 特性的基础上 从高维采样数据中恢复低维流形结 构 即找到高维空间中的低维流形嵌入 发现数据 的内在规律 2000年 Science 发表了3篇论文 从 认识上讨论了流性学习 从此之后 流形学习领域 产生了大量研究成果 其中ISOMAP 9 等度规映 射 是一种非常具有代表性的非线性降维方法 ISOMAP的主要思想是利用局部邻域距离近似 计算数据点间的流形测地距离 geodesic distance 通过建立原数据的测地距离与降维空间距离的对等 关系完成数据降维 Isomap算法首先输入基于数据 点之间的欧氏距离 选择近邻点并根据近邻关系构 造加权邻接图G 然后通过计算图上两点间的最短 距离估计测地距离 得到测地距离矩阵DG 最后利 用 G D构造数据的低维嵌入表示 首先 我们借用 ISOMAP和宾州中文树库来研究词在语***能空间 上的分布情况 从而揭示词在这种分布下的相似性 获得聚类算法中距离的含义 2 1 词在语法空间上的分布 词的语***能一直以来是语言学家工作内容之 一 与英文不同 在汉语中 词的使用更具有灵活 性 缺乏英语词语中明显的语***能标识 对其逐 一提取特征并构造基于语法特征的空间是一项难以 完成的任务 但是 如果从将词放在句子上下文中 从其地位功能方面观察 中文句子中词的使用还是 有一定规律可循的 例如 对名词来说 如语块 边 境NN 开放NN 城市NN 如果按照词性来划分 3个词都是名词 从功能 角度来看 城市 在词组合中处于核心地位 边境 和 开放 是对 城市 的限定成分 形成如图1 a 所 示结构 再如语块 社会NN 经济NN 发展NN 其中 发展 处于核心地位 社会 和 经济 用来并 列地限定 发展 如图1 b 所示 宾州中文树库CTB5对词性和一些语***能进 行了标记 却并没有为我们提示词的这些功能 为 了表示词的这种语***能 我们引入依存语法中的 词功能的定义 利用宾州中文树库提取出语块 并 分析词在语块中的功能 根据依存语法理论 词之 间的关系分为附加 修饰等27类 13 其中大部分却 与语块分析任务无关 因此 在词性的基础上 我 们采用词之间的 并列 附加 和 修饰 关系 进一 步提取词在句子上下文中的这些特征 使词在语法 功能分类上的意义更为明确 同时 根据中文采用 依存成分前置 的构句特点 对词进行如下定义 定义1 核心词 在类别为CC的语块中处于 核心地位的词 其词性与语块类别标记相同 表示 为CC C 定义 2 从属词 在类别为CC的语块中产生 修饰 或 附加 等功能的词 表示为CC M 定义3 首词 在类别为CC的语块中处于起始 位置的词 表示为CC I 定义4 ***词 ***构成类别为CC的语块的 词 表示为CC S 根据这些定义 我们对中文树库中的词重新进 行标记 使用对来表示 如 NP C NP I NP M NP S 等 统计词在每种标记下 的数量 从而构造描述词语***能的数据空间 图 1 语块中词功能结构实例 Fig 1 Example of different word grammar functions in chunk 北京大学学报 自然科学版 4 首先从宾州中文树库中提取语块 采用文献 14 中基于规则的语块提取方法进行数据加工 正如前 述例子 边境开放城市 社会经济发展 等语块 词 的功能难以体现 接下来使用依存语法分析工具 构成词的依存结构 采用哈尔滨工业大学HIT LTP 工具 15 中的gparser这一依存句法分析模块 在根据宾州中文树库生成的语块中 首先去除 ***词构成的语块 并对***词标记为CC S 对两 个词构成的语块 如 QP CD 十四 CLP M 个 将CD与CLP合并为QP 并对词分别标记 QP I和 QP C 对其他的由多词构成的语块 使用依存句法 分析工具来确定词的语***能类别 在去除意义相对明确的语块标记 如数词标记 等 之后 生成33类语***能标签 分别为ADJPC ADVPC DPC LCPC NPC PPC VPC CCS QPS ADJPM ADVPM DPM LCPM NPM PPM VPM DECS ADJPI ADVPI DPI LCPI NPI PPI VPI ETCS ADJPS ADVPS DPS LCPS NPS PPS VPS IJPS 由于词的词性 所处语块类别 语块内地位等 不同 每个词对应一个33维的向量 向量的值为该 词赋予的功能类别标签的数量 表示为CCL i w 1233 CCL CCL CCL iii www 其中CCL i k w 表示词 i w在 第k类功能类别标签下的数量 令 k N为k类功能标 签的总数量 对CCL i w归一化 表示为CCL i w 11223333 CCL CCL CCL iii www NNN 在使用ISOMAP算法计算词空间的低维嵌入 时 需要首先计算词之间的距离 这里我们采用欧 式距离来计算 然后构建词距离矩阵 G D 并作为 ISOMAP算法的输入 进而得到词在语***能空间 中的分布情况 为了直观的说明词在空间中的分布 情况 我们从三维空间和二维空间两个角度进行观 察 图2是词空间在三维空间上的投影分布情况 图 3 a 是图2在二维空间中的投影 图3 b 为图3 a 的 局部放大 并进行了标注 图2和图3 a 反映的词空间分布特性表明 高 维的词的语***能空间存在低维流形嵌入 由于词 在语块中分布的稀疏性 一般的词距离算法难以体 现这种特点 而通过流形学习 词在语***能上的 差异被扩大 更容易识别 进而揭示词在语***能 空间上的***效果 在图3 b 中 以 有 到 等词由于其使用特点 与其他词距离差异明显 这 也与通过分析这些词的使用情况得出的结论是一致 的 这些词单独成块的比例高 与其他词之间的联 系相对松散 而 投资 增长 发展 等词 在语 义空间上两者差别很大 但是在功能上 却具有较 高的相似性 在语块中语***能上的统计规律也表 现出这一特点 图 2 词根据语***能在三维空间中的分布 Fig 2 Word distribution in 3 D space according to grammar function 图 3 在二维空间上的投影以及局部放大的词语***能分布 Fig 3 Word distribution in 2 D space and its detailed local magnification 雷霖等 一种基于流形距离的中文语块聚类分析方法 5 2 2 基于流形距离的语块聚类算法 词的低维流形嵌入进一步揭示了词之间的关 系 这种关系不以词性这种硬分类准则为基础 模 糊化兼类词在词性上的差别 着重体现词在构成语 块时的功能 加入了 修饰 依存 附着 等更高 层次的语法概念 解决了统计学习方法***征数量 庞大 提取困难的问题 同时较好地保留了词的差 异性 因此 使用流形距离可以作为距离度量 令 ji D为点 ij x x之间路径的*** 则d ij x x min ij D为两点间的距离测度 显然满足距离测度 的4个条件 对称性 非负性 三角不等式和自反 性 两个词之间的距离越小 它们之间的关联度就 越高 我们将这种关联度定义为 1 d ijij rx x 1 为调节因子 使用聚类方法进行语块分析的目标是使簇内距 离越小越好 而簇间距离越大越好 为了衡量聚类 效果 需要衡量类内距离和类间距离差异的度量准 则 当词聚类到同一个簇中时 该簇与另一个簇之 间的相似度使用两个簇之间的距离之和表示 ip jq pqij wCw C Sr 归一化为 ipij jq pqijij wWwW wW wW Srr W表示全体实例的*** Wp Wq表示划分的词簇 我们采用文献 16 提出的聚类评价准则 2 11 mm pqpp pq JS S 2 该方法是计算在聚类合并时 根据新的数据簇 重新计算 J 当J 的变化超过一定阀值 则表明 簇合并是有效的 且是最优的 常用的聚类算法中 基于 质心 的方法 如K 均值方法等 假设数据分布较为规则 或者划分的 数据子集都符合球形分布 12 但是在语块分析任务 中 由于数据分布并不规则 使用基于 质心 的方 法容易产生聚类稀疏问题 对聚类效果造成影响 针对语块聚类任务中 实例 也就是词 数量规模 小 距离分布稀疏的特点 我们采用一种凝聚层次 聚类方法 层次聚类方法可以发现任意形状的簇 且具有较好的处理噪声的能力 在处理小到中等规 模的数据时 其复杂度也是可以接受的 使用层次 聚类方法分析语块的迭代过程如下 算法 1 语块聚类算法 1 将每个词视为一类 计算初始合并时准则的 变化量 2 找出变化量中的最大值max fg S 如果大于 0 转到4 3 合并导致变化量最大的两个簇 重新计算所 有准则变化量 并执行2 4 算法停止并输出聚类结果 与序列化标注这种语块划分与类别标注一体化 方法不同 采用聚类方法分析语块 首先用聚类算 法将词划分为不同的簇 如 驻京外资金融机构有 意为河南省的经济建设和中国中西部地区的开发做 出贡献 分为如下几个簇 京 外资 金融 机构 经济 建设 开发 贡献 河南省 中国 中西部 地 区 驻 有意 做出 和 为 的 词簇的划分结果与词性类别有一定的联系 如 外资 机构 等 都是一般名词 而 中国 河 南省 是实体名词 而在词的使用上 和 为 的 词性不同 却由于它们距离其他词在功能空间 上较远 划分为一个簇 这样的划分结果并不是说 明 和 为 的 在空间中的绝对距离更近 而是 表明这类词与其他词的距离都较远 因此 使用聚 类算法 一方面体现了词之间的共性 同时还可以 体现出词的差异性 将簇内的词按照句子中的顺序 形成语块 如 上例中 将簇中词按照句子顺序排列 形成词串 驻 京 外资 金融 机构 有意 为 河南 省 的 经济 建设 和 中国 中西部 地 区 的 开发 做出 贡献 其中 外资 金融 机 构 构成一个子簇 对于***的簇 很自然地 单独 构成语块 而对于子簇 需要明确其边界 解决语块 的嵌套问题 如示例中的 外资金融机构 金融机 构 本身可以作为***的语块 本方法利用最长组合 原则 将子簇合并为一个语块 来体现语块的无嵌 套性特点 最终划分成的语块如下 驻 京 外资金 融机构 有意 为 河南省 的 经济 建设 和 中国 中西部地区 的 开发 做出 贡献 2 3 语块类别标记 在确定了语块的边界之后 为了为划分出的语 块标记类别 我们采用统计与规则相结合的方法 1 如果语块由一个词构成 如 有意 VV 贡 献 NN 将由***词构成的语块根据词性规则进行 标记 如 有意 VV 标记为 VP 贡献 NN 标记为 北京大学学报 自然科学版 6 NP 2 对于多个词组成的语块 根据 词性 语块 统计值确定其类别 词性 语块 统计值表明了不 同词性下 语块类别标签的概率 我们选择概率高 的值作为标签类别 其含义是 在某类语块中出现 频率最高的词性在统计意义上决定了语块的类别 3 实验结果与分析 3 1 数据集及评价指标 由于语块识别方面 目前缺乏标准的数据集 我们使用基于宾州中文树库CTB5 0作为基本语料 库 使用SVM与规则相结合的方法 从中抽取语 块 所使用的基本数据见表1 测试的结果采取了 常用的3个评测指标 即准确率 P 召回率 R 和综 合指标F值来评测语块识别的结果 3 因为由于词的语***能分布非常稀疏 而ISO MAP并不是根据词与词 词性与词性之间的共现等 需要更多样本才能获得的统计信息来计算距离 增 加或者减少有限的训练集 对于ISOMAP估算测地 线距离影响不大 而为了测试方法效果 我们也将 树库划分为训练集和测试集 训练集用来计算词的 分布特性 即计算词间距离 为语块的聚类分析提 供基础 3 2 聚类结果和分析 使用ISOMAP算法估计词之间距离时 由于 ISOMAP会产生 短路 现象 即无法测算两点间距 离 因此在式 1 中加入了平滑因子 从 表2可以 看出 词在语***能空间中 彼此距离的分布非常 稀疏 导致计算相似性时 结果对于 取值的敏感 我们通过实验分析经验值 对聚类效果的影响 方 式是检验不同 取值对语块分析效果的影响 当 取10 4 10 5之间的值时 F值接近理想的 效果 而取1 10 3时 由于 值已经大大超过词间 距离 使原本距离较近的词其相似度变化超过一个 数量级 将词间距离平均化 导致聚类算法无法很 好地区别词的特征 精度大大降低 而使用过小的 值 在发生短路时 导致距离无穷小的词 也就 是发生短路的词之间相似性过大 从而导致召回率 的下降 因此 在使用聚类算法进行语块分析时 我 们将 的值设置为0 0006 这一数据更符合词在空 间分布中的统计结果 我们将聚类结果与有监督的SVM方法 文献 6 中使用词聚类特征进行语块分析结果以及文献 7 中的改进K均值方法进行对比 这3种方法分别属 于有监督方法 基于无监督聚类特征的混合方法以 及无监督方法 我们重新在宾州中文树库语块库基 础上进行了测试 比较F值 文献 7 只识别了7种 语块 本文对其中的语块库进行了扩展 文献 6 中 语块分析过程本质是在MEMM方法的特征中加入 预处理的通过聚类获得的词特征 本文在试验中 省略了其中的命名实体识别 仿词识别等步骤 对 宾州树库中的词进行聚类 剪枝参数设置为6 即 64个类别 然后使用MEMM方法进行语块识别 结果见表3 与之前的无监督方法相比 我们的方法在精度 提升上效果并不明显 但在召回率方面取得了 1 7 4 的提升 并使F值得到了提升 与SVM 相比 聚类方法整体性能还有一定差距 但是在某 些类别语块中 也取得了不差于统计学习方法的结 果 如表4所示 由于流形距离包含词的语***能 信息 对于特征明显的词具有较高的识别率和召回 率 如连词 和 而 介词 以 由 等 如词串 和计 算方法等 我们划分的结果为 和 计算方法 等 而没有划分为 计算方法等 在不同类别语块分析结果中 CC DEC ETC LCP PP等类别的语块 分析结果较好 而ADJP IJP VP等类别语块的识别能力却低于平均水平 根 据语料库中语块的统计结果 构成CC ETC等语块 的词数量少 词性构成相对单一 且一般单独构成 表 1 宾州中文树库语料库统计 Table 1 Statistics of CTB5 0 语料库 句子数 语块数 语块类别 词 宾州中文树库 10099 156954 12 240770 训练集 9999 155283 12 220356 测试集 1000 1671 12 20414 表 2 取值对总F值的影响 Table 2 Impact of on F value F 1 41 71 0 1 49 9 0 001 51 04 0 0001 81 18 0 00001 71 45 表 3 与现有方法的实验对比结果 Table 3 Comparasion results of different methods 方法 P R F SVM 91 91 90 19 91 04 改进的 K 均值算法 89 11 83 06 85 98 层次聚类算法 86 75 87 98 87 36 使用词聚类特征 85 04 86 88 85 95 雷霖等 一种基于流形距离的中文语块聚类分析方法 7 语块 这种特征明显的词 在空间中分布较为离散 宏观上 词在空间的分布***在一个相对小的范围 内 这个范围内的词彼此关系更为密切 而离散分 布的各点 往往表示一种***的语***能特点 因 此 这些语块的精度和召回率相对较高 反过来 构成比较复杂的语块 由于受到稀疏性和距离估算 方法的影响 在整体上 落后于CC ETC等语块的 识别效果 这些结果表明 基于聚类的语块识别方 法在一定程度上具有可行性 并且在发现数据内在 规律方面也具有一定的效果 4 结语 本文基于聚类思想处理中文语块分析 为了考 察词在句子构成中的特征 构建词的语***能空间 并利用ISOMAP的方法获得空间的低维流形嵌入 通过对二维 三维空间的观察 可以发现词在低维 流形嵌入中的分布情况 并获得词的流形距离 词 的语块分析过程中 使用词的流形距离作为相似性 度量 在使用基于簇内 簇间距离测度的聚类准则 下 特征明显的中文语块类别 识别情况令人满意 同时 也证明利用聚类方法分析语块的可行性 并 为今后的工作提供改进优化的基础 目前 在名词 语块中 由于未***词 命名实体等语法特征不明 显 难以提高聚类分析效果 本文采用了平滑因子 来解决该问题 但是平滑因子值采用经验值 不能 完全反映词的分布特性 因此设置合适的平滑因子 成为今后研究的一个重要任务 同时 在面对大规 模数据处理时 ISOMAP算法还需要进一步优化 目 前的算法仅考虑了聚类的复杂度 而由于ISOMAP 在利用图上最短距离估计流形距离时复杂度还比较 高 并且出现短路的情况 因此 如何更好地重构 词的语法空间的低维流形嵌入 更直观地表达词的 功能特点也是下一步努力的方向 参考文献 1 宗成庆 统计自然语言处理 北京 清华大学出版 社 2008 2 Abney S Part of speech tagging and partial parsing Church K Young S Bloothooft G Proceedings of the Corpus Based Mathods in Language and Speech An ELSNET Volume Dordrecht Kluwer Academic Publishers 1996 119 136 3 Chen W Zhang Y Isahara H An empirical study of Chinese chunking Proceedings of the COLING ACL on Main Conference Poster Sessions Sydney Associa tion for Computational Linguistics 2006 97 104 4 周俊生 戴新宇 陈家骏 等 基于大间隔方法的 汉语组块分析 软件学报 2009 20 4 870 877 5 Zhang L L X
温馨提示:
1. WEO啦仅展示《一种基于流形距离的中文语块聚类分析方法 - 中国计算》的部分公开内容,版权归原著者或相关公司所有。
2. 文档内容来源于互联网免费公开的渠道,若文档所含内容侵犯了您的版权或隐私,请通知我们立即删除。
3. 当前页面地址:https://www.weo.la/doc/609d6c4bdf2bc227.html 复制内容请保留相关链接。