<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>格物致知 &#187; 中文分词</title>
	<atom:link href="http://leeing.org/category/nature-language-processing/%e4%b8%ad%e6%96%87%e5%88%86%e8%af%8d-nature-language-processing/feed/" rel="self" type="application/rss+xml" />
	<link>http://leeing.org</link>
	<description>keep Thinking</description>
	<lastBuildDate>Fri, 04 Nov 2011 16:20:46 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.1.4</generator>
		<item>
		<title>MMSEG 中文分词算法</title>
		<link>http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/#utm_source=feed&#038;utm_medium=feed&#038;utm_campaign=feed</link>
		<comments>http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/#comments</comments>
		<pubDate>Sun, 01 Nov 2009 13:25:18 +0000</pubDate>
		<dc:creator>leeing</dc:creator>
				<category><![CDATA[中文分词]]></category>
		<category><![CDATA[自然语言处理]]></category>
		<category><![CDATA[MMSEG]]></category>
		<category><![CDATA[NLP]]></category>

		<guid isPermaLink="false">http://leeing.org/?p=15</guid>
		<description><![CDATA[由于学习需要，我尝试翻译MMSEG算法，目前处于初稿状态，很许多地方的翻译仍不尽准确，在以下几天会加以修改。 算法原文位于：http://technology.chtsai.org/mmseg/ MMSEG ：一个基于最大匹配算法的两种变体的中文单词识别系统 发表日期: 1996-04-29 更新日期: 1998-03-06 文档更新: 2000-03-12 许可: 非商业使用情况下免费 Copyright © 1996-2006 Chih-Hao Tsai (Email: hao520@yahoo.com) 摘要 中文文本在计算分析中一个问题是中文文本在印刷时缺少单词的边界，由于单词是一个基本的语义单元，因此有必要识别中文文本的单词以让进一步的处理可以进行。这份论文的目的是开发一个基于最大匹配算法的两种变体的中文单词识别系统，这个系统由一个词典，两种匹配算法，以及四种歧义消解规则组成。在一个由1013个单词组成的样本中，这个系统的正确识别率达到98.41%，本文也会对这个系统可能潜在的应用加以讨论。 介绍 正如Hung and Tzeng (1981) 和 DeFrancis (1984) 指出，中文书写系统同时以语素和音节来映射到口语中，因此，汉字在书面语中是区分的，从另一个方面来说，按照惯例，单词的边界在中文的印刷和书写中是缺失的。 单词识别过程中的难点 由于单词是一个基本的语言单位，因而有必要对中文文本的单词进行区分以让计算分析和处理中文文本能够进行。然而，在单词识别过程中有一些难点： 首先，几乎所有的汉字都可能是一个单字的单词。进一步地，它们能与其它汉字组成多字的单词，这就导致了大量的分词歧义。其次，在现代中文中，合成词是一种居主导地位的造词方案。经常很难区分一个低频率的合成词是一个单词还是一个短语；区分固有单词也会为一个问题。最后， 一些特定的形态结构例如重复和 ” A 不 A ” 也需要加以考虑。 若不是一些例外情况（例如e.g. Huang, Ahrens, &#38; Chen, 1993; Sproat and Shih, 1990），大部份的单词识别方法共享一种常见的算法（例如，Chen &#38; Liu, 1992; Fan &#38; [...]


No related posts.]]></description>
		<wfw:commentRss>http://leeing.org/2009/11/01/mmseg-chinese-segmentation-algorithm/feed/</wfw:commentRss>
		<slash:comments>12</slash:comments>
		</item>
	</channel>
</rss>

