Firefly Truetype 字体是两个 arphic 宋体的结合体,并嵌入了 9pt,10pt,11pt位图字体。
Unicode 对一些字符的宽度定义比较模糊。软件根据上下文探测字符的宽度。然而,有些时候很难
或者无法获得其上下文。因此,这个 port 修正一些控制台软件,让他们能够识别所有的 Big5 编
码字符为双宽度。现在你可以开心地使用 UTF8 终端和 Big5 字体了 :)
这个 port 为 wcwidth(3) and wcswidth(3) 修正 zh_TW.UTF-8 locale。
gcin 是一个 X 上的 Gtk 中文输入(Gtk Chinese INput)应用程序,对繁体中文(Big5)字
符有良好的支持。
Muni 可以查找列在 Matthews 汉英字典中的 7773 个汉字字符的 Unicode 值。
你输入一个可以在字典中找到的字符,然后它将给你对应的 Unicode 映射,或者告诉你没有找到
匹配的映射。
除了可以输入数字外,你还可以输入一个查询,例如:
% muni
: What is Unicode mapping for "Yung", listed in Matthews' Dictionary
: as character 7589?
- Matthews(7589) = U+6C38
: Thank you. How about 3268, Matthews' number for "Kang"?
- Matthews(3268) = U+525B
: Thank you, Mr. Computer.
: ^D
%
G. Adam Stanislav (a.k.a. Yung Kang)
adam@redprince.net
http://www.redprince.net/
这个模块是 TaBE(Taiwan and Big5 Encoding)类库的 Perl 接口,用来处理中文词语、
短语、句子和注音符号的一个统一接口和类库;它打算用作中文文本处理的基础。
Author: Autrijus <autrijus@autrijus.org>
Lingua::ZH::HanDetect 使用统计学方式测试文本字符串来查看它是繁体还是简体中文,
以及其编码。
如果字符串不包含汉字,编码和变体值都将设置为空字符串。
由于各种编码的汉字所占据的字节不等,因此这个模块显得非常有用,使用 Encode::Guess
是无效的。
这个模块从中文文本中提取关键词,这需要 Lingua::ZH::TaBE 支持。
该模块需要 Lingua::ZH::TaBE,一个中文 Tokenizer;它是 Lingua::ZH::TaBE
的一个封装,也是接口的 utf8 支持的重载。
-- Autrijus Tang
autrijus@autrijus.org