summaryrefslogtreecommitdiff
path: root/README.cn
blob: eb7f7a9bf1768f17bafdf4aff29fc77f76e92e08 (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
If you read this file _as_is_, just ignore the funny characters you
see. It is written in the POD format (see perlpod manpage) which is
specially designed to be readable as is.

The following documentation is written in EUC-CN encoding.

?绻?你用一般的文字编辑器阅览这份文档, 请忽略文中奇特的注记字符. 这份文
件是以 POD (简明文档格式) 写成; 这种格式是为了能?萌酥苯佣寥《乇鹕杓?
的. 关于此格式的进一步资讯, 请参考 perlpod 线上文档.

=head1 NAME

perlcn - 简体中文 Perl 指南

=head1 DESCRIPTION

欢迎来到 Perl 的天地!

从 5.8.0 版开始, Perl 具备了详尽的 Unicode (统一码) 支援, 也连带支援了
许多拉丁语系以外的编码方式; CJK (中?蘸?) 便是其中的一部份. Unicode 是
国际性的标准, 试图涵盖世界上所有的字符: 西方世界, 东方世界, 以及两者间
的一切 (希腊文, 叙利亚文, 阿拉伯文, 希伯来文, 印度文, 印地安文, 等等).
它也?菽闪硕嘀肿饕迪低秤肫教? (?? PC 及麦金塔).

Perl 本身以 Unicode 进行操作. 这表示 Perl 内部的字串资料可用 Unicode
表示, Perl 的函式与算符 (例?缯?规表示式比对) 也能对 Unicode 进行操作.
在输?爰笆涑鍪?, 为了处理以 Unicode 之前的编码方式储存的资料, Perl 提供
了「Encode」这个模块, 可以?媚闱嵋椎囟寥〖靶慈刖捎械谋嗦胱柿?.

Encode 延伸模块支援下列简体中文的编码方式:

    euc-cn	Unix 延伸字符集, 也就是俗称的国标码
    gb2312	未经处理的 (低比特) GB2312 字符表
    gb12345	未经处理的中国用繁体中文编码
    iso-ir-165	GB2312 + GB6345 + GB8565 + 新增字符
    cp936	字码页 936, 也称为 GBK (扩充国标码)
    hz		7 比特逸出式 GB2312 编码

举例来说, 将 euc-cn 编码的档案转成 Unicode, 祗需键?胂铝兄噶?:

    perl -Mencoding=euc-cn,STDOUT,utf8 -pe1 < file.euc-cn > file.utf8

Perl 也内附了「piconv」, 一支完?? Perl 写成的字符转换工具程序, 用法
?缦?:

    piconv -f euc-cn -t utf8 < file.euc-cn > file.utf8
    piconv -f utf8 -t euc-cn < file.utf8 > file.euc-cn

另外, 利用 encoding 模块, 你可以轻易写出以字符为单位的程序码, ?缦滤?:

    #!/usr/bin/env perl
    # 启动 euc-cn 字串解析; 标准输出?爰氨曜即砦蠖忌栉? euc-cn 编码
    use encoding 'euc-cn', STDIN => 'euc-cn',
			   STDOUT => 'euc-cn', STDERR => 'euc-cn';

    print length("骆驼");	     #  2 (双引号表示字符)
    print length('骆驼');	     #  4 (单引号表示字节)
    print index("谆谆教诲", "蛔唤"); # -1 (不包含此子字串)
    print index('谆谆教诲', '蛔唤'); #  1 (从第二个字节开始)

=head2 额外的中文编码

?绻?需要更多的中文编码, 可以从 CPAN (L<http://www.cpan.org/>) 下载
Encode::HanExtra 模块. 它目前提供下列编码方式:

    gb18030	扩充过的国标码, 包含繁体中文

另外, Encode::HanConvert 模块则提供了简繁转换用的两种编码:

    gbk-trad	GBK 简体中文与 Unicode 繁体中文互转
    big5-simp	Big5 繁体中文与 Unicode 简体中文互转

?粝朐? GBK 与 Big5 之间互转, 请参考该模块内附的 b2g.pl 与 g2b.pl 两
支程序.

=head2 进一步的资讯

请参考 Perl 内附的大量说明文档 (不幸?怯糜?文写的) , 来学习更多关于
Perl 的知识, 以及 Unicode 的使用方式. 不过, 外部的资源相当丰富:

=head2 提供 Perl 资源的网址

=over 4

=item L<http://www.perl.com/>

Perl 的首页 (由欧莱礼公司维护)

=item L<http://www.cpan.org/>

Perl 综合典藏网 (Comprehensive Perl Archive Network)

=item L<http://lists.perl.org/>

Perl 邮递论坛一览

=back

=head2 学习 Perl 的网址

=over 4

=item L<http://www.oreilly.com.cn/html/perl.html>

简体中文版的欧莱礼 Perl 书藉

=back

=head2 Perl 使用者集会

=over 4

=item L<http://www.pm.org/groups/asia.shtml#China>

中国 Perl 推广组一览

=back

=head2 Unicode 相关网址

=over 4

=item L<http://www.unicode.org/>

Unicode 学术学会 (Unicode 标准的制定者)

=item L<http://www.cl.cam.ac.uk/%7Emgk25/unicode.html>

Unix/Linux 上的 UTF-8 及 Unicode 答客问

=back

=head1 AUTHORS

Jarkko Hietaniemi E<lt>jhi@iki.fiE<gt>

唐宗汉 E<lt>autrijus@autrijus.orgE<gt>

=cut