Update tables to Unicode 6.0.0.

git-svn-id: svn://vcs.exim.org/pcre/code/trunk@592 2f5784b3-3f2a-0410-8824-cb99058d5e15
author: ph10 <ph10@2f5784b3-3f2a-0410-8824-cb99058d5e15> 2011-04-30 17:37:37 +0000
committer: ph10 <ph10@2f5784b3-3f2a-0410-8824-cb99058d5e15> 2011-04-30 17:37:37 +0000
commit: 581c595062293fc2ef6ea53d3fa1ab11917d9a9b (patch)
tree: d93283b5d47d0054f8e4919266eea0e8c0e2696f /pcre_tables.c
parent: 9dbc13fcc3ef37e97291ee849c50fa578719030a (diff)
download: pcre-581c595062293fc2ef6ea53d3fa1ab11917d9a9b.tar.gz
1 files changed, 147 insertions, 138 deletions
diff --git a/pcre_tables.c b/pcre_tables.c
index b1fba85..7c07686 100644
--- a/pcre_tables.c
+++ b/pcre_tables.c
@@ -110,7 +110,7 @@ table itself. Maintenance is more error-prone, but frequent changes to this
 data are unlikely.
 
 July 2008: There is now a script called maint/GenerateUtt.py that can be used
-to generate this data instead of maintaining it entirely by hand.
+to generate this data automatically instead of maintaining it by hand.
 
 The script was updated in March 2009 to generate a new EBCDIC-compliant
 version. Like all other character and string literals that are compared against
@@ -123,8 +123,10 @@ strings to make sure that UTF-8 support works on EBCDIC platforms. */
 #define STRING_Avestan0 STR_A STR_v STR_e STR_s STR_t STR_a STR_n "\0"
 #define STRING_Balinese0 STR_B STR_a STR_l STR_i STR_n STR_e STR_s STR_e "\0"
 #define STRING_Bamum0 STR_B STR_a STR_m STR_u STR_m "\0"
+#define STRING_Batak0 STR_B STR_a STR_t STR_a STR_k "\0"
 #define STRING_Bengali0 STR_B STR_e STR_n STR_g STR_a STR_l STR_i "\0"
 #define STRING_Bopomofo0 STR_B STR_o STR_p STR_o STR_m STR_o STR_f STR_o "\0"
+#define STRING_Brahmi0 STR_B STR_r STR_a STR_h STR_m STR_i "\0"
 #define STRING_Braille0 STR_B STR_r STR_a STR_i STR_l STR_l STR_e "\0"
 #define STRING_Buginese0 STR_B STR_u STR_g STR_i STR_n STR_e STR_s STR_e "\0"
 #define STRING_Buhid0 STR_B STR_u STR_h STR_i STR_d "\0"
@@ -186,6 +188,7 @@ strings to make sure that UTF-8 support works on EBCDIC platforms. */
 #define STRING_Lydian0 STR_L STR_y STR_d STR_i STR_a STR_n "\0"
 #define STRING_M0 STR_M "\0"
 #define STRING_Malayalam0 STR_M STR_a STR_l STR_a STR_y STR_a STR_l STR_a STR_m "\0"
+#define STRING_Mandaic0 STR_M STR_a STR_n STR_d STR_a STR_i STR_c "\0"
 #define STRING_Mc0 STR_M STR_c "\0"
 #define STRING_Me0 STR_M STR_e "\0"
 #define STRING_Meetei_Mayek0 STR_M STR_e STR_e STR_t STR_e STR_i STR_UNDERSCORE STR_M STR_a STR_y STR_e STR_k "\0"
@@ -253,15 +256,17 @@ strings to make sure that UTF-8 support works on EBCDIC platforms. */
 #define STRING_Zp0 STR_Z STR_p "\0"
 #define STRING_Zs0 STR_Z STR_s "\0"
 
-const char _pcre_utt_names[] =
+const char _pcre_utt_names[] = 
   STRING_Any0
   STRING_Arabic0
   STRING_Armenian0
   STRING_Avestan0
   STRING_Balinese0
   STRING_Bamum0
+  STRING_Batak0
   STRING_Bengali0
   STRING_Bopomofo0
+  STRING_Brahmi0
   STRING_Braille0
   STRING_Buginese0
   STRING_Buhid0
@@ -323,6 +328,7 @@ const char _pcre_utt_names[] =
   STRING_Lydian0
   STRING_M0
   STRING_Malayalam0
+  STRING_Mandaic0
   STRING_Mc0
   STRING_Me0
   STRING_Meetei_Mayek0
@@ -390,142 +396,145 @@ const char _pcre_utt_names[] =
   STRING_Zp0
   STRING_Zs0;
 
-const ucp_type_table _pcre_utt[] = {
-  {   0, PT_ANY, 0 },
-  {   4, PT_SC, ucp_Arabic },
-  {  11, PT_SC, ucp_Armenian },
-  {  20, PT_SC, ucp_Avestan },
-  {  28, PT_SC, ucp_Balinese },
-  {  37, PT_SC, ucp_Bamum },
-  {  43, PT_SC, ucp_Bengali },
-  {  51, PT_SC, ucp_Bopomofo },
-  {  60, PT_SC, ucp_Braille },
-  {  68, PT_SC, ucp_Buginese },
-  {  77, PT_SC, ucp_Buhid },
-  {  83, PT_GC, ucp_C },
-  {  85, PT_SC, ucp_Canadian_Aboriginal },
-  { 105, PT_SC, ucp_Carian },
-  { 112, PT_PC, ucp_Cc },
-  { 115, PT_PC, ucp_Cf },
-  { 118, PT_SC, ucp_Cham },
-  { 123, PT_SC, ucp_Cherokee },
-  { 132, PT_PC, ucp_Cn },
-  { 135, PT_PC, ucp_Co },
-  { 138, PT_SC, ucp_Common },
-  { 145, PT_SC, ucp_Coptic },
-  { 152, PT_PC, ucp_Cs },
-  { 155, PT_SC, ucp_Cuneiform },
-  { 165, PT_SC, ucp_Cypriot },
-  { 173, PT_SC, ucp_Cyrillic },
-  { 182, PT_SC, ucp_Deseret },
-  { 190, PT_SC, ucp_Devanagari },
-  { 201, PT_SC, ucp_Egyptian_Hieroglyphs },
-  { 222, PT_SC, ucp_Ethiopic },
-  { 231, PT_SC, ucp_Georgian },
-  { 240, PT_SC, ucp_Glagolitic },
-  { 251, PT_SC, ucp_Gothic },
-  { 258, PT_SC, ucp_Greek },
-  { 264, PT_SC, ucp_Gujarati },
-  { 273, PT_SC, ucp_Gurmukhi },
-  { 282, PT_SC, ucp_Han },
-  { 286, PT_SC, ucp_Hangul },
-  { 293, PT_SC, ucp_Hanunoo },
-  { 301, PT_SC, ucp_Hebrew },
-  { 308, PT_SC, ucp_Hiragana },
-  { 317, PT_SC, ucp_Imperial_Aramaic },
-  { 334, PT_SC, ucp_Inherited },
-  { 344, PT_SC, ucp_Inscriptional_Pahlavi },
-  { 366, PT_SC, ucp_Inscriptional_Parthian },
-  { 389, PT_SC, ucp_Javanese },
-  { 398, PT_SC, ucp_Kaithi },
-  { 405, PT_SC, ucp_Kannada },
-  { 413, PT_SC, ucp_Katakana },
-  { 422, PT_SC, ucp_Kayah_Li },
-  { 431, PT_SC, ucp_Kharoshthi },
-  { 442, PT_SC, ucp_Khmer },
-  { 448, PT_GC, ucp_L },
-  { 450, PT_LAMP, 0 },
-  { 453, PT_SC, ucp_Lao },
-  { 457, PT_SC, ucp_Latin },
-  { 463, PT_SC, ucp_Lepcha },
-  { 470, PT_SC, ucp_Limbu },
-  { 476, PT_SC, ucp_Linear_B },
-  { 485, PT_SC, ucp_Lisu },
-  { 490, PT_PC, ucp_Ll },
-  { 493, PT_PC, ucp_Lm },
-  { 496, PT_PC, ucp_Lo },
-  { 499, PT_PC, ucp_Lt },
-  { 502, PT_PC, ucp_Lu },
-  { 505, PT_SC, ucp_Lycian },
-  { 512, PT_SC, ucp_Lydian },
-  { 519, PT_GC, ucp_M },
-  { 521, PT_SC, ucp_Malayalam },
-  { 531, PT_PC, ucp_Mc },
-  { 534, PT_PC, ucp_Me },
-  { 537, PT_SC, ucp_Meetei_Mayek },
-  { 550, PT_PC, ucp_Mn },
-  { 553, PT_SC, ucp_Mongolian },
-  { 563, PT_SC, ucp_Myanmar },
-  { 571, PT_GC, ucp_N },
-  { 573, PT_PC, ucp_Nd },
-  { 576, PT_SC, ucp_New_Tai_Lue },
-  { 588, PT_SC, ucp_Nko },
-  { 592, PT_PC, ucp_Nl },
-  { 595, PT_PC, ucp_No },
-  { 598, PT_SC, ucp_Ogham },
-  { 604, PT_SC, ucp_Ol_Chiki },
-  { 613, PT_SC, ucp_Old_Italic },
-  { 624, PT_SC, ucp_Old_Persian },
-  { 636, PT_SC, ucp_Old_South_Arabian },
-  { 654, PT_SC, ucp_Old_Turkic },
-  { 665, PT_SC, ucp_Oriya },
-  { 671, PT_SC, ucp_Osmanya },
-  { 679, PT_GC, ucp_P },
-  { 681, PT_PC, ucp_Pc },
-  { 684, PT_PC, ucp_Pd },
-  { 687, PT_PC, ucp_Pe },
-  { 690, PT_PC, ucp_Pf },
-  { 693, PT_SC, ucp_Phags_Pa },
-  { 702, PT_SC, ucp_Phoenician },
-  { 713, PT_PC, ucp_Pi },
-  { 716, PT_PC, ucp_Po },
-  { 719, PT_PC, ucp_Ps },
-  { 722, PT_SC, ucp_Rejang },
-  { 729, PT_SC, ucp_Runic },
-  { 735, PT_GC, ucp_S },
-  { 737, PT_SC, ucp_Samaritan },
-  { 747, PT_SC, ucp_Saurashtra },
-  { 758, PT_PC, ucp_Sc },
-  { 761, PT_SC, ucp_Shavian },
-  { 769, PT_SC, ucp_Sinhala },
-  { 777, PT_PC, ucp_Sk },
-  { 780, PT_PC, ucp_Sm },
-  { 783, PT_PC, ucp_So },
-  { 786, PT_SC, ucp_Sundanese },
-  { 796, PT_SC, ucp_Syloti_Nagri },
-  { 809, PT_SC, ucp_Syriac },
-  { 816, PT_SC, ucp_Tagalog },
-  { 824, PT_SC, ucp_Tagbanwa },
-  { 833, PT_SC, ucp_Tai_Le },
-  { 840, PT_SC, ucp_Tai_Tham },
-  { 849, PT_SC, ucp_Tai_Viet },
-  { 858, PT_SC, ucp_Tamil },
-  { 864, PT_SC, ucp_Telugu },
-  { 871, PT_SC, ucp_Thaana },
-  { 878, PT_SC, ucp_Thai },
-  { 883, PT_SC, ucp_Tibetan },
-  { 891, PT_SC, ucp_Tifinagh },
-  { 900, PT_SC, ucp_Ugaritic },
-  { 909, PT_SC, ucp_Vai },
-  { 913, PT_ALNUM, 0 },
-  { 917, PT_PXSPACE, 0 },
-  { 921, PT_SPACE, 0 },
-  { 925, PT_WORD, 0 },
-  { 929, PT_SC, ucp_Yi },
-  { 932, PT_GC, ucp_Z },
-  { 934, PT_PC, ucp_Zl },
-  { 937, PT_PC, ucp_Zp },
-  { 940, PT_PC, ucp_Zs }
+const ucp_type_table _pcre_utt[] = { 
+  {   0, PT_ANY, 0 }, 
+  {   4, PT_SC, ucp_Arabic }, 
+  {  11, PT_SC, ucp_Armenian }, 
+  {  20, PT_SC, ucp_Avestan }, 
+  {  28, PT_SC, ucp_Balinese }, 
+  {  37, PT_SC, ucp_Bamum }, 
+  {  43, PT_SC, ucp_Batak }, 
+  {  49, PT_SC, ucp_Bengali }, 
+  {  57, PT_SC, ucp_Bopomofo }, 
+  {  66, PT_SC, ucp_Brahmi }, 
+  {  73, PT_SC, ucp_Braille }, 
+  {  81, PT_SC, ucp_Buginese }, 
+  {  90, PT_SC, ucp_Buhid }, 
+  {  96, PT_GC, ucp_C }, 
+  {  98, PT_SC, ucp_Canadian_Aboriginal }, 
+  { 118, PT_SC, ucp_Carian }, 
+  { 125, PT_PC, ucp_Cc }, 
+  { 128, PT_PC, ucp_Cf }, 
+  { 131, PT_SC, ucp_Cham }, 
+  { 136, PT_SC, ucp_Cherokee }, 
+  { 145, PT_PC, ucp_Cn }, 
+  { 148, PT_PC, ucp_Co }, 
+  { 151, PT_SC, ucp_Common }, 
+  { 158, PT_SC, ucp_Coptic }, 
+  { 165, PT_PC, ucp_Cs }, 
+  { 168, PT_SC, ucp_Cuneiform }, 
+  { 178, PT_SC, ucp_Cypriot }, 
+  { 186, PT_SC, ucp_Cyrillic }, 
+  { 195, PT_SC, ucp_Deseret }, 
+  { 203, PT_SC, ucp_Devanagari }, 
+  { 214, PT_SC, ucp_Egyptian_Hieroglyphs }, 
+  { 235, PT_SC, ucp_Ethiopic }, 
+  { 244, PT_SC, ucp_Georgian }, 
+  { 253, PT_SC, ucp_Glagolitic }, 
+  { 264, PT_SC, ucp_Gothic }, 
+  { 271, PT_SC, ucp_Greek }, 
+  { 277, PT_SC, ucp_Gujarati }, 
+  { 286, PT_SC, ucp_Gurmukhi }, 
+  { 295, PT_SC, ucp_Han }, 
+  { 299, PT_SC, ucp_Hangul }, 
+  { 306, PT_SC, ucp_Hanunoo }, 
+  { 314, PT_SC, ucp_Hebrew }, 
+  { 321, PT_SC, ucp_Hiragana }, 
+  { 330, PT_SC, ucp_Imperial_Aramaic }, 
+  { 347, PT_SC, ucp_Inherited }, 
+  { 357, PT_SC, ucp_Inscriptional_Pahlavi }, 
+  { 379, PT_SC, ucp_Inscriptional_Parthian }, 
+  { 402, PT_SC, ucp_Javanese }, 
+  { 411, PT_SC, ucp_Kaithi }, 
+  { 418, PT_SC, ucp_Kannada }, 
+  { 426, PT_SC, ucp_Katakana }, 
+  { 435, PT_SC, ucp_Kayah_Li }, 
+  { 444, PT_SC, ucp_Kharoshthi }, 
+  { 455, PT_SC, ucp_Khmer }, 
+  { 461, PT_GC, ucp_L }, 
+  { 463, PT_LAMP, 0 }, 
+  { 466, PT_SC, ucp_Lao }, 
+  { 470, PT_SC, ucp_Latin }, 
+  { 476, PT_SC, ucp_Lepcha }, 
+  { 483, PT_SC, ucp_Limbu }, 
+  { 489, PT_SC, ucp_Linear_B }, 
+  { 498, PT_SC, ucp_Lisu }, 
+  { 503, PT_PC, ucp_Ll }, 
+  { 506, PT_PC, ucp_Lm }, 
+  { 509, PT_PC, ucp_Lo }, 
+  { 512, PT_PC, ucp_Lt }, 
+  { 515, PT_PC, ucp_Lu }, 
+  { 518, PT_SC, ucp_Lycian }, 
+  { 525, PT_SC, ucp_Lydian }, 
+  { 532, PT_GC, ucp_M }, 
+  { 534, PT_SC, ucp_Malayalam }, 
+  { 544, PT_SC, ucp_Mandaic }, 
+  { 552, PT_PC, ucp_Mc }, 
+  { 555, PT_PC, ucp_Me }, 
+  { 558, PT_SC, ucp_Meetei_Mayek }, 
+  { 571, PT_PC, ucp_Mn }, 
+  { 574, PT_SC, ucp_Mongolian }, 
+  { 584, PT_SC, ucp_Myanmar }, 
+  { 592, PT_GC, ucp_N }, 
+  { 594, PT_PC, ucp_Nd }, 
+  { 597, PT_SC, ucp_New_Tai_Lue }, 
+  { 609, PT_SC, ucp_Nko }, 
+  { 613, PT_PC, ucp_Nl }, 
+  { 616, PT_PC, ucp_No }, 
+  { 619, PT_SC, ucp_Ogham }, 
+  { 625, PT_SC, ucp_Ol_Chiki }, 
+  { 634, PT_SC, ucp_Old_Italic }, 
+  { 645, PT_SC, ucp_Old_Persian }, 
+  { 657, PT_SC, ucp_Old_South_Arabian }, 
+  { 675, PT_SC, ucp_Old_Turkic }, 
+  { 686, PT_SC, ucp_Oriya }, 
+  { 692, PT_SC, ucp_Osmanya }, 
+  { 700, PT_GC, ucp_P }, 
+  { 702, PT_PC, ucp_Pc }, 
+  { 705, PT_PC, ucp_Pd }, 
+  { 708, PT_PC, ucp_Pe }, 
+  { 711, PT_PC, ucp_Pf }, 
+  { 714, PT_SC, ucp_Phags_Pa }, 
+  { 723, PT_SC, ucp_Phoenician }, 
+  { 734, PT_PC, ucp_Pi }, 
+  { 737, PT_PC, ucp_Po }, 
+  { 740, PT_PC, ucp_Ps }, 
+  { 743, PT_SC, ucp_Rejang }, 
+  { 750, PT_SC, ucp_Runic }, 
+  { 756, PT_GC, ucp_S }, 
+  { 758, PT_SC, ucp_Samaritan }, 
+  { 768, PT_SC, ucp_Saurashtra }, 
+  { 779, PT_PC, ucp_Sc }, 
+  { 782, PT_SC, ucp_Shavian }, 
+  { 790, PT_SC, ucp_Sinhala }, 
+  { 798, PT_PC, ucp_Sk }, 
+  { 801, PT_PC, ucp_Sm }, 
+  { 804, PT_PC, ucp_So }, 
+  { 807, PT_SC, ucp_Sundanese }, 
+  { 817, PT_SC, ucp_Syloti_Nagri }, 
+  { 830, PT_SC, ucp_Syriac }, 
+  { 837, PT_SC, ucp_Tagalog }, 
+  { 845, PT_SC, ucp_Tagbanwa }, 
+  { 854, PT_SC, ucp_Tai_Le }, 
+  { 861, PT_SC, ucp_Tai_Tham }, 
+  { 870, PT_SC, ucp_Tai_Viet }, 
+  { 879, PT_SC, ucp_Tamil }, 
+  { 885, PT_SC, ucp_Telugu }, 
+  { 892, PT_SC, ucp_Thaana }, 
+  { 899, PT_SC, ucp_Thai }, 
+  { 904, PT_SC, ucp_Tibetan }, 
+  { 912, PT_SC, ucp_Tifinagh }, 
+  { 921, PT_SC, ucp_Ugaritic }, 
+  { 930, PT_SC, ucp_Vai }, 
+  { 934, PT_ALNUM, 0 }, 
+  { 938, PT_PXSPACE, 0 }, 
+  { 942, PT_SPACE, 0 }, 
+  { 946, PT_WORD, 0 }, 
+  { 950, PT_SC, ucp_Yi }, 
+  { 953, PT_GC, ucp_Z }, 
+  { 955, PT_PC, ucp_Zl }, 
+  { 958, PT_PC, ucp_Zp }, 
+  { 961, PT_PC, ucp_Zs } 
 };
 
 const int _pcre_utt_size = sizeof(_pcre_utt)/sizeof(ucp_type_table);
author	ph10 <ph10@2f5784b3-3f2a-0410-8824-cb99058d5e15>	2011-04-30 17:37:37 +0000
committer	ph10 <ph10@2f5784b3-3f2a-0410-8824-cb99058d5e15>	2011-04-30 17:37:37 +0000
commit	581c595062293fc2ef6ea53d3fa1ab11917d9a9b (patch)
tree	d93283b5d47d0054f8e4919266eea0e8c0e2696f /pcre_tables.c
parent	9dbc13fcc3ef37e97291ee849c50fa578719030a (diff)
download	pcre-581c595062293fc2ef6ea53d3fa1ab11917d9a9b.tar.gz