From 8908641f90436dc62bed2fd341aeeb0bf9d1667b Mon Sep 17 00:00:00 2001 From: "dsites@google.com" Date: Mon, 29 Jul 2013 00:37:13 +0000 Subject: [PATCH] Update a couple of comments git-svn-id: https://cld2.googlecode.com/svn/trunk@47 b252ecd4-b096-bf77-eb8e-91563289f87e --- internal/cld2_unittest.cc | 72 ++------------------------------------- 1 file changed, 3 insertions(+), 69 deletions(-) diff --git a/internal/cld2_unittest.cc b/internal/cld2_unittest.cc index ea74e12..05af85f 100644 --- a/internal/cld2_unittest.cc +++ b/internal/cld2_unittest.cc @@ -38,71 +38,6 @@ const char* kTeststr_en = "of all are brought jurors or"; -// UTF8 constants. Use a UTF-8 aware editor for this file -#ifndef avoid_utf8_string_constants -const char* kTeststr_ks = - "नेपाल एसिया " - "मंज अख मुलुक" - " राजधानी काठ" - "माडौं नेपाल " - "अधिराज्य पेर" - "ेग्वाय " - "दक्षिण अमेरि" - "का महाद्वीपे" - " मध् यक्षेत्" - "रे एक देश अस" - "् ति फणीश्वर" - " नाथ रेणु " - "फिजी छु दक्ष" - "िण प्रशान् त" - " महासागर मंज" - " अख देश बहाम" - "ास छु केरेबि" - "यन मंज " - "अख मुलुख राज" - "धानी नसौ सम्" - " बद्घ विषय ब" - "ुरुंडी अफ्री" - "का महाद्वीपे" - " मध् " - "यक्षेत्रे दे" - "श अस् ति सम्" - " बद्घ विषय"; - -#else - -const char* kTeststr_ks = - - "\xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xB2 \xE0\xA4\x8F\xE0\xA4\xB8\xE0\xA4\xBF\xE0\xA4\xAF\xE0\xA4\xBE " - "\xE0\xA4\xAE\xE0\xA4\x82\xE0\xA4\x9C \xE0\xA4\x85\xE0\xA4\x96 \xE0\xA4\xAE\xE0\xA5\x81\xE0\xA4\xB2\xE0\xA5\x81\xE0\xA4\x95" - " \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA4\xA7\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x80 \xE0\xA4\x95\xE0\xA4\xBE\xE0\xA4\xA0" - "\xE0\xA4\xAE\xE0\xA4\xBE\xE0\xA4\xA1\xE0\xA5\x8C\xE0\xA4\x82 \xE0\xA4\xA8\xE0\xA5\x87\xE0\xA4\xAA\xE0\xA4\xBE\xE0\xA4\xB2 " - "\xE0\xA4\x85\xE0\xA4\xA7\xE0\xA4\xBF\xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C\xE0\xA5\x8D\xE0\xA4\xAF \xE0\xA4\xAA\xE0\xA5\x87\xE0\xA4\xB0" - "\xE0\xA5\x87\xE0\xA4\x97\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA4\xBE\xE0\xA4\xAF " - "\xE0\xA4\xA6\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA4\xBF\xE0\xA4\xA3 \xE0\xA4\x85\xE0\xA4\xAE\xE0\xA5\x87\xE0\xA4\xB0\xE0\xA4\xBF" - "\xE0\xA4\x95\xE0\xA4\xBE \xE0\xA4\xAE\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA5\x80\xE0\xA4\xAA\xE0\xA5\x87" - " \xE0\xA4\xAE\xE0\xA4\xA7\xE0\xA5\x8D \xE0\xA4\xAF\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA5\x87\xE0\xA4\xA4\xE0\xA5\x8D" - "\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\x8F\xE0\xA4\x95 \xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB6 \xE0\xA4\x85\xE0\xA4\xB8" - "\xE0\xA5\x8D \xE0\xA4\xA4\xE0\xA4\xBF \xE0\xA4\xAB\xE0\xA4\xA3\xE0\xA5\x80\xE0\xA4\xB6\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA4\xB0" - " \xE0\xA4\xA8\xE0\xA4\xBE\xE0\xA4\xA5 \xE0\xA4\xB0\xE0\xA5\x87\xE0\xA4\xA3\xE0\xA5\x81 " - "\xE0\xA4\xAB\xE0\xA4\xBF\xE0\xA4\x9C\xE0\xA5\x80 \xE0\xA4\x9B\xE0\xA5\x81 \xE0\xA4\xA6\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7" - "\xE0\xA4\xBF\xE0\xA4\xA3 \xE0\xA4\xAA\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA4\xB6\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x8D \xE0\xA4\xA4" - " \xE0\xA4\xAE\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xB8\xE0\xA4\xBE\xE0\xA4\x97\xE0\xA4\xB0 \xE0\xA4\xAE\xE0\xA4\x82\xE0\xA4\x9C" - " \xE0\xA4\x85\xE0\xA4\x96 \xE0\xA4\xA6\xE0\xA5\x87\xE0\xA4\xB6 \xE0\xA4\xAC\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xAE" - "\xE0\xA4\xBE\xE0\xA4\xB8 \xE0\xA4\x9B\xE0\xA5\x81 \xE0\xA4\x95\xE0\xA5\x87\xE0\xA4\xB0\xE0\xA5\x87\xE0\xA4\xAC\xE0\xA4\xBF" - "\xE0\xA4\xAF\xE0\xA4\xA8 \xE0\xA4\xAE\xE0\xA4\x82\xE0\xA4\x9C " - "\xE0\xA4\x85\xE0\xA4\x96 \xE0\xA4\xAE\xE0\xA5\x81\xE0\xA4\xB2\xE0\xA5\x81\xE0\xA4\x96 \xE0\xA4\xB0\xE0\xA4\xBE\xE0\xA4\x9C" - "\xE0\xA4\xA7\xE0\xA4\xBE\xE0\xA4\xA8\xE0\xA5\x80 \xE0\xA4\xA8\xE0\xA4\xB8\xE0\xA5\x8C \xE0\xA4\xB8\xE0\xA4\xAE\xE0\xA5\x8D" - " \xE0\xA4\xAC\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\x98 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\xB7\xE0\xA4\xAF \xE0\xA4\xAC" - "\xE0\xA5\x81\xE0\xA4\xB0\xE0\xA5\x81\xE0\xA4\x82\xE0\xA4\xA1\xE0\xA5\x80 \xE0\xA4\x85\xE0\xA4\xAB\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA5\x80" - "\xE0\xA4\x95\xE0\xA4\xBE \xE0\xA4\xAE\xE0\xA4\xB9\xE0\xA4\xBE\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\xB5\xE0\xA5\x80\xE0\xA4\xAA\xE0\xA5\x87" - " \xE0\xA4\xAE\xE0\xA4\xA7\xE0\xA5\x8D " - "\xE0\xA4\xAF\xE0\xA4\x95\xE0\xA5\x8D\xE0\xA4\xB7\xE0\xA5\x87\xE0\xA4\xA4\xE0\xA5\x8D\xE0\xA4\xB0\xE0\xA5\x87 \xE0\xA4\xA6\xE0\xA5\x87" - "\xE0\xA4\xB6 \xE0\xA4\x85\xE0\xA4\xB8\xE0\xA5\x8D \xE0\xA4\xA4\xE0\xA4\xBF \xE0\xA4\xB8\xE0\xA4\xAE\xE0\xA5\x8D" - " \xE0\xA4\xAC\xE0\xA4\xA6\xE0\xA5\x8D\xE0\xA4\x98 \xE0\xA4\xB5\xE0\xA4\xBF\xE0\xA4\xB7\xE0\xA4\xAF"; - -#endif - typedef struct { Language lang; const char* text; @@ -110,9 +45,8 @@ typedef struct { static const TestPair kTestPair[] = { -// A couple of simple cases to begin +// A simple case to begin {ENGLISH, kTeststr_en}, -// Not Chrome subset {KASHMIRI, kTeststr_ks}, // 20 languages recognized via Unicode script {ARMENIAN, kTeststr_hy_Armn}, @@ -131,7 +65,7 @@ static const TestPair kTestPair[] = { {PUNJABI, kTeststr_pa_Guru}, {SINHALESE, kTeststr_si_Sinh}, {SYRIAC, kTeststr_syr_Syrc}, - {TAGALOG, kTeststr_tl_Tglg}, + {TAGALOG, kTeststr_tl_Tglg}, // Also in quadgram list below {TAMIL, kTeststr_ta_Taml}, {TELUGU, kTeststr_te_Telu}, {THAI, kTeststr_th_Thai}, @@ -149,7 +83,7 @@ static const TestPair kTestPair[] = { {AZERBAIJANI, kTeststr_az_Latn}, {BASQUE, kTeststr_eu_Latn}, {BELARUSIAN, kTeststr_be_Cyrl}, - {BENGALI, kTeststr_bn_Beng}, // No Assamese + {BENGALI, kTeststr_bn_Beng}, // No Assamese in subset {BIHARI, kTeststr_bh_Deva}, {BULGARIAN, kTeststr_bg_Cyrl}, {CATALAN, kTeststr_ca_Latn},