don't annoy all the time with messages...
[supertux.git] / lib / app / tinygettext.cpp
1 //  $Id$
2 // 
3 //  TinyGetText - A small flexible gettext() replacement
4 //  Copyright (C) 2004 Ingo Ruhnke <grumbel@gmx.de>
5 //
6 //  This program is free software; you can redistribute it and/or
7 //  modify it under the terms of the GNU General Public License
8 //  as published by the Free Software Foundation; either version 2
9 //  of the License, or (at your option) any later version.
10 //
11 //  This program is distributed in the hope that it will be useful,
12 //  but WITHOUT ANY WARRANTY; without even the implied warranty of
13 //  MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14 //  GNU General Public License for more details.
15 // 
16 //  You should have received a copy of the GNU General Public License
17 //  along with this program; if not, write to the Free Software
18 //  Foundation, Inc., 59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.
19
20 #include <sys/types.h>
21 #include <iconv.h>
22 #include <dirent.h>
23 #include <fstream>
24 #include <iostream>
25 #include <ctype.h>
26 #include <errno.h>
27 #include "tinygettext.h"
28
29 //#define TRANSLATION_DEBUG
30
31 namespace TinyGetText {
32
33 /** Convert \a which is in \a from_charset to \a to_charset and return it */
34 std::string convert(const std::string& text,
35                     const std::string& from_charset,
36                     const std::string& to_charset)           
37 {
38   if (from_charset == to_charset)
39     return text;
40
41   iconv_t cd = iconv_open(to_charset.c_str(), from_charset.c_str());
42   
43   size_t in_len = text.length();
44   size_t out_len = text.length()*2;
45
46   char*  out_orig = new char[out_len]; // FIXME: cross fingers that this is enough
47   char*  in_orig  = new char[in_len+1];
48   strcpy(in_orig, text.c_str());
49
50   char* out = out_orig;
51   char* in  = in_orig;
52
53   //std::cout << "IN: " << (int)in << " " << in_len << " " << (int)out << " " << out_len << std::endl;
54   int retval = iconv(cd, &in, &in_len, &out, &out_len);
55   //std::cout << "OUT: " << (int)in << " " << in_len << " " << (int)out << " " << out_len << std::endl;
56
57   if (retval != 0)
58     {
59       std::cerr << strerror(errno) << std::endl;
60       std::cerr << "Error: conversion from " << from_charset
61                 << " to " << to_charset << " went wrong: " << retval << std::endl;
62     }
63   iconv_close(cd);
64
65   std::string ret(out_orig, out_len);
66   delete[] out_orig;
67   delete[] in_orig;
68   return ret;
69 }
70
71 bool has_suffix(const std::string& lhs, const std::string rhs)
72 {
73   if (lhs.length() < rhs.length())
74     return false;
75   else
76     return lhs.compare(lhs.length() - rhs.length(), rhs.length(), rhs) == 0;
77 }
78
79 bool has_prefix(const std::string& lhs, const std::string rhs)
80 {
81   if (lhs.length() < rhs.length())
82     return false;
83   else
84     return lhs.compare(0, rhs.length(), rhs) == 0;
85 }
86
87 int plural1(int )     { return 0; }
88 int plural2_1(int n)  { return (n != 1); }
89 int plural2_2(int n)  { return (n > 1); }
90 int plural3_lv(int n) { return (n%10==1 && n%100!=11 ? 0 : n != 0 ? 1 : 2); }
91 int plural3_ga(int n) { return n==1 ? 0 : n==2 ? 1 : 2; }
92 int plural3_lt(int n) { return (n%10==1 && n%100!=11 ? 0 : n%10>=2 && (n%100<10 || n%100>=20) ? 1 : 2); }
93 int plural3_1(int n)  { return (n%10==1 && n%100!=11 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2); }
94 int plural3_sk(int n) { return (n==1) ? 0 : (n>=2 && n<=4) ? 1 : 2; }
95 int plural3_pl(int n) { return (n==1 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2); }
96 int plural3_sl(int n) { return (n%100==1 ? 0 : n%100==2 ? 1 : n%100==3 || n%100==4 ? 2 : 3); }
97
98 /** Language Definitions */
99 //*{
100 LanguageDef lang_hu("hu", "Hungarian",         1, plural1); // "nplurals=1; plural=0;"
101 LanguageDef lang_ja("ja", "Japanese",          1, plural1); // "nplurals=1; plural=0;"
102 LanguageDef lang_ko("ko", "Korean",            1, plural1); // "nplurals=1; plural=0;"
103 LanguageDef lang_tr("tr", "Turkish",           1, plural1); // "nplurals=1; plural=0;"
104 LanguageDef lang_da("da", "Danish",            2, plural2_1); // "nplurals=2; plural=(n != 1);"
105 LanguageDef lang_nl("nl", "Dutch",             2, plural2_1); // "nplurals=2; plural=(n != 1);"
106 LanguageDef lang_en("en", "English",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
107 LanguageDef lang_fo("fo", "Faroese",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
108 LanguageDef lang_de("de", "German",            2, plural2_1); // "nplurals=2; plural=(n != 1);"
109 LanguageDef lang_nb("nb", "Norwegian Bokmal",  2, plural2_1); // "nplurals=2; plural=(n != 1);"
110 LanguageDef lang_no("no", "Norwegian",         2, plural2_1); // "nplurals=2; plural=(n != 1);"
111 LanguageDef lang_nn("nn", "Norwegian Nynorsk", 2, plural2_1); // "nplurals=2; plural=(n != 1);"
112 LanguageDef lang_sv("sv", "Swedish",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
113 LanguageDef lang_et("et", "Estonian",          2, plural2_1); // "nplurals=2; plural=(n != 1);"
114 LanguageDef lang_fi("fi", "Finnish",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
115 LanguageDef lang_el("el", "Greek",             2, plural2_1); // "nplurals=2; plural=(n != 1);"
116 LanguageDef lang_he("he", "Hebrew",            2, plural2_1); // "nplurals=2; plural=(n != 1);"
117 LanguageDef lang_it("it", "Italian",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
118 LanguageDef lang_pt("pt", "Portuguese",        2, plural2_1); // "nplurals=2; plural=(n != 1);"
119 LanguageDef lang_es("es", "Spanish",           2, plural2_1); // "nplurals=2; plural=(n != 1);"
120 LanguageDef lang_eo("eo", "Esperanto",         2, plural2_1); // "nplurals=2; plural=(n != 1);"
121 LanguageDef lang_fr("fr", "French",            2, plural2_2); // "nplurals=2; plural=(n > 1);"
122 LanguageDef lang_pt_BR("pt_BR", "Brazilian",   2, plural2_2); // "nplurals=2; plural=(n > 1);"
123 LanguageDef lang_lv("lv", "Latvian",           3, plural3_lv); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n != 0 ? 1 : 2);"
124 LanguageDef lang_ga("ga", "Irish",             3, plural3_ga); // "nplurals=3; plural=n==1 ? 0 : n==2 ? 1 : 2;"
125 LanguageDef lang_lt("lt", "Lithuanian",        3, plural3_lt); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n%10>=2 && (n%100<10 || n%100>=20) ? 1 : 2);"
126 LanguageDef lang_hr("hr", "Croatian",          3, plural3_1); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2);"
127 LanguageDef lang_cs("cs", "Czech",             3, plural3_1); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2);"
128 LanguageDef lang_ru("ru", "Russian",           3, plural3_1); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2);"
129 LanguageDef lang_uk("uk", "Ukrainian",         3, plural3_1); // "nplurals=3; plural=(n%10==1 && n%100!=11 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2);"
130 LanguageDef lang_sk("sk", "Slovak",            3, plural3_sk); // "nplurals=3; plural=(n==1) ? 0 : (n>=2 && n<=4) ? 1 : 2;"
131 LanguageDef lang_pl("pl", "Polish",            3, plural3_pl); // "nplurals=3; plural=(n==1 ? 0 : n%10>=2 && n%10<=4 && (n%100<10 || n%100>=20) ? 1 : 2);
132 LanguageDef lang_sl("sl", "Slovenian",         3, plural3_sl); // "nplurals=4; plural=(n%100==1 ? 0 : n%100==2 ? 1 : n%100==3 || n%100==4 ? 2 : 3);"
133 //*}
134
135 LanguageDef&
136 get_language_def(const std::string& name)
137 {
138   if (name == "hu") return lang_hu;
139   else if (name == "ja") return lang_ja;
140   else if (name == "ko") return lang_ko;
141   else if (name == "tr") return lang_tr;
142   else if (name == "da") return lang_da;
143   else if (name == "nl") return lang_nl;
144   else if (name == "en") return lang_en;
145   else if (name == "fo") return lang_fo;
146   else if (name == "de") return lang_de;
147   else if (name == "nb") return lang_nb;
148   else if (name == "no") return lang_no;
149   else if (name == "nn") return lang_nn;
150   else if (name == "sv") return lang_sv;
151   else if (name == "et") return lang_et;
152   else if (name == "fi") return lang_fi;
153   else if (name == "el") return lang_el;
154   else if (name == "he") return lang_he;
155   else if (name == "it") return lang_it;
156   else if (name == "pt") return lang_pt;
157   else if (name == "es") return lang_es;
158   else if (name == "eo") return lang_eo;
159   else if (name == "fr") return lang_fr;
160   else if (name == "pt_BR") return lang_pt_BR;
161   else if (name == "lv") return lang_lv;
162   else if (name == "ga") return lang_ga;
163   else if (name == "lt") return lang_lt;
164   else if (name == "hr") return lang_hr;
165   else if (name == "cs") return lang_cs;
166   else if (name == "ru") return lang_ru;
167   else if (name == "uk") return lang_uk;
168   else if (name == "sk") return lang_sk;
169   else if (name == "pl") return lang_pl;
170   else if (name == "sl") return lang_sl;
171   else return lang_en; 
172 }
173
174 DictionaryManager::DictionaryManager()
175   : current_dict(&empty_dict)
176 {
177   parseLocaleAliases();
178   // setup language from environment vars
179   const char* lang = getenv("LC_ALL");
180   if(!lang)
181     lang = getenv("LC_MESSAGES");
182   if(!lang)
183     lang = getenv("LANG");
184   
185   if(lang)
186     set_language(lang);
187 }
188
189 void
190 DictionaryManager::parseLocaleAliases()
191 {
192   // try to parse language alias list
193   std::ifstream in("/usr/share/locale/locale.alias");
194   
195   char c = ' ';
196   while(in.good() && !in.eof()) {
197     while(isspace(c) && !in.eof())
198       in.get(c);
199     
200     if(c == '#') { // skip comments
201       while(c != '\n' && !in.eof())
202         in.get(c);
203       continue;
204     }
205     
206     std::string alias;
207     while(!isspace(c) && !in.eof()) {
208       alias += c;
209       in.get(c);
210     }
211     while(isspace(c) && !in.eof())
212       in.get(c);
213     std::string language;
214     while(!isspace(c) && !in.eof()) {
215       language += c;
216       in.get(c);
217     }
218
219     if(in.eof())
220       break;
221     set_language_alias(alias, language);
222   }
223 }
224   
225 Dictionary&
226 DictionaryManager::get_dictionary(const std::string& spec)
227 {
228   std::string lang = get_language_from_spec(spec);
229   Dictionaries::iterator i = dictionaries.find(get_language_from_spec(lang));
230   if (i != dictionaries.end())
231     {
232       return i->second;
233     }
234   else // Dictionary for languages lang isn't loaded, so we load it
235     {
236       //std::cout << "get_dictionary: " << lang << std::endl;
237       Dictionary& dict = dictionaries[lang];
238
239       dict.set_language(get_language_def(lang));
240
241       for (SearchPath::iterator p = search_path.begin(); p != search_path.end(); ++p)
242         {
243           DIR* dir = opendir(p->c_str());
244           if (!dir)
245             {
246               std::cerr << "Error: opendir() failed on " << *p << std::endl;
247             }
248           else
249             {
250               struct dirent* ent;
251               while((ent = readdir(dir)))
252                 {
253                   if (std::string(ent->d_name) == lang + ".po")
254                     {
255                       std::string pofile = *p + "/" + ent->d_name;
256                       std::ifstream in(pofile.c_str());
257                       if (!in)
258                         {
259                           std::cerr << "Error: Failure file opening: " << pofile << std::endl;
260                         }
261                       else
262                         {
263                           read_po_file(dict, in);
264                         }
265                     }
266                 }
267               closedir(dir);
268             }
269         }
270
271       return dict;
272     }
273 }
274
275 std::set<std::string>
276 DictionaryManager::get_languages()
277 {
278   std::set<std::string> languages;
279
280   for (SearchPath::iterator p = search_path.begin(); p != search_path.end(); ++p)
281     {
282       DIR* dir = opendir(p->c_str());
283       if (!dir)
284         {
285           std::cerr << "Error: opendir() failed on " << *p << std::endl;
286         }
287       else
288         {
289           struct dirent* ent;
290           while((ent = readdir(dir)))
291             {
292               if (has_suffix(ent->d_name, ".po"))
293                 {
294                   std::string filename = ent->d_name;
295                   languages.insert(filename.substr(0, filename.length()-3));
296                 }
297             }
298           closedir(dir);
299         }
300     }  
301   return languages;
302 }
303
304 void
305 DictionaryManager::set_language(const std::string& lang)
306 {
307   language = get_language_from_spec(lang);
308   current_dict = & (get_dictionary(language));
309 }
310
311 void
312 DictionaryManager::set_language_alias(const std::string& alias,
313     const std::string& language)
314 {
315   language_aliases.insert(std::make_pair(alias, language));
316 }
317
318 std::string
319 DictionaryManager::get_language_from_spec(const std::string& spec)
320 {
321   std::string lang = spec;
322   Aliases::iterator i = language_aliases.find(lang);
323   if(i != language_aliases.end()) {
324     lang = i->second;
325   }
326   
327   std::string::size_type s = lang.find_first_of("_.");
328   if(s == std::string::npos)
329     return lang;
330
331   return std::string(lang, 0, s);  
332 }
333
334 void
335 DictionaryManager::add_directory(const std::string& pathname)
336 {
337   search_path.push_back(pathname);
338   // cache is outdated now
339   dictionaries.clear();
340   set_language(language);
341 }
342
343 //---------------------------------------------------------------------------
344
345 Dictionary::Dictionary(const LanguageDef& language_, const std::string& charset_)
346   : language(language_), charset(charset_)
347 {
348 }
349
350 Dictionary::Dictionary()
351   : language(lang_en)
352 {
353 }
354
355 std::string
356 Dictionary::get_charset() const
357 {
358   return charset;
359 }
360
361 void
362 Dictionary::set_charset(const std::string& charset_)
363 {
364   charset = charset_;
365 }
366
367 void
368 Dictionary::set_language(const LanguageDef& lang)
369 {
370   language = lang;
371 }
372
373 std::string
374 Dictionary::translate(const std::string& msgid, const std::string& msgid2, int num) 
375 {
376   PluralEntries::iterator i = plural_entries.find(msgid);
377   std::map<int, std::string>& msgstrs = i->second;
378
379   if (i != plural_entries.end() && !msgstrs.empty())
380     {
381       int g = language.plural(num);
382       std::map<int, std::string>::iterator j = msgstrs.find(g);
383       if (j != msgstrs.end())
384         {
385           return j->second;
386         }
387       else
388         {
389           // Return the first translation, in case we can't translate the specific number
390           return msgstrs.begin()->second;
391         }
392     }
393   else
394     {
395 #ifdef TRANSLATION_DEBUG
396       std::cerr << "Warning: Couldn't translate: " << msgid << std::endl;
397       std::cerr << "Candidates: " << std::endl;
398       for (PluralEntries::iterator i = plural_entries.begin(); i != plural_entries.end(); ++i)
399         std::cout << "'" << i->first << "'" << std::endl;
400 #endif
401
402       if (plural2_1(num)) // default to english rules
403         return msgid2;
404       else
405         return msgid;
406     }
407 }
408
409 std::string
410 Dictionary::translate(const std::string& msgid) 
411 {
412   Entries::iterator i = entries.find(msgid);
413   if (i != entries.end() && !i->second.empty())
414     {
415       return i->second;
416     }
417   else
418     {
419 #ifdef TRANSLATION_DBEUG
420       std::cout << "Error: Couldn't translate: " << msgid << std::endl;
421 #endif
422       return msgid;
423     }
424 }
425   
426 void
427 Dictionary::add_translation(const std::string& msgid, const std::string& ,
428                             const std::map<int, std::string>& msgstrs)
429 {
430   // Do we need msgid2 for anything? its after all supplied to the
431   // translate call, so we just throw it away
432   plural_entries[msgid] = msgstrs;
433 }
434
435 void 
436 Dictionary::add_translation(const std::string& msgid, const std::string& msgstr) 
437 {
438   entries[msgid] = msgstr;
439 }
440
441 class POFileReader
442 {
443 private:
444   struct Token
445   {
446     std::string keyword;
447     std::string content;
448   };
449
450   Dictionary& dict;
451
452   std::string from_charset;
453   std::string to_charset;
454
455   std::string current_msgid;
456   std::string current_msgid_plural;
457   std::map<int, std::string> msgstr_plural;
458
459   int line_num;
460
461   enum { WANT_MSGID, WANT_MSGSTR, WANT_MSGSTR_PLURAL, WANT_MSGID_PLURAL } state;
462
463 public:
464   POFileReader(std::istream& in, Dictionary& dict_)
465     : dict(dict_)
466   {
467     state = WANT_MSGID;
468     line_num = 0;
469     tokenize_po(in);
470   }
471
472   void parse_header(const std::string& header)
473   {
474     // Seperate the header in lines
475     typedef std::vector<std::string> Lines;
476     Lines lines;
477     
478     std::string::size_type start = 0;
479     for(std::string::size_type i = 0; i < header.length(); ++i)
480       {
481         if (header[i] == '\n')
482           {
483             lines.push_back(header.substr(start, i - start));
484             start = i+1;
485           }
486       }
487
488     for(Lines::iterator i = lines.begin(); i != lines.end(); ++i)
489       {
490         if (has_prefix(*i, "Content-Type: text/plain; charset=")) {
491           from_charset = i->substr(strlen("Content-Type: text/plain; charset="));
492         }
493       }
494
495     if (from_charset.empty() || from_charset == "CHARSET")
496       {
497         std::cerr << "Error: Charset not specified for .po, fallback to ISO-8859-1" << std::endl;
498         from_charset = "ISO-8859-1";
499       }
500
501     to_charset = dict.get_charset();
502     if (to_charset.empty())
503       { // No charset requested from the dict, so we use the one from the .po 
504         to_charset = from_charset;
505         dict.set_charset(from_charset);
506       }
507   }
508
509   void add_token(const Token& token)
510   {
511     switch(state) 
512       {
513       case WANT_MSGID:
514         if (token.keyword == "msgid") 
515           {
516             current_msgid = token.content;
517             state = WANT_MSGID_PLURAL;
518           }
519         else if (token.keyword.empty())
520           {
521             //std::cerr << "Got EOF, everything looks ok." << std::endl;
522           }
523         else
524           {
525             std::cerr << "tinygettext: expected 'msgid' keyword, got " << token.keyword 
526                       << " at line " << line_num << std::endl;
527           }
528         break;
529     
530       case WANT_MSGID_PLURAL:
531         if (token.keyword == "msgid_plural") 
532           {
533             current_msgid_plural = token.content;
534             state = WANT_MSGSTR_PLURAL;
535           } 
536         else
537           {
538             state = WANT_MSGSTR;
539             add_token(token);
540           }
541         break;
542
543       case WANT_MSGSTR:
544         if (token.keyword == "msgstr") 
545           {
546             if (current_msgid == "") 
547               { // .po Header is hidden in the msgid with the empty string
548                 parse_header(token.content);
549               }
550             else
551               {
552                 dict.add_translation(current_msgid, convert(token.content, from_charset, to_charset));
553               }
554             state = WANT_MSGID;
555           } 
556         else
557           {
558             std::cerr << "tinygettext: expected 'msgstr' keyword, got " << token.keyword 
559                       << " at line " << line_num << std::endl;
560           }
561         break;
562
563       case WANT_MSGSTR_PLURAL:
564         if (has_prefix(token.keyword, "msgstr[")) 
565           {
566             int num;
567             if (sscanf(token.keyword.c_str(), "msgstr[%d]", &num) != 1) 
568               {
569                 std::cerr << "Error: Couldn't parse: " << token.keyword << std::endl;
570               } 
571             else 
572               {
573                 msgstr_plural[num] = convert(token.content, from_charset, to_charset);
574               }
575           }
576         else 
577           {
578             dict.add_translation(current_msgid, current_msgid_plural, msgstr_plural);
579
580             state = WANT_MSGID;
581             add_token(token);
582           }
583         break;
584       }
585   }
586   
587   inline int getchar(std::istream& in) 
588   {
589     int c = in.get();
590     if (c == '\n')
591       line_num += 1;
592     return c;
593   }
594   
595   void tokenize_po(std::istream& in)
596   {
597     enum State { READ_KEYWORD, 
598                  READ_CONTENT,
599                  READ_CONTENT_IN_STRING,
600                  SKIP_COMMENT };
601
602     State state = READ_KEYWORD;
603     int c;
604     Token token;
605
606     while((c = getchar(in)) != EOF)
607       {
608         //std::cout << "Lexing char: " << char(c) << " " << state << std::endl;
609         switch(state)
610           {
611           case READ_KEYWORD:
612             if (c == '#')
613               {
614                 state = SKIP_COMMENT;
615               }
616             else
617               {
618                 // Read a new token
619                 token = Token();
620                 
621                 do { // Read keyword 
622                   token.keyword += c;
623                 } while((c = getchar(in)) != EOF && !isspace(c));
624                 in.unget();
625
626                 state = READ_CONTENT;
627               }
628             break;
629
630           case READ_CONTENT:
631             while((c = getchar(in)) != EOF)
632               {
633                 if (c == '"') { 
634                   // Found start of content
635                   state = READ_CONTENT_IN_STRING;
636                   break;
637                 } else if (isspace(c)) {
638                   // skip
639                 } else { // Read something that may be a keyword
640                   in.unget();
641                   state = READ_KEYWORD;
642                   add_token(token);
643                   break;
644                 }
645               }
646             break;
647
648           case READ_CONTENT_IN_STRING:
649             if (c == '\\') {
650               c = getchar(in);
651               if (c != EOF)
652                 {
653                   if (c == 'n') token.content += '\n';
654                   else if (c == 't') token.content += '\t';
655                   else if (c == 'r') token.content += '\r';
656                   else if (c == '"') token.content += '"';
657                   else
658                     {
659                       std::cout << "Unhandled escape character: " << char(c) << std::endl;
660                     }
661                 }
662               else
663                 {
664                   std::cout << "Unterminated string" << std::endl;
665                 }
666             } else if (c == '"') { // Content string is terminated
667               state = READ_CONTENT;
668             } else {
669               token.content += c;
670             }
671             break;
672
673           case SKIP_COMMENT:
674             if (c == '\n')
675               state = READ_KEYWORD;
676             break;
677           }
678       }
679     add_token(token);
680   }
681 };
682
683 void read_po_file(Dictionary& dict_, std::istream& in) 
684 {
685   POFileReader reader(in, dict_);
686 }
687
688 } // namespace TinyGetText
689
690 /* EOF */