View Issue Details

IDProjectCategoryView StatusLast Update
0000379Double CommanderViewerpublic2012-03-18 12:25
ReporterVaka2 Assigned ToAlexx2000  
PrioritynormalSeverityminorReproducibilityhave not tried
Status closedResolutionfixed 
ProjectionnoneETAnone 
Product Version0.6.0 (trunk)Product Build4397 
Fixed in Version0.5.5 
Summary0000379: Неправильное определение кодировки CP1251
Descriptionпо F3
вместо CP1251 определяется как ISO-8859-1
TagsNo tags attached.
Attached Files
text.zip (236 bytes)
Fixed in Revision4421
Operating systemLinux
WidgetsetGTK2
Architecture32-bit

Activities

Alexx2000

2012-03-14 09:22

administrator   ~0000454

В таких случаях в качестве примера надо прикладывать какой-либо настоящий файл.
Определить кодировку файла состоящего из десятка букв в большинстве случаев технически невозможно т.к. для определения кодировки используются статистические методы.

Vaka2

2012-03-14 11:18

reporter   ~0000455

вот в том-то и дело, что более-менее большие тексты определяет верно.
проблема с маленькими файлами..

тогда может какой-нибудь приоритет кодировок сделать..? раз не найти нормальный алгоритм.. хотя не верится что-то.. куча же редакторов есть..

Alexx2000

2012-03-14 11:52

administrator   ~0000456

-> тогда может какой-нибудь приоритет кодировок сделать..?

Можно сделать возможность задания кодировки по умолчанию, тогда в том случае если кодировку определить не удалось, будет использоваться она. Сейчас в качестве кодировки по умолчанию используется системная кодировка, соответсвенно данный файл нормально открывается под Windows, и не правильно под Linux.

-> раз не найти нормальный алгоритм.. хотя не верится что-то.. куча же редакторов есть..

Определить кодировку очень маленького текста с большой вероятностью не может ни один алгоритм, это как гадание на "кофейной гуще", где-то угадал, где-то нет. Например gedit, так же как и DC не может определить кодировку приложенных файлов. В DC сейчас используется достаточно мощный алгоритм (он основан на алгоритме, который используется в Firefox).

Vaka2

2012-03-14 12:11

reporter   ~0000457

gedit как раз отлично определяет кодировку этих файлов,
а вот DC точно гадает.
причем у него по F3 одна кодировка, а по F4 другая. это видно по первому файлу.

Alexx2000

2012-03-17 22:19

administrator   ~0000474

Усовершенствовал автоопределение кодировки, теперь если в системы используется локаль с кириллицей, то выбор производится среди кодировок используемых для кириллицы (такой же механизм используется в некоторых редакторах). Соответственно вероятность определения правильной кодировки повысилась, например кодировка приложенных файлов теперь определяется корректно.

-> gedit как раз отлично определяет кодировку этих файлов,

Значит, не во всех дистрибутивах (у меня не захотел).

Issue History

Date Modified Username Field Change
2012-03-14 03:40 Vaka2 New Issue
2012-03-14 03:40 Vaka2 File Added: text.zip
2012-03-14 09:22 Alexx2000 Note Added: 0000454
2012-03-14 09:22 Alexx2000 Status new => feedback
2012-03-14 11:18 Vaka2 Note Added: 0000455
2012-03-14 11:18 Vaka2 Status feedback => new
2012-03-14 11:52 Alexx2000 Note Added: 0000456
2012-03-14 11:52 Alexx2000 Status new => feedback
2012-03-14 12:11 Vaka2 Note Added: 0000457
2012-03-14 12:11 Vaka2 Status feedback => new
2012-03-17 21:23 Alexx2000 Assigned To => Alexx2000
2012-03-17 21:23 Alexx2000 Status new => assigned
2012-03-17 22:19 Alexx2000 Fixed in Revision => 4421
2012-03-17 22:19 Alexx2000 Note Added: 0000474
2012-03-17 22:19 Alexx2000 Status assigned => resolved
2012-03-17 22:19 Alexx2000 Fixed in Version => 0.5.5
2012-03-17 22:19 Alexx2000 Resolution open => fixed
2012-03-18 12:25 Vaka2 Status resolved => closed