dememax | Странное упорядочение по-умолчанию в диапазонах символьных классов grep'а.

You're viewing

dememax's journal
Create a Dreamwidth Account Learn More

Reload page in style: site light

(Натолкнула на размышления вот эта строка из chrome/content/filterClasses.js проекта Adblock Plus. В POSIX API regcomp()/regexec() всё также работает, как и в JavaScript.)

Почему срабатывает следующее выражение?

> echo "a.b" | grep -E '[ -#]'
a.b

Ведь в ASCII и UTF-8 точка находится после диеза.
Поправить легко:

> echo "a.b" | LANG= grep -E '[ -#]'

Оказывается, это устойчивое поведение.

> touch 'a ' ; touch 'a!' ; touch 'a"' ; touch 'a#' ; touch 'a.' ; touch 'a,'
> ls
a   a,  a!  a.  a"  a#
> LANG= ls
a   a!  a"  a#  a,  a.

Братцы, как называется эта Collating sequence для этих знаков, отличная от ASCII/Unicode?

Update: http://www.collation-charts.org/ (Спасибо Яше!)

Flat | Top-Level Comments Only

From:

itman.livejournal.com

Похоже, что collation tables зависят от текущей языковой установки. LANG= похоже экивалетно LANG=C и задает просто "естественный" ASCII порядок.

From:

dememax

Спасибо, Капитан Очевидность! :-)

Но вот, что меня больше всего терзает в этой истории, Леонид, так это - что же это за загадочная такая система упорядочивания, откуда она вдруг возникает и под каким именем общеизвестна?

Ведь я без труда могу понять, что есть ASCII и почему в UTF-8 тот же порядок символов.
Но я никак не могу понять, к чему вдруг понадобилось при определении языка (будь то en_US или ru_RU; я проверял на своей ru_RU.UTF-8 и у друга с en_US.UTF-8) вдруг менять порядок следования пробела, точки, запятой, восклицательного знака и диеза!
Какой в этом может быть смысл?

Причём, беру python и получаю:

Python 2.6.5 (release26-maint, Aug 22 2010, 13:19:45) 
[GCC 4.4.4] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import re
>>> re.compile("[ -#]").search('a.b')
>>> re.compile("[ -#]").search('a"b')
<_sre.SRE_Match object at 0x7fbeadca6648>
>>>

Та же фигня в Python 3.1. Т.е., как и в JavaScript с POSIX Regex. К сожалению, не знаю perl - как там не могу проверить.

From:

itman.livejournal.com

Есть много такого друг, Максимио...:-)

From:

dememax

О, да, дружище, скучать нам не приходиться... :-)

Edited Date: 2010-10-25 08:26 pm (UTC)

From:

mansch.livejournal.com

пиши баг репорт!

From:

great-mahatma.livejournal.com

Ничего не понял, да и фиг с ним.

From:

dememax

Нет, ну, как же так!!!

Скажем, у тебя есть файлики с именами (заключены в одинарные ковычки): 'a ', 'a!', 'a"', 'a#', 'a.' и 'a,'.

Т.е., ты видишь, это - латынь!!! Там нет ничего такого "кириллического ада (кои-8/дос/выньдос/исо/...)" или "аллах-ахабр", не знаю... Чистая ASCII с кодами < 128! Понял, да? Даже фидо пропустит.

И тут ты говоришь: я хочу без языка вообще сравнивать, а потом - с учётом некоторого языка.
Ну, ЯтЪ, почему результаты в результате - разнятся, Махатма?

Flat | Top-Level Comments Only

Profile

dememax

My CV

May 2023

S	M	T	W	T	F	S
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

Page Summary

Style Credit

Style: Neutral Good for Practicality by timeasmymeasure

Expand Cut Tags

No cut tags

Page generated Apr. 28th, 2026 03:06 am

Живой Журнал Максима Дементьева

Все записи открытые. Комментировать может любой. Не стесняйтесь! :-)

Странное упорядочение по-умолчанию в диапазонах символьных классов grep'а.

Странное упорядочение по-умолчанию в диапазонах символьных классов grep'а.

no subject

Re: Похоже, что collation tables зависят от текущей языковой уст

Re: Похоже, что collation tables зависят от текущей языковой уст

Re: Похоже, что collation tables зависят от текущей языковой уст

no subject

no subject

Re: Ничего не понял, да и фиг с ним.

Profile

May 2023

Most Popular Tags

Page Summary

Style Credit

Expand Cut Tags