У меня есть проблема с использованием \b
и греческих символов в регулярном выражении.
В в этом примере [a-zA-ZΆΈ-ώἀ-ῼ]*
удается отметить все слова, которые я хочу (как греческие, так и английские). Теперь подумайте, что я хочу найти слова с двумя буквами. Для английского языка я использую нечто вроде this:
\b[a-zA-Z]{2}\b
. Можете ли вы помочь мне написать регулярное выражение, которое позволяет пометить слова на греческом языке двумя буквами? (Почему? Моя конечная цель - удалить их).
используемый текст:
Греческий MONOTONIC: Το γάρ ούν και παρ 'υμίν λεγόμενον, ώς ποτε Φαέθων Ηλίου παίς το του πατρός άρμα ζεύξας δια το μή δυνατός είναι κατά την του πατρός οδόν ελαύνειν τα τ' επί της γής ξυνέκαυσε και αυτός κεραυνωθείς διεφθάρη, τούτο μύθου μέν σχήμα έχον λέγεται, το δέ αληθές εστι των περί γήν και κατ 'ουρανόν ιόντων παράλλαξις και διά μακρόν χρόνον γιγνομένη των επί γής πυρί πολλώ φθορά.
Греческий ПОЛИТОНИК: Τὸ γὰρ οὖν καὶ παρ 'ὑμῖν λεγόμενον, ὥς ποτε Φαέθων Ἡλίου παῖς τὸ τοῦ πατρὸς ἅρμα ζεύξας διὰ τὸ μὴ δυνατὸς εἶναι κατὰ τὴν τοῦ πατρὸς ὁδὸν ἐλαύνειν τὰ τ' ἐπὶ τῆς γῆς ξυνέκαυσε καὶ αὐτὸς κεραυνωθεὶς διεφθάρη, τοῦτο μύθου μὲν σχῆμα ἔχον λέγεται, τὸ δὲ ἀληθές ἐστι τῶν περὶ γῆν καὶ κατ 'οὐρανὸν ἰόντων παράλλαξις καὶ διὰ μακρὸν χρόνον γιγνομένη τῶν ἐπὶ τῆς γῆς πυρὶ πολλῷ φθορά.
АНГЛИЙСКИЙ: Ибо, по правде говоря, история, рассказанная в вашей стране, а также наша, как когда-то Фаэтон, сын Гелиоса, возил свою колесницу отца и, поскольку он не мог прогнать ее по ходу, проведенному отцом, сожжен все, что было на земле, и сам погиб от молнии, - эта история, как сказано, имеет моду легенды, но истина заключается в возникновении смещения тел на небесах, которые движутся вокруг земли, и разрушение вещей на земле ожесточенным огнем, которое повторяется с большими интервалами.
, что я пробовал до сих пор:
// 1
txt = txt.replace(/\b[a-zA-ZΆΈ-ώἀ-ῼ]{2}\b/g, '');
// 2
tokens = txt.split(/\s+/);
txt = tokens.filter(function(token){ return token.length > 2}).join(' ');
// 3
tokens = txt.split(' ');
txt = tokens.filter(function(token){ return token.length != 3}).join(' ') );
2 и 3 были предложены на мой вопрос здесь: Javascript - regex - как удалить слова с указанной длиной
ИЗМЕНИТЬ
Читайте также: