正規表現に苦労しています。 これらのルールに基づいてこのテキストを使用して誰かが一致しますか?

regex
正規表現に苦労しています。 これらのルールに基づいてこのテキストを使用して誰かが一致しますか?

テキストは次のとおりです。

Lorem Ipsum is simply dummy text of the printing and typesetting industry. Lorem Ipsum has been the industry's standard dummy text ever since the 1500s, when an unknown printer took a galley of type and scramble'd it to make-shift type specimen book and something [tag]else[/tag].

基本的に、私がやろうとしているのは、これらのルールに従って、上記のすべての単語を抽出することです。

  1. 単語にはダッシュとアポストロフィを含めることができます(上記のスクランブルとメイクシフト)

  2. 単語をリンクタグ内に含めることはできません

  3. 単語をブロックタグ内に含めることはできません-[タグ]

  4. wordはタグ名またはhtmlの一部であってはなりません(class = “、div、a、
    タグなど)

私の最初の考えは、タグなどの不要なタグのコンテンツを削除することです。 しかし、それでも、上記のdivの間のすべてに一致するのは難しいが、単語 ‘div’または ‘class’または ‘left right’に一致するのは難しいと感じています。

助けがあれば感謝します。 私は現在持っています:

\s?[a-zA-Z0-9\'\-]+\s?

それは恥ずべきことです、私は知っています。

  0  0


ベストアンサー

これはうまくいくはずです。

[^<>\[\]]+(?=[<[])

0


これは.NET正規表現エンジンで動作しますが、ネガティブな後読みの繰り返しをサポートする数少ないエンジンの1つです。

(?]*)(?

0


タイトルとURLをコピーしました