【スプレッドシート】ハッシュタグを削除する正規表現（REGEXEXTRACT 関数）

GoogleSpreadsheet(スプレッドシート)

2024.04.15

この記事は約4分で読めます。

REGEXEXTRACT 関数
正規表現の基本的な使用例
正規表現の基本的な構成要素
ハッシュタグを抽出する
注意点
まとめ

REGEXEXTRACT 関数

Google スプレッドシートの REGEXEXTRACT 関数は、指定されたテキストから正規表現に一致する部分を抽出するために使用されます。

この関数は、テキスト内で正規表現パターンに一致する最初のインスタンスを見つけ出し、その一致したテキストを返します。REGEXEXTRACT 関数は、データの解析や特定のパターンに基づく情報の抽出に非常に便利です。

REGEXEXTRACT(text, regular_expression)

text は、検索対象のテキストです。
regular_expression は、抽出するテキスト部分に一致させるための正規表現パターンです。

正規表現の基本的な使用例

単純なワードの抽出:
- 例: "Hello, world!" から "Hello" を抽出する。
- 式: =REGEXEXTRACT("Hello, world!", "Hello")
- 結果: "Hello"
メールアドレスからドメイン名を抽出:
- 例: "example@gmail.com" から "gmail.com" を抽出する。
- 式: =REGEXEXTRACT("example@gmail.com", "@(.+)")
- 結果: "gmail.com"
数字の抽出:
- 例: "Total: 1234" から数字の "1234" を抽出する。
- 式: =REGEXEXTRACT("Total: 1234", "\d+")
- 結果: "1234"

正規表現の基本的な構成要素

リテラル（Literal）文字: 通常の文字（例えば ‘a’ や ‘1’）は、それ自体がパターンの一部として認識されます。
ドット（.）: 任意の1文字にマッチします（改行文字を除く）。
キャラクタークラス: 特定の文字群の中から1文字にマッチさせたい場合に使用します。例えば、[abc] は ‘a’, ‘b’, ‘c’ のいずれか1文字にマッチします。
否定キャラクタークラス: 特定の文字を除外してマッチさせたい場合に使用します。例えば、[^abc] は ‘a’, ‘b’, ‘c’ 以外の任意の1文字にマッチします。
繰り返し:
- *（アスタリスク）: 直前の要素の0回以上の繰り返しにマッチ。
- +（プラス）: 直前の要素の1回以上の繰り返しにマッチ。
- ?（クエスチョン）: 直前の要素が0回または1回出現する場合にマッチ。
- {n}: 直前の要素がn回繰り返される場合にマッチ。
- {n,}: 直前の要素がn回以上繰り返される場合にマッチ。
- {n,m}: 直前の要素がn回からm回の間に繰り返される場合にマッチ。
位置指定子:
- ^: 文字列の開始位置にマッチ。
- $: 文字列の終了位置にマッチ。
- \b: 単語の境界にマッチ（例：\bword\bは、独立した単語 “word” にマッチします）。
- \B: 単語の境界でない位置にマッチ。
エスケープ文字: 特別な意味を持つ文字（例えば * や . など）をリテラルとして扱いたい場合にバックスラッシュ (\) を使用します。

ハッシュタグを抽出する

スプレッドシートの REGEXEXTRACT 関数を使ってハッシュタグを抽出することはできますが、直接ハッシュタグを削除することはできません。REGEXEXTRACT 関数は、指定した正規表現に一致するテキストの部分を抽出するためのものです。そのため、ハッシュタグを削除する代わりに、ハッシュタグを含まないテキストを抽出したい場合は、別のアプローチを取る必要があります。

ハッシュタグを除外して残りのテキストを取得したい場合は、REGEXREPLACE 関数を使用することで、指定した正規表現に一致するテキストを置換または削除することができます。ハッシュタグを削除するには、ハッシュタグにマッチする正規表現（#\S+）を使用し、それを空文字列に置換します。

以下の例では、REGEXREPLACE を使用してセル内のハッシュタグを削除します。