AIコンテンツ検出ツール

by Shogo

ChatGPTのような大規模言語モデルの登場は、コンテンツの作成方法に革命をもたらした。学生には、AI生成ツールの利用を勧めている。それは、調査や構成を考える段階でのことで、文章を書く際には、AI生成ツールに頼らないように言っている。

しかし、楽をしたいのは人の常だから、学校では、AIテキストと学生が自分で書いたものと区別するAIコンテンツ検出ツールの重要性が増している。卒論の提出が終わったばかりだが、感心なことにAI生成ツールを使った形跡はなかった。

従来の剽窃チェッカーがコピーされたテキストを検出するのに対し、AIコンテンツ検出ツールは文章のスタイルやパターンを分析し、人間が書いたものかAIが生成したものかを判断する。今では、両方のツールを使って学生の文章をチェックするのが普通になってきた。

しかしながら、AIコンテンツ検出ツールは、信頼できない、または不安定な結果を生み出す可能性があることは、多くの研究から分かっている。

ほとんどのAIコンテンツ検出ツールは、人間が書いた文章と機械が書いた文章を区別するように訓練されたAIモデルだ。一般的な手法の一つは、テキスト内の単語の確率分布を評価することだそうだ。

AI検出ツールは、どれほどテキストが予測可能かを示す指標を調べる。文中の単語並びに予見される単語がなく、一般的である場合、テキストはAI生成と見なされる可能性がある。例えば、「水を一杯ください」というフレーズは非常に予測可能である。一方、「クモを一杯ください」は非常に珍しいため、AIが生成する可能性は低くなるということだ。

同様に、AI検出ツールは、文章の長さと構造の変化を調べる。人間の文章は自然な変化があり、長い文の後に短い文が続くなどの特徴を持つ傾向があるが、AIが生成したテキストはより均一である可能性がある。同じ長さとリズムの文章は、変化の無さのために、AI検出ツールに引っかかる可能性がある。

だが、問題は、これらの統計的な傾向がAIに特有のものではないということだ。人間もまた、予測可能で定型的な方法で書くことがある。特に、フォーマルまたは学術的な文章では、標準的なフレーズや構造をよく使用する。

人は、意図せずに完璧すぎる、または過度に一般的なテキストを作成する可能性があり、AIチェッカーはそれを機械が書いたものとして誤って検出することがある。

実際、複数の研究で、AI検出ツールが100%正確ではないことがわかっている。OpenAI自身のAIテキストツール(現在は廃止)は、テストでAIが書いたテキストのわずか26%を正しく識別したが、人間のテキストを9%を誤ってフラグ付けした。

だから、AI検出ツールは、実際にはそうでないにもかかわらず、学生の論文をAI生成であると警報を出す可能性がある。

さらに、AI検出ツールは不安定な場合がある。一部のツールでは、同じテキストでも日によって、またはわずかな変更によって異なる出力が得られる。

AI検出ツールが文章を分析する方法には、ランダム性や異なるモデルバージョンが含まれる場合があり、この不安定性につながる。これは、生成AIが、同じ質問に対して異なった回答を繰り返すようなランダム性を持っていることと同じだ。

しかも、問題は、AI検出ツールを回避するように、意図的に操作できるこのようだ。AIが書いた文章を、手動で、または別のAIを使用して言い換えると、予測可能性を下げ、人間のような癖を導入したりすることができる。研究によると、テキストをAIモデルに通して言い換えることで、検出精度が低下することを実証している。

言い換えれば、AIは別のAIの痕跡を隠すのに役立つ。AIテキストをより人間らしく見えるように調整するように設計された「AIヒューマナイザー」と呼ばれる自動ツールも存在する。

だから、この不確実性のために、AI検出ツールの提示する検出スコアを決して、判断の唯一の根拠にすべきではない理由だ。やはり、論文の執筆のプロセスをチェックすることが重要だろう。下書きを何度も確認したり、その過程で文章に人間らしい誤りがあるとか、その学生の癖を探すなどのチェックが重要のようだ。

よく使われている日本語AI検出ツールは以下のものだ。

  • isgen.ai  日本語に特化した高精度なAI検出ツールを謳っている。シンプルなインターフェースで使いやすく、詳細な分析結果を提供。
  • Neural Writer  多言語に対応した言い換えツール。AIコンテンツ検出機能も備えている。無料で利用できる。
  • Copyleaks AI検出だけでなく、剽窃検出や文章作成支援機能も提供。

だが、先に書いたように、完璧な精度ではないのは忘れてはならない。AI検出技術はまだ発展途上であり、100%の精度を保証するものは存在しない。AIが生成した文章の中には、人間が書いた文章と区別が難しいものも存在する。また、検出を回避するテクニックも使われるために、検出が困難になることもある。

AIテキストを検出されにくくする方法はたくさんあるようで、いくつかが、これまでもネットに公開されてきた。

言い換えと書き換え

AIコンテンツを別のスタイルで言い換えることは非常に効果的。文の構造を変えるために文を手動で書き直したり、言い換えツールを使用してそれを行う。これにより、元の痕跡が失われるほど言葉が変わる。本質的に、数回の言い換えで、文章は、検出ツールは、それがトレーニングされたパターンと一致しなくなるために検出できなくなる。だが、やりすぎると、非常に不自然な響きの文章になってしまう。

ランダム性の導入

意図的にいくつかの珍しい単語やフレーズを追加したり、文の長さを変えたりする。例えば、率直なAIの答えには含まれないような、口語表現や余談を挿入する。あるいは、文を急に短くしたり、予想外の単語で始めたりするだけでも、全体的な予測可能性を下げることができる。

あるいは、個人的なエピソードを追加して、文章の流れを荒くすることも手のようだ。また、類義語を使用したり、説明のポイントの順序を変えるだけでも、検出ツールを騙せるようだ。

トーンとエラーの追加

AIテキストは、個性を加えることでより人間らしく聞こえるようにすることができる。小さな文法エラーやタイプミスを挿入すると、テキストが人間らしく見える。AIツールは通常、単純なスペルミスをしないからだ。

AIが生成したコンテンツとそれを検出するツールは、これから、ますます普及するだろう。重要なのは、AIが書いたテキストの使用が許容される場合とそうでない場合を理解することだろう。ビジネス的な目的や儀礼の文章は、AI生成は許されるだろうが、学生の卒論では許されない。

もちろん、卒論の執筆過程で調査やアイディアの形成のための、いわゆる壁打ちは許されるだけではなく、むしろ推奨される。適切に使用すれば、AIは人間の創造性を高める。だが、創造性を代替するように使用することは退化の始まりとなってしまう。何事もそうだが、道具は便利だが凶器ににもなるとことを忘れてはいけない。

You may also like

Leave a Comment

This site uses Akismet to reduce spam. Learn how your comment data is processed.

error: Content is protected !!