話題

話題

Wikipediaの古くなった記事を自動で更新するテキスト生成ツールについて徹底解説

RankRED

RankRed is a place where you can find a lot of interesting and inspiring stuff about science and technology, internet, programming tools and plugins, robots, machines and high tech gadgets, and much more.

本記事は、New Text-Generating Tool Replaces Outdated Information In Wikipedia Articles
翻訳・再構成したものです。
配信元または著者の許可を得て配信しています。

140 views

読了時間 : 約2分13秒

MITの研究員は、Wikipediaのページで自動的古い情報を見つけ、置き換えるシステムを開発しました。

 

 

・ツールは、人が書いたような文法と構成を維持し、文章を書き直します。

 

 

オンライン百科事典には、頻繁にアップデートと収集を必要とする、数百もの文章が含まれています。例えばWikipediaは、300以上の異なる言語による、4,000万以上の記事から成り立っています。英語版のWikipediaのみ、600万の記事において35億もの言葉があります。

 

 

また、時間に敏感で継続してアップデートが必要な記事が、何百万もあります。一部の更新にはコンテンツの変更が含まれ、他の更新には既存の記事の拡張が必要です。

 

 

MITの研究者は、修正が既存の記事と矛盾する以前のシナリオに、焦点を合わせてきました。彼らは、Wikipediaで古くなった文章を自動で書き直したり、事実上の矛盾を自動でアップデートするテキスト生成ツールを開発しました。

 

 

このツールは、関連する記事で特定の情報を見つけ、書き換えます。人と同じような書き方や編集方法で記事を書き換えるところが、とても印象的なツールです。

 

 

このツールによって、文章や名前、場所、日付、番号のアップデートを人間の編集者が定期的に変更する際にかかる時間を、節約することができます。数百もの人がWikipediaの記事を変更する代わりにひつような人数が、ほんの数人になるのです。

 

 

どのように動作するか

 

 

ツールは、人が文法やスタイルを心配せず、アップデートされたデータで非構造化された文の入力をするためのインターフェースを提供します。これは自動的に、Wikipediaの関連ページや古い文章にピンポイントを当てます。

 

 

新しいデータでの入力は一貫し、既存の記事の残りの部分に収まる必要があります。研究者は、この制約のある生成タスクを解決するための2段階の解決策を提案しました。これには、Wikipediaページから入力して古くなった文と、更新された競合するデータで構成される、別のクレーム文が含まれます。

 

 

1.特定のクレームの、ターゲットテキスト内の矛盾する要素を検出して削除します

 

 

2.残りのテキストを展開して、指定されたクレームと一致するようにします。

 

 

最初のステップは、中和スタンスモデルを使用して達成され、2番目のステップは、コピーアテンションを備えたユニークな2エンコーダシーケンス間の方法を使用して達成されます。

 

 

 

 

事実に基づいた更新パイプライン

 

 

研究者は、“SARI”スコアでモデルを評価しました。これは、人間の編集者が文を書く方法と比較して、マシンが単語を追加、保持、削除する能力を示します。彼らは、新しいモデルが事実情報を正確にアップデートするのを発見しました。既存の生成技術よりも優れ、また、より人に似た文法やスタイルで文章を書いていたのです。

 

 

モデルのパフォーマンスは、クラウドソーシングされた人間でもテストされました。文法のマッチングでは平均スコアが3.855までのうち)、および実際の更新で4つの平均スコアを達成しました。

 

 

他のアプリケーション

 

 

この調査結果は、モデルを使用してデータセットを増強し、「偽のニュース」検出器をトレーニングする際のバイアスを除去できることも示しています。この研究では、研究者は拡張データセットを使用して(手動で追加情報を収集することなく)、標準の偽ニュース検出器のエラー率を13%削減することができました。

 

 

今後数年の間に研究者は、インターネットからの最新情報を識別、および使用して、更新された情報を反映しつつウィキペディアの関連ページに書き換え、文の生成ができる、完全自動化モデルの開発を試みます。

おすすめ新着記事

おすすめタグ