炉と加熱システム 言語学とコンピューターサイエンスの関係。 計算言語学とは何ですか

言語学とコンピューターサイエンスの関係。 計算言語学とは何ですか

計算言語学(また: 数学的または 計算言語学、 英語 計算言語学) - 人工知能システムを作成する際の人間と動物の知的プロセスの数学的およびコンピューターモデリングの分野における科学的方向性。数学的モデルを使用して自然言語を記述することを目的としています。

計算言語学は自然言語処理と重複します。 ただし、後者では、抽象モデルではなく、コンピューター システムの言語を記述および処理する応用方法に重点が置かれています。

コンピュータ言語学者の活動分野は、言語情報を処理するためのアルゴリズムとアプリケーション プログラムの開発です。

起源

数学言語学は、人工知能科学の一分野です。 その歴史は1950年代にアメリカ合衆国で始まりました。 トランジスタの発明と新世代のコンピュータ、そして最初のプログラミング言語の出現により、機械翻訳、特にロシア語の実験が始まりました。 科学雑誌。 1960年代に、同様の研究がソ連でも実施された(たとえば、1964年のコレクション「サイバネティクスの問題」におけるロシア語からアルメニア語への翻訳に関する記事)。 ただし、機械翻訳の品質は依然として人間の翻訳の品質に比べてはるかに劣ります。

1958 年 5 月 15 日から 5 月 21 日まで、第 1 回機械翻訳に関する全組合会議が I モスクワ国立外国語教育研究所で開催されました。 組織委員会の委員長はV. ユー・ローゼンツヴァイク氏と組織委員会事務局長のG. V. チェルノフ氏でした。 カンファレンスの全プログラムは、コレクション「機械翻訳と応用言語学」第 2 巻に掲載されています。 1959 年 1 日(別名「機械翻訳協会会報第 8 号」)。 V. Yu. Rosenzweig が回想しているように、出版された会議要旨集は米国に伝わり、そこで大きな印象を残しました。

1959年4月、レニングラード大学と応用言語学委員会が招集した第1回数学言語学全連合会議がレニングラードで開催された。 会議の主な主催者はNDアンドレーエフでした。 多くの著名な数学者、特にS. L. ソボレフ、L. V. カントロヴィッチ (後に - ノーベル賞受賞者)とA.A.マルコフ(最後の2人は討論会で発言しました)。 V. Yu. Rosenzweig 氏は、会議の初日に「翻訳の一般言語理論と数学言語学」と題して基調講演を行いました。

計算言語学の分野

  • 自然言語処理 自然言語処理; 構文的、形態論的、意味論的なテキスト分析)。 これには以下も含まれます。
  1. コーパス言語学、テキストの電子コーパスの作成と使用
  2. 電子辞書、シソーラス、オントロジーの作成。 たとえば、Lingvo。 辞書は、自動翻訳やスペルチェックなどに使用されます。
  3. テキストの自動翻訳。 Promt はロシア語翻訳者の間で人気があります。 無料のものにはGoogle翻訳があります。
  4. テキストからの事実の自動抽出 (情報抽出) (eng. 事実抽出、テキストマイニング)
  5. 自動参照 自動テキスト要約)。 この機能は、たとえば Microsoft Word に含まれています。
  6. ナレッジマネジメントシステムの構築。 エキスパート システムを参照
  7. 質疑応答システムの構築 質問応答システム).
  • 光学式文字認識 OCR)。 たとえば、FineReader プログラム
  • 自動音声認識 ASR)。 有料ソフトと無料ソフトがある
  • 自動音声合成

主な協会と会議

ロシアでの学習プログラム

こちらも参照

記事「計算言語学」についてレビューを書く

ノート

リンク

  • (抽象的な)
  • - ロシア語の言語リソースの知識ベース
  • - 一部のユーティリティのオープンソース 計算言語学
  • - 計算言語学プログラムへのオンラインアクセス

計算言語学の特徴を示す抜粋

「連れて行って、子供を連れて行って」とピエールは少女を引き渡し、尊大かつ急いで女性に話しかけた。 - 彼らにあげてください、彼らにあげてください! -彼はほとんど女性に向かって叫び、泣き叫ぶ少女を地面に置き、再びフランス人とアルメニア人の家族を振り返りました。 老人はすでに裸足で座っていた。 小柄なフランス人は最後のブーツを脱ぎ、ブーツをもう一方に叩きつけました。 老人はすすり泣きながら何かを言いましたが、ピエールはそれを垣間見ただけでした。 彼の注意はすべてフードをかぶったフランス人に向けられていたが、そのときフランス人はゆっくりと体を揺らしながら若い女性に近づき、ポケットから手を出して彼女の首を掴んだ。
美しいアルメニア人女性は、長いまつ毛を下げ、まるで兵士が自分に何をしているのか見ても感じていないかのように、動かずに同じ姿勢で座り続けた。
ピエールさんがフランス人から隔てられた数歩を走っている間、フードをかぶった長身の略奪者がすでにアルメニア人女性の首から彼女が着けていたネックレスを引きちぎろうとしており、若い女性は首を手で押さえながら甲高い声で叫んだ。 。
– レッセ・セッテ・ファム! [この女を放っておけよ!] - ピエールは狂ったように叫び、背が高くて猫背の兵士の肩を掴んで投げ飛ばした。 兵士は倒れたが、立ち上がって逃げた。 しかし、彼の同志はブーツを脱ぎ捨てて包丁を取り出し、ピエールに向かって威嚇的に進んできた。
- ヴォヨン、パ・ド・ベティーズ! [しかたがない! バカなことを言うな!] – 彼は叫んだ。
ピエールはその激怒の中で何も覚えておらず、その中で彼の力は10倍に増加しました。 彼は裸足のフランス人に突進し、包丁を取り出す前にすでに彼を倒し、拳で殴りつけていた。 周囲の群衆から賛同の叫びが聞こえ、同時にフランス槍騎兵の騎馬哨戒隊が角を曲がって現れた。 槍兵たちは小走りでピエールとフランス人に近づき、彼らを取り囲んだ。 ピエールさんは次に何が起こったのか何も覚えていなかった。 彼は、自分が誰かを殴ったこと、殴られたこと、そして最後には両手が縛られていると感じたこと、大勢のフランス兵が彼の周りに立って彼のドレスを調べていたことを思い出した。
「Il a un poignard、中尉、[中尉、彼は短剣を持っています」] がピエールが理解した最初の言葉でした。
- ああ、武装してないよ! [ああ、武器だ!] - 将校はそう言って、ピエールと一緒に連れて行かれた裸足の兵士の方を向いた。
「C"est bon, vous direz tout cela au conseil de guerre、分かった、分かった、裁判で全て話すよ。」そして警官はピエールに向かって言った、「Parlez vous francais vous?」フランス語はできますか? ]
ピエールは血走った目で周囲を見回したが、答えなかった。 士官がささやき声で何かを言い、さらに4人の槍兵がチームから離れてピエールの両側に立ったので、彼の顔はおそらく非常に怖く見えたでしょう。
– パルレ・ヴ・フランセ? – 警官は彼から離れたまま、彼に質問を繰り返した。 - Faites venir l "通訳します。 [通訳を呼びます。] - ロシアの民間服を着た小柄な男性が列の後ろから出てきました。ピエールは、その服装と話し方から、彼がモスクワの店の1つから来たフランス人であることをすぐに認識しました。
「Il n"a pas l"air d"un homme du peuple、[彼は庶民には見えませんね」と通訳はピエールを見ながら言った。
– ああ、ああ! 警官は「これは、火事のせいですか?」とぼやけた。「どうするの? 【おおおお! 彼は放火犯によく似ている。 彼が誰なのか尋ねてください?]と彼は付け加えた。
- あなたは誰ですか? –通訳者に尋ねた。 「当局は答えなければならない」と彼は言った。
– ジュ・ネ・ヴ・ディライ・パス・キ・ジェ・スイス。 私は囚人です。 Emmenez moi、[私が誰であるかは言いません。 私はあなたの囚人です。 私を連れて行ってください」とピエールは突然フランス語で言いました。
- ああああ! –警官は眉をひそめながら言った。 - マルションズ!
ランサーたちの周りに群衆が集まった。 ピエールの一番近くには、あばただらけの女性が女の子を連れて立っていた。 回り道が動き始めたとき、彼女は前に進んだ。
- どこへ連れて行かれるのですか、愛する人? - 彼女は言いました。 - この女の子、もし彼女が彼らのものじゃなかったら、私はこの女の子をどうするつもりですか! - 女性は言いました。
– Qu"est ce qu"elle veut cette femme? [彼女は何が欲しいのですか?] - 警官に尋ねました。
ピエールは酔っているように見えた。 彼の恍惚状態は、自分が救った少女の姿を見てさらに激化した。
「Ce qu"elle dit?」と彼は言いました。「Elle m"apporte ma fille que je viens de sauver des flammes」と彼は言いました。 - さよなら! 【彼女は何が欲しいの? 彼女は私が火事から救った私の娘を運んでいます。 さらば!] - そして彼は、この目的のない嘘がどのようにして逃れられたのかも知らず、フランス人の間を決定的で厳粛な足取りで歩きました。
フランスのパトロール隊は、デュロネルの命令により、略奪を鎮圧するため、特に放火犯を捕らえるためにモスクワの様々な街路に派遣されたパトロール隊のうちの一つであった。火災の原因。 いくつかの通りを巡回した後、パトロール隊はさらに5人の不審なロシア人、1人の店主、2人の神学生、1人の農民と使用人、そして数人の略奪者を捕らえた。 しかし、疑わしい人々の中で、ピエールが最も疑わしいように見えました。 彼ら全員がズボフスキー・ヴァルの大きな家に連れて行かれ、そこに衛兵所が設けられていたが、ピエールは別々に厳重な警備の下に置かれた。

この頃サンクトペテルブルクでは、上層部ではこれまで以上に熱狂的に、ルミャンツェフ、フランス、マリア・フョードロヴナ、ツァーレヴィチらの党派の間で複雑な闘争があったが、いつものようにラッパの吹き声によってかき消された。法廷ドローンのこと。 しかし、穏やかで、贅沢で、幽霊や人生の反映だけに関心があり、サンクトペテルブルクの生活は以前と同じように続きました。 そして、この生涯の経過により、ロシア国民が置かれている危険と困難な状況を認識するために多大な努力を払う必要があった。 同じ出口、舞踏会、同じフランス劇場、法廷の同じ利益、奉仕と陰謀の同じ利益がありました。 現在の状況の困難さを思い出させる努力がなされたのは、上層部だけであった。 このような困難な状況で二人の皇后がどのように互いに反対の行動を取ったのかがささやき声で語られました。 マリア・フョードロヴナ皇后は、管轄下の慈善団体や教育機関の福祉を懸念し、すべての機関をカザンに送るよう命令を出し、これらの機関の荷物はすでに梱包されていた。 エリザベタ・アレクセーエヴナ皇后は、ロシア特有の愛国心でどのような命令を出したいのかと問われると、国家機関については命令できない、これは主権者に関わることだからと意気揚々と答えた。 個人的に自分に依存しているのと同じことについて、彼女はサンクトペテルブルクを離れるのは自分が最後になるだろうと意地でも言いました。

コンピュータ言語学者は、テキストおよび音声認識アルゴリズムの開発、人工音声の合成、意味論的翻訳システムの作成、および人工知能 (古典的な意味での人間の知能の代替としての人工知能) の開発に従事しています。登場する可能性は低いですが、データ分析に基づいたさまざまなエキスパート システム)。

音声認識アルゴリズムは日常生活でますます使用されるようになるでしょう。 スマートホーム「そして電子機器にはリモコンやボタンがなく、代わりに音声インターフェースが使用されることになります。 この技術は改良されつつありますが、まだ多くの課題があります。コンピュータが人間の音声を認識するのは困難です。 さまざまな人彼らは全く違う話し方をします。 したがって、一般に、認識システムは、1 人の話者向けにトレーニングされ、その話者の発音特徴にすでに調整されている場合、またはシステムが認識できるフレーズの数が限られている場合 (たとえば、音声コマンドの場合など) にうまく機能します。テレビ)。

意味翻訳プログラム作成の専門家には、まだ多くの仕事が残されています。現時点では、優れたアルゴリズムは英語への翻訳と英語からの翻訳にのみ開発されています。 ここには多くの問題があります - さまざまな言語意味論的な観点から構造が異なり、フレーズの構築レベルでも異なります。また、ある言語のすべての意味を別の言語の意味論的装置を使用して伝えることができるわけではありません。 さらに、プログラムは同音異義語を区別し、品詞を正しく認識し、正しい意味を選択する必要があります。 多義的な単語、文脈に応じて適切です。

人工音声(家庭用ロボットなど)の合成も骨の折れる作業です。 人工的に作成された音声を人間の耳に自然に聞こえるようにするのは困難です。なぜなら、私たちが注意を払わないニュアンスが何百万もあるからです。しかし、それがなければ、すべてが「同じ」ではなくなります - 間違ったスタート、一時停止、ためらいなど。 音声の流れは連続的であり、同時に離散的です。私たちは単語と単語の間に休憩することなく話しますが、ある単語がどこで終わり、別の単語が始まるのかを理解するのは難しくありませんが、機械にとってこれは大きな問題となります。

計算言語学の最大の方向性はビッグデータに関連しています。 結局のところ、ニュース フィードなどのテキストの膨大なコーパスがあり、そこから特定の情報を分離する必要があります。たとえば、ニュース フィードを強調表示したり、RSS を特定のユーザーの好みに合わせて調整したりする必要があります。 コンピューティング能力が急速に成長しているため、このようなテクノロジはすでに存在しており、今後も発展し続けるでしょう。 言語テキスト分析は、インターネットのセキュリティを確保し、諜報機関に必要な情報を検索するためにも使用されます。

コンピュータ言語学者になるにはどこで勉強すればよいですか? 残念なことに、我が国では、古典言語学とプログラミング、統計、データ分析に関する専門分野がかなり分かれています。 デジタル言語学者になるには、両方を理解する必要があります。 海外の大学にはコンピュータ言語学の高等教育プログラムがありますが、現時点では基礎的な言語教育を受けてからITの基礎を習得するのが最善の選択です。 今ではさまざまなオンラインコースがあるのは良いことですが、残念ながら私の学生時代にはそうではありませんでした。 私はモスクワ国立言語大学の応用言語学部で学びました。そこでは人工知能と音声認識に関するコースがありましたが、それでも十分な量ではありませんでした。 現在、IT企業は教育機関と積極的に交流しようとしている。 Kaspersky Lab の同僚と私も、このイベントに参加しようとしています。 教育プロセス: 講義を行ったり、学生カンファレンスを開催したり、大学院生に助成金を与えたりしています。 しかし今のところ、この取り組みは大学よりも雇用主によるものである。

記事の内容

コンピュータ言語学、コンピュータツール(プログラム)の使用に焦点を当てた応用言語学の方向性、 コンピューターテクノロジーデータの組織化と処理 - 特定の条件、状況、問題領域などにおける言語の機能をモデル化するだけでなく、言語学および関連分野における言語のコンピューターモデルの適用範囲全体をモデル化します。 実際、厳密な意味での応用言語学について話しているのは後者の場合だけです。言語のコンピューターモデリングは、言語科学の問題を解決するためのコンピューターサイエンスとプログラミング理論の応用分野ともみなされるためです。 ただし、実際には、計算言語学には、言語学におけるコンピューターの使用に関連するほとんどすべてが含まれます。

計算言語学は 1960 年代に特別な科学分野として形を整えました。 ロシア語の「コンピュータ言語学」は、英語の計算言語学からの翻訳です。 ロシア語の形容詞computationalは「計算」とも訳せるため、文献では「計算言語学」という用語も見られますが、ロシア科学ではこれはより狭い意味を持ち、「定量言語学」の概念に近づきます。 この分野の出版物の流れは非常に多いです。 テーマ別のコレクションに加えて、米国では雑誌「Computer Linguistics」が四半期ごとに発行されています。 多くの組織的および科学的活動は、地域的な組織 (特に欧州支部) を持つ計算言語学協会によって実行されています。 2 年ごとに、計算言語学に関する国際会議 COLING が開催されます。 対応する問題は通常、人工知能に関するさまざまな会議で広く取り上げられます。

計算言語学のためのツールキット。

特別な応用分野としての計算言語学は、主にその手段によって区別されます。 言語データを処理するためのコンピューターツールの使用について。 言語機能の特定の側面をモデル化するコンピューター プログラムは、最も多くの機能を利用できるため、 さまざまな手段プログラミングを理解しているのであれば、コンピュータ言語学の一般的な概念装置について話す必要はないようです。 しかし、そうではありません。 存在する 一般原理思考のコンピュータモデリング。これは何らかのコンピュータモデルに何らかの形で実装されます。 これらは、もともと人工知能の分野で開発され、後に認知科学の一分野となった知識理論に基づいています。 コンピュータ言語学の最も重要な概念的カテゴリーは、「フレーム」(概念的、または、典型的な主題的に統一された状況に関する知識の宣言的表現のための概念的構造)、「シナリオ」(手続き的な概念のための概念的構造)などの知識構造です。典型的な状況または典型的な行動に関する知識の表現)、「計画」(特定の目標を達成するために考えられる行動についてのアイデアを捉えた知識構造)。 フレームのカテゴリーと密接に関係しているのが「シーン」という概念です。 シーンカテゴリは主に計算言語学の文献で、発話行為で実現され、言語的手段(語彙素、構文構造、文法カテゴリなど)によって強調表示される状況とその部分の宣言的表現のための概念的構造の指定として使用されます。 。

ある方法で組織化された一連の知識構造が、認知システムとそのコンピューター モデルの「世界モデル」を形成します。 人工知能システムでは、世界モデルは特別なブロックを形成します。このブロックには、選択したアーキテクチャに応じて、世界に関する一般知識が (「冬は寒い」などの単純な命題の形で、または生産ルールの形で) 含まれる場合があります。 「外で雨が降っている場合は、レインコートを着るか、傘を持っていく必要があります」)、いくつかの具体的な事実(「世界で最も高い山はエベレストである」)、および価値観とその階層が、場合によっては次のようなものに分けられます。特別な「アキオロジカルブロック」。

計算言語学のツールの概念のほとんどの要素は同名です。それらは同時に、人間の認知システムのいくつかの実際のエンティティと、理論的記述とモデリングで使用されるこれらのエンティティを表現する方法を指定します。 言い換えれば、コンピュータ言語学の概念的装置の要素には、存在論的側面と手段的側面があります。 たとえば、存在論的な側面では、宣言的知識と手続き的知識の分割は、人が利用できるさまざまなタイプの知識、いわゆる知識 WHAT (宣言的; たとえば、ある NN の住所に関する知識) に対応します。一方では知識HOW(手続き的な知識、たとえば、正式な住所を知らなくてもこのNNのアパートを見つけることができるような知識)-。 手段的な側面では、知識は、一方では一連の記述(説明)、一連のデータ、そして一方ではアルゴリズム、つまりコンピューターまたはその他の認知システムのモデルによって実行される命令で具体化できます。もう一方の。

計算言語学の方向性。

CL の分野は非常に多岐にわたり、コミュニケーションのコンピュータ モデリング、プロット構造モデリング、テキスト表示のためのハイパーテキスト テクノロジ、機械翻訳、コンピュータ辞書編集などの分野が含まれます。 狭義では、CL の問題は、「自然言語処理」 (英語の用語 Natural Language Processing の訳語) というやや残念な名前が付いた学際的な応用領域に関連付けられることがよくあります。 それは 1960 年代後半に生まれ、「人工知能」という科学技術分野の中で発展しました。 内部形式では、「自然言語処理」という語句は、言語データを処理するためにコンピューターが使用されるすべての領域をカバーします。 一方で、この用語のより狭い理解が実際には定着しており、人間とコンピュータとの自然言語または限定された自然言語でのコミュニケーションを保証する方法、技術、および特定のシステムの開発が行われています。

「自然言語処理」の分野は 1970 年代に急速に発展し、これに伴ってコンピューター エンド ユーザーの数が予想外に急激に増加しました。 すべてのユーザーに言語とプログラミング技術を教えることは不可能であるため、コンピュータープログラムとの対話を組織化するという問題が生じています。 この通信問題に対する解決策は、主に 2 つの方法で行われました。 最初のケースでは、プログラミング言語とオペレーティング システムをエンド ユーザーに適応させる試みが行われました。 その結果、言語が出現した 上級 Visual Basic などの便利なオペレーティング システムだけでなく、人間に馴染みのあるメタファーの概念的空間に構築された便利なオペレーティング システム (デスク、ライブラリ)。 2 番目の方法は、自然言語またはその限定されたバージョンで特定の問題領域でコンピューターと対話できるシステムを開発することです。

一般的な自然言語処理システムのアーキテクチャには、ユーザーの音声メッセージを分析するブロック、メッセージを解釈するブロック、応答の意味を生成するブロック、およびステートメントの表面構造を合成するブロックが含まれます。 システムの特別な部分は対話コンポーネントであり、対話を実行するための戦略、これらの戦略を使用するための条件、および起こり得るコミュニケーション障害 (コミュニケーションプロセスの失敗) を克服する方法を記録します。

コンピュータ自然言語処理システムの中では、通常、質問応答システム、対話型問題解決システム、および接続されたテキスト処理システムが区別されます。 当初、質問応答システムは、 質の悪い情報検索システムで情報を検索する際のクエリのエンコード。 このようなシステムの問題領域は非常に限られていたため、クエリを形式言語の表現に変換するアルゴリズムと、形式表現を自然言語のステートメントに変換する逆の手順がいくらか簡素化されました。 国内の開発の中には、このタイプのプログラムには、E.V. ポポフのリーダーシップの下で研究者のチームによって作成されたPOETシステムが含まれます。 システムはロシア語でのリクエストを (若干の制限はありますが) 処理し、回答を合成します。 プログラムのフローチャートには、分析のすべての段階 (形態論的、構文論、意味論) と、対応する合成の段階が含まれます。

会話型問題解決システムは、以前のタイプのシステムとは異なり、その中で提示される知識とユーザーから得られる情報に基づいて問題の解決策を得ることがタスクであるため、コミュニケーションにおいて積極的な役割を果たします。 このシステムには、特定の問題領域の問題を解決するための典型的なアクションのシーケンスと、必要なリソースに関する情報を記録する知識構造が含まれています。 ユーザーが質問したりポーズをとったりするとき 特定のタスク、対応するシナリオがアクティブになります。 一部のスクリプト コンポーネントが不足している場合、または一部のリソースが不足している場合、システムは通信を開始します。 たとえば、SNUKA システムは次のように動作します。 問題解決者軍事作戦を計画している。

接続されたテキストを処理するシステムの構造は非常に多様です。 それらに共通する特徴は、知識表現技術の普及であると考えられます。 この種のシステムの機能は、テキストを理解し、その内容に関する質問に答えることです。 理解は普遍的なカテゴリーとして考えられるのではなく、特定の伝達意図によって決定される、テキストから情報を抽出するプロセスとして考えられます。 言い換えれば、テキストは、潜在的なユーザーがまさにそれについて知りたいと思っていることを前提としてのみ「読まれます」。 したがって、接続されたテキストを処理するシステムは決して万能ではなく、問題指向であることがわかります。 ここで説明するタイプのシステムの典型的な例は、単一のシステムを形成する RESEARCHER システムと TAILOR システムです。 ソフトウェアパッケージ、ユーザーは複雑な物理的オブジェクトを説明する特許要約から情報を取得できます。

コンピュータ言語学の最も重要な分野は、情報検索システム (IRS) の開発です。 後者は、科学および技術情報の量の急激な増加に対応して、1950 年代後半から 1960 年代前半に発生しました。 保存および処理される情報の種類と検索機能に基づいて、情報検索システムは 2 つに分類されます。 大人数のグループ– ドキュメンタリーと事実。 文書情報検索システムは、文書のテキストまたはその説明 (要約、書誌カードなど) を保管します。 事実 IRS は特定の事実の説明を扱いますが、必ずしもテキスト形式ではありません。 これらは、表、数式、その他のタイプのデータ表現です。 文書と事実情報の両方を含む混合情報システムもあります。 現在、事実情報システムはデータベース技術(DB)を基盤として構築されています。 情報検索システムでの情報検索を確実にするために、情報検索シソーラスに基づいた特別な情報検索言語が作成されます。 情報検索言語は、情報検索システムに保存されているドキュメントの内容計画とリクエストの特定の側面を記述するために設計された形式言語です。 情報検索言語で文書を記述する手順をインデックス作成と呼びます。 インデックス付けの結果、各文書には情報検索言語での正式な説明、つまり文書の検索画像が割り当てられます。 クエリも同様の方法でインデックス付けされ、検索クエリ画像と検索処方が割り当てられます。 情報検索アルゴリズムは、検索処方と検索クエリ画像の比較に基づいています。 要求に対して文書を発行する基準は、文書の検索画像と検索指示とが完全に一致してもよいし、部分的に一致してもよい。 場合によっては、ユーザーが自分で発行基準を策定する機会もあります。 これは、彼の情報の必要性によって決まります。 自動情報検索システムでは、多くの場合、記述子情報検索言語が使用されます。 文書の主題は、一連の記述子によって記述されます。 記述子は、問題領域の単純でかなり初歩的なカテゴリと概念を示す単語や用語です。 文書内で扱われるさまざまなトピックと同数の記述子が文書の検索画像に入力されます。 記述子の数に制限がないため、機能の多次元マトリックスでドキュメントを記述することができます。 記述子情報検索言語では、記述子の互換性に制限が課されることがよくあります。 この場合、情報検索言語には構文があると言えます。

記述言語を使用して動作する最初のシステムの 1 つは、M. Taube によって作成されたアメリカの UNITERM システムです。 文書のキーワード (単位用語) は、このシステムでは記述子として機能しました。 この IRS の特徴は、最初は情報言語の辞書が指定されておらず、文書とクエリのインデックス作成の過程で生じたことです。 最新の情報検索システムの開発は、非シソーラス型の情報検索システムの開発と関連しています。 このような情報システムは、限られた自然言語でユーザーと連携し、検索は文書の要約のテキスト、書誌的説明、そして多くの場合文書自体を通じて実行されます。 非シソーラス タイプの IRS でのインデックス作成には、自然言語の単語とフレーズが使用されます。

コンピュータ言語学の分野には、ある程度、テキストを編成する特別な方法として、さらには基本的な方法として考えられるハイパーテキスト システムの作成分野の研究が含まれる場合があります。 新しい種類のテキストは、多くの特性において、グーテンベルクの印刷の伝統で形成された通常のテキストと対照的です。 ハイパーテキストのアイデアは、F. ルーズベルト大統領の科学顧問であるヴァネヴァー ブッシュの名前に関連付けられています。 V.ブッシュはこのプロジェクトを理論的に実証した 技術システム「Memex」は、主に連想関係によるさまざまなタイプの接続を使用して、テキストとその断片を接続できるようにします。 機械システムが実際の実装には複雑すぎることが判明したため、コンピューター技術の欠如によりプロジェクトの実装が困難になりました。

ブッシュのアイデアは 1960 年代に T. ネルソンのザナドゥ システムに生まれ変わりましたが、これにはすでにコンピュータ テクノロジーの使用が含まれていました。 「Xanadu」では、ユーザーはシステムに入力された一連のテキストをさまざまな方法で、さまざまな順序で読むことができ、ソフトウェアによって、表示されたテキストの順序を記憶し、いつでもそれらのほぼすべてを選択することができました。 それらを接続する関係を持つ一連のテキスト (トランジションのシステム) は、T. ネルソンによってハイパーテキストと呼ばれました。 多くの研究者は、ハイパーテキストの作成を、印刷時代とは対照的な、新しい情報時代の始まりと見ています。 文章の直線性は、外見上はスピーチの直線性を反映していますが、人間の思考と文章の理解を制限する基本的なカテゴリーであることが判明します。 意味の世界は非線形であるため、線形音声セグメント内の意味論的情報を圧縮するには、特別な「コミュニケーション パッケージング」の使用が必要です。つまり、テーマと韻への分割、発話内容の計画の明示的なものへの分割(ステートメント、命題、焦点)層と暗黙的(前提、結果、談話の含意)層。 理論家によれば、読者への提示の過程(つまり、読んで理解する過程)と統合の過程の両方においてテキストの直線性を拒否することは、思考の「解放」、さらには思考の出現に貢献するだろうという。新しい形。

コンピュータ システムでは、ハイパーテキストはグラフの形式で表示され、そのノードには従来のテキストまたはその断片、画像、表、ビデオなどが含まれます。 ノードはさまざまな関係によって接続されており、そのタイプは開発者によって指定されます。 ソフトウェアハイパーテキストまたは読者自身による。 関係は、ハイパーテキストを介した移動やナビゲーションの潜在的な可能性を定義します。 関係は一方向または双方向の場合があります。 したがって、双方向矢印を使用するとユーザーは両方向に移動できますが、一方向矢印を使用するとユーザーは一方向にのみ移動できます。 読者がテキストの構成要素を表示するときに通過するノードのチェーンは、パスまたはルートを形成します。

ハイパーテキストのコンピュータ実装は、階層的またはネットワーク化できます。 ハイパーテキストの階層的 (ツリー状) 構造により、コンポーネント間の遷移の可能性が大幅に制限されます。 このようなハイパーテキストでは、コンポーネント間の関係は、属と種の関係に基づくシソーラスの構造に似ています。 ネットワーク ハイパーテキストでは、属と種の関係に限定されず、コンポーネント間のさまざまなタイプの関係を使用できます。 ハイパーテキストの存在方法により、静的ハイパーテキストと動的ハイパーテキストが区別されます。 静的ハイパーテキストは動作中に変更されません。 ユーザーはその中でコメントを記録できますが、問題の本質は変わりません。 動的ハイパーテキストにとって、変化は通常の存在形態です。 通常、動的ハイパーテキストは、情報の流れを常に分析する必要がある場所で動作します。 さまざまな情報サービスにおいて。 ハイパーテキストは、たとえば Arizona Information System (AAIS) で、毎月 300 ~ 500 件の要約が更新されます。

ハイパーテキスト要素間の関係は、作成者が最初に固定することも、ユーザーがハイパーテキストにアクセスするたびに生成することもできます。 最初のケースでは 私たちが話しているのは 2番目はハード構造のハイパーテキストについて、2番目はソフト構造のハイパーテキストについてです。 剛構造は技術的には非常に理解できます。 ソフト構造を組織化する技術は、文書 (または他の情報源) の相互の近接性の意味分析に基づく必要があります。 これ 重要なタスク計算言語学。 現在、ソフトストラクチャー技術は、 キーワードおお。 ハイパーテキスト ネットワーク内のあるノードから別のノードへの遷移は、キーワードの検索の結果として実行されます。 キーワードのセットは毎回異なる可能性があるため、ハイパーテキストの構造は毎回変わります。

ハイパーテキスト システムを構築するためのテクノロジーでは、テキスト情報と非テキスト情報が区別されません。 一方、視覚情報と音声情報 (ビデオ、画像、写真、録音など) を含めるには、ユーザー インターフェイスの大幅な変更と、より強力なソフトウェアとコンピューターのサポートが必要です。 このようなシステムはハイパーメディア、またはマルチメディアと呼ばれます。 マルチメディア システムの可視性により、教育や百科事典のコンピュータ版の作成においてマルチメディア システムが広く使用されることが決まりました。 たとえば、Dorlin Kindersley が出版した子供向け百科事典に基づいて、マルチメディア システムを備えた美しく制作された CD-ROM があります。

コンピュータ辞書編集の枠組みの中で、辞書を編集および操作するためのコンピュータ技術が開発されています。 特別番組– データベース、コンピュータファイリングキャビネット、ワードプロセッサプログラム – を許可します 自動モード辞書エントリを生成し、辞書情報を保存し、それを処理します。 多くの異なるコンピュータ辞書編集プログラムは、辞書編集サポート プログラムと自動辞書という 2 つの大きなグループに分けられます。 さまざまな種類辞書編集データベースを含む。 自動辞書は、ユーザーまたはコンピュータのワードプロセッサ プログラムがコンピュータ上で使用することを目的とした、特別なマシン形式の辞書です。 言い換えれば、人間のエンドユーザー用の自動辞書とワードプロセッサ プログラム用の自動辞書には違いがあります。 エンドユーザー向けの自動辞書は、機械翻訳システム、自動抽象化システム、情報検索システムなどに含まれる自動辞書とは、インターフェイスや辞書エントリの構造が大きく異なります。 ほとんどの場合、それらはよく知られた従来の辞書のコンピュータ版です。 ソフトウェア市場には、英語の説明辞書に似たコンピューターの製品があります (自動 Webster、自動 辞書英語出版社コリンズ社、『New Great』の自動版 英語-ロシア語辞書によって編集 Yu.D. Apresyan と E.M. Mednikova)、オジェゴフの辞書のコンピューター版もあります。 ワードプロセッサ用の自動辞書は、厳密には自動辞書と言えます。 通常、これらは平均的なユーザーを対象としたものではありません。 それらの構造の特徴と語彙資料の範囲は、それらと対話するプログラムによって決まります。

プロット構造のコンピューターモデリングは別のものです 有望な方向性計算言語学。 プロット構造の研究は、(広義の)構造文学批評、記号論、文化研究の問題に関連しています。 プロット モデリングに利用できるコンピューター プログラムは、プロット表現の 3 つの基本的な形式、つまりプロット表現の形態学的および構文的方向、および認知的アプローチに基づいています。 プロット構造の形態学的構造に関するアイデアは、V.Ya Propp の有名な作品に遡ります。 cm.) ロシアのおとぎ話について。 プロップは、おとぎ話には登場人物や出来事が豊富にあるため、登場人物の機能の数が限られていることに気づき、これらの機能を記述するための装置を提案しました。 プロップのアイデアは、おとぎ話のプロットの生成をシミュレートする TALE コンピューター プログラムの基礎を形成しました。 TALE プログラムのアルゴリズムは、おとぎ話の登場人物の一連の機能に基づいています。 実際、プロップの関数は、経験的な資料の分析に基づいて順序付けられた、一連の典型的な状況を定義しました。 生成規則におけるさまざまな状況を結び付ける可能性は、おとぎ話のテキストから確立できる形式の典型的な一連の機能によって決定されました。 プログラムでは、典型的な機能シーケンスが典型的なキャラクター遭遇シナリオとして説明されました。

テキストのプロットに対する統語論的アプローチの理論的基礎は、「ストーリー文法」または「ストーリー文法」でした。 これらは、N. チョムスキーの生成文法の考え方をテキストのマクロ構造の記述に移した結果として、1970 年代半ばに登場しました。 生成文法の構文構造の最も重要な構成要素が動詞と名詞句である場合、ほとんどのプロット文法では、説明(設定)、出来事、エピソードが基本的なものとして選ばれます。 プロット文法の理論では、最小性の条件、つまり一連のプロット要素の状態を通常のプロットとして決定する制限が広く議論されてきました。 しかし、これは純粋に言語的な方法だけを使用して行うことはできないことが判明しました。 多くの制限は本質的に社会文化的なものです。 プロットの文法は、生成ツリー内のカテゴリのセットにおいて大きく異なりますが、物語の構造を変更するための非常に限られたルールのセットを許可します。

1980 年代初頭、R. シェンクの生徒の 1 人である V. レーナートは、コンピューター プロット ジェネレーターの作成の一環として、感情的なプロット ユニット (Affective Plot Units) の独自の形式主義を提案しました。これは強力な手段であることが判明しました。プロット構造を表現する方法。 この形式主義はもともと人工知能システムのために開発されたという事実にもかかわらず、純粋に理論的な研究で使用されていました。 レーナートのアプローチの本質は、プロットが登場人物の認知的および感情的状態の連続的な変化として記述されるということでした。 したがって、レーナートの形式主義の焦点は、プロットの外部構成要素(説明、出来事、エピソード、道徳)ではなく、その内容の特徴にあります。 この点において、レーナートの形式主義は部分的にはプロップの考えへの回帰である。

コンピュータ言語学の能力には、現在復活を遂げている機械翻訳も含まれます。

文学:

ポポフ E.V. 自然言語によるコンピュータとのコミュニケーション。 M.、1982
サドゥル V.G. 電子計算機による音声通信とその開発の問題点。 – 著書: スピーチコミュニケーション: 問題点と展望。 M.、1983年
バラノフ A.N. 言語意味論における人工知能のカテゴリ。 フレームとスクリプト。 M.、1987
コボゼワ I.M.、ラウファー N.I.、サブロワ I.G. ヒューマン・マシン・システムにおけるコミュニケーションのモデル化。 – 言語サポート 情報システム。 M.、1987
オルカー H.R. おとぎ話、悲劇と世界史の表現方法。 – 書籍内: 社会的相互作用の言語とモデリング。 M.、1987
ゴロデツキー B.Yu. 計算言語学: 言語コミュニケーションのモデリング
マックイーン K. 自然言語テキスト合成のための談話戦略。 – 外国語の新しい分野。 Vol. XXIV、計算言語学。 M.、1989
ポポフ E.V.、プレオブラジェンスキー A.B. . NLシステム導入の特徴
プレオブラジェンスキー A.B. 最新の NL システムの開発状況。 - 人工知能。 本 1、コミュニケーションシステムとエキスパートシステム。 M.、1990
サブボット M.M. ハイパーテキスト。 新しい形文章のコミニュケーション。 – ヴィニティ、シリアル コンピュータサイエンス、1994 年、第 18 巻
バラノフ A.N. 応用言語学入門。 M.、2000



コンピュータ言語学 (英語の計算言語学に由来する) 応用言語学の分野の 1 つで、コンピュータ プログラム、データを整理および処理するためのコンピュータ技術が開発され、言語を研究し、特定の条件、状況、問題における言語の機能をモデル化するために使用されます。地域。 一方、これは言語学および関連分野におけるコンピューター言語モデルの応用分野です。 特別な科学的方向性として、計算言語学は 1960 年代のヨーロッパの研究で具体化されました。 なぜなら 英語の形容詞 computational は「計算」とも訳せます。文献では「計算言語学」という用語も見られますが、ロシア科学ではこれはより狭い意味を持ち、「定量的言語学」の概念に近づきます。

「定量言語学」という用語は、計算言語学と呼ばれることが多く、応用研究における学際的な方向性を特徴づけるもので、定量的または統計的な分析手法が言語と音声を研究するための主要なツールとして使用されます。 量的(または定量的)言語学は、組み合わせ言語学と対比されることがあります。 後者では、支配的な役割は「非定量的」数学的装置、つまり集合論、数理論理学、アルゴリズム理論などによって占められます。理論的な観点から見ると、言語学における統計的手法を使用することで、以下のことを補うことが可能になります。確率的コンポーネントを備えた言語の構造モデル。つまり、重要な説明可能性を備えた理論的な構造確率モデルを作成します。 応用分野では、量的言語学は、まずこのモデルの断片の使用によって表され、言語の機能の言語監視、コード化されたテキストの解読、テキストの認証/帰属などに使用されます。

「コンピューター言語学」という用語とこの分野の問題は、多くの場合、コミュニケーションのモデリング、そして何よりも自然言語または限定された自然言語 (この目的のために特別な自然言語処理システムが作成されます) によるコンピューターと人間の対話の提供に関連付けられています。 )、情報技術検索エンジン (IRS) の理論と実践についても説明します。 人間とコンピュータとの自然言語でのコミュニケーションを確保することは、「自然言語処理」 (Natural Language Processing という用語の英語からの翻訳) と呼ばれることもあります。 コンピューター言語学のこの分野は、1960 年代後半に海外で生まれ、人工知能と呼ばれる科学技術分野の枠組みの中で発展しました (R. シェンク、M. レボウィッツ、T. ウィノグラードなどによる研究)。 その意味において、「自然言語処理」という語句は、言語データを処理するためにコンピューターが使用されるすべての領域をカバーする必要があります。 しかし実際には、この用語のより狭い理解が定着しており、人間とコンピュータとの自然言語または限定された自然言語によるコミュニケーションを保証する方法、技術、および特定のシステムの開発が行われています。

コンピューター言語学には、ハイパーテキスト システムを作成する分野の研究がある程度含まれることがあります。ハイパーテキスト システムは、テキストを編成する特別な方法として考えられており、グーテンベルクの伝統で形成された通常のテキストと多くの特性において対比される、根本的に新しいタイプのテキストとさえ考えられています。印刷の分野(グーテンベルクを参照)。

計算言語学の能力には自動翻訳も含まれます。

計算言語学の枠組みの中で、1980 年代から 1990 年代にかけて活発に発展してきた比較的新しい方向性が現れました。コーパス言語学では、現代のコンピュータ技術を使用して言語データ コーパス (特にテキスト コーパス) を構築するための一般原則が開発されています。 。 テキスト コーパスは、書籍、雑誌、新聞などから特別に選択されたテキストのコレクションであり、コンピュータ メディアに転送され、自動処理を目的としています。 最初のテキスト コーパスの 1 つは、W. フランシスの指導の下、1962 年から 1963 年にかけてブラウン大学でアメリカ英語用に作成されました (いわゆるブラウン コーパス)。 ロシアでは、2000 年代初頭以来、ロシア科学アカデミーのヴィノグラドフ ロシア語研究所が、約 1 億語の使用量を含むロシア語テキストの代表的なサンプルで構成されるロシア語国立コーパスを開発してきました。 データ コーパスの実際の構築に加えて、コーパス言語学ではコンピューター ツールの作成にも取り組んでいます ( コンピュータプログラム)、テキストコーパスからさまざまな情報を抽出するように設計されています。 利用者の観点から見ると、テキストコーパスには代表性(代表性)、完全性、経済性といった要件が求められます。

コンピュータ言語学はロシア国内外で活発に発展しています。 この分野の出版物の流れは非常に多いです。 テーマ別コレクションに加えて、米国では 1984 年以来、雑誌「計算言語学」が季刊で発行されています。 多くの組織的および科学的活動は、世界中に地域組織 (特に欧州支部) を持つ計算言語学協会によって実行されています。 2 年ごとに国際 COLINT 会議が開催されます (2008 年にはマンチェスターで会議が開催されました)。 計算言語学の主な方向性は、ロシア人工知能研究所、モスクワ州立大学哲学学部、Yandex、その他多くの組織が主催する年次国際会議「ダイアログ」でも議論されています。 関連する問題は、さまざまなレベルの人工知能に関する国際会議でも広く取り上げられています。

直訳:Zvegintsev V. A. 理論言語学および応用言語学。 M.、1968年。 Piotrovsky R. G.、Bektaev K. B.、Piotrovskaya A. A. 数学言語学。 M.、1977年。 ゴロデツキー・B・ユ。 実際の問題応用言語学 // 外国語学の新しい分野。 M.、1983年発行。 12; Kibrik A. E. 応用言語学 // Kibrik A. E. 言語学の一般および応用問題に関するエッセイ。 M.、1992年。 Kennedy G. コーパス言語学の入門。 L.、1998; Bolshakov I.A.、Gelbukh A. 計算言語学: モデル、リソース、アプリケーション。 メク、2004年。 ロシア語国立コーパス: 2003-2005。 M.、2005年。 Baranov A. N. 応用言語学の入門。 第3版 M.、2007; コンピュータ言語学と知的技術。 M.、2008 年発行。 7。

言語学 (ラテン語の lingua から -
言語)、言語学、言語学 - 科学、
言語を勉強しています。
これは一般的な人間の自然言語の科学です
そして彼のような世界のすべての言語について
個人の代表者。
広い意味での言語学は、
科学的なものと実践的なものに分けられます。 もっと頻繁に
言語学が意味するものはまさに
科学言語学。 それは記号論の一部です
記号の科学。
言語学者は専門的に言語学に従事します。

言語学とコンピューターサイエンス。
自動化システムは現代社会の生活において重要な役割を果たしています。
情報技術。 しかし開発 情報技術起こっている
非常に不均一です: 現代レベルのコンピュータ技術と
想像力を驚かせるコミュニケーション手段、そして意味処理の分野
情報によると、成功ははるかに控えめです。 これらの成功は、まず第一に、
人間の思考プロセス、言語プロセスの研究における成果
人々の間のコミュニケーションと、これらのプロセスをコンピュータ上でシミュレートする機能。 有望なものを生み出すとなると、これは非常に複雑な作業です。
情報技術、そして自動テキスト処理の問題
自然言語で表現された情報が前面に出てきます。
これは、人の思考がその言語と密接に関係しているという事実によって決まります。 もっと
さらに、自然言語は思考ツールです。 彼も
人々の間の普遍的なコミュニケーション手段、つまり認識の手段、
情報の蓄積、保存、処理、送信。
自動システムで自然言語を使用する場合の問題
コンピュータ言語学は情報処理を扱います。 この科学
比較的最近、50 年代と 60 年代の変わり目に誕生しました。
前世紀。 結成当初は様々な経緯がありましたが、
タイトル: 数学言語学、計算言語学、工学
言語学。 しかし、80年代初頭にその名前が付けられました。
計算言語学。

計算言語学は問題解決に関連する知識分野です
自然言語で表現された情報の自動処理。
計算言語学の中心的な科学的問題が問題です
テキストの意味を理解するプロセスのモデル化(テキストからテキストへの移行)
意味の形式化された表現)と音声合成の問題(からの移行)
自然言語によるテキストの意味の形式化された表現)。 これらの問題
多くの応用問題を解くときに発生します。
1) コンピュータにテキストを入力する際のエラーの自動検出と修正、
2) 口頭音声の自動分析と合成、
3) ある言語から別の言語へのテキストの自動翻訳、
4) 自然言語によるコンピュータとのコミュニケーション、
5) テキスト文書の自動分類とインデックス作成、
自動抽象化、全文データベース内の文書の検索。
過去半世紀にわたって、計算言語学の分野では次のようなことが得られてきました。
科学的かつ実践的な重要な成果: 機械システムが作成されました
ある自然言語から別の自然言語へのテキストの自動翻訳システム
テキスト内の情報の検索、口頭音声の自動分析と合成のためのシステム、
他にもたくさん。 しかし、失望もありました。 たとえば、機械翻訳の問題
ある言語から別の言語への文章は想像よりはるかに難しいことが判明
機械翻訳の先駆者とその追随者。 についても同じことが言えます
テキスト内の情報の自動検索と口頭の分析と合成のタスク
スピーチ。 科学者や技術者は明らかに、より多くの努力をしなければならないだろう
望ましい結果を達成します。

自然言語処理;
形態学的、意味論的なテキスト分析)。 これには以下も含まれます。
コーパス言語学、電子テキストコーパスの作成と利用
電子辞書、シソーラス、オントロジーの作成。 たとえば、Lingvo。 辞書
たとえば、自動翻訳やスペルチェックに使用されます。
テキストの自動翻訳。 ロシア語翻訳者の間で人気
プロンプトです。 無料のものにはGoogle翻訳があります。
文章からの事実の自動抽出(情報抽出)
抽出、テキストマイニング)
自動テキスト要約。 この機能は有効になっています
たとえば、 マイクロソフトワード.
ナレッジマネジメントシステムの構築。 エキスパート システムを参照
質問応答システムの作成。
光学式文字認識 (OCR)。 たとえば、FineReader プログラム
自動音声認識 (ASR)。 有料ソフトと無料ソフトがある
自動音声合成

サイトの新着情報

>

最も人気のある