項目別バックナンバー[1]:インターネット情報:14

WEB2.0

名称からみると、技術かソフトウエアに見えますが、あえて言えば新しい流れ ・状態・現象を指します。
次世代のインターネットを総称する言葉です。(今は)従って、現在進行中の インターネットの変化を表しているとも言えます。(一部)
その一つが、従来は情報を得る側だった大多数が情報の発信側にもなる事です。 具体的には、ブログ・SNS(ソーシャルネットワーク)・RSS(情報収集機能 )などです。これらは、ネットが一方向から双方向へ変わりつつ有ることを 示しています。
インターネットの利用が変わる事は、技術と共にネットビジネスモデルも変わ る事を示しています。

プラウザという情報を見るソフトの発展に、ホームページ・ブログ等の個人レ ベルでも情報を発信する事が可能になったこと。これに加えて、RSSという 情報の配信の告知及び収集ソフトの登場は、いわゆるマイナーな分野での情 報を有効化する事を可能にしました。
ビジネスモデルとしては、アドセンス広告とアフィリエイトを組み合わす事で マイナー・ニッチ分野をカバーする事が可能になりつつあります。
情報のなかには著作権や色々な権利で、個々のサイトでは使用出来ないものが あります。現在でもリンクという手段はありますが、より密接に容易に利用 出来る環境の整備が、WEB2.0の目指す内容です。
必要な内容と密接に関係を持つシステムは、現在よりもより多くのサイト・情 報に繋がりが生じ、それぞれに相乗的な有用さをもたらす事を期待できます。
ただ、あくまでも新しいインターネットのイメージ・方向性をまとめた概念で すので、単純に言葉にとらわれない注意も必要です。
ソーシャルネットワーク(SNS)もその一つですが、ブログ等も含めて新しい 流れには絶えずスパム行為が行われます。新しい技術は未完成部分も多く、 また言葉上でそれを装う事も多くあります。新しい事への対応には、新しい スパム行為への対応も必要です。


URLフィルタリング

URLフィルタリングとは、企業・自治体・省庁・学校などで(場合によっては、 一般家庭でも)ホームページの閲覧(インターネット接続)に一定の管理を 行いたい場合、「閲覧できるサイト」「閲覧できないサイト」の区分が、生 じます。それを実現する技術が「URLフィルタリング技術」と呼ばれます。
見ても良いかどうかの判断基準や運用は、ケースごとに大きく異なります。
従って、多くのURLフィルタリング製品では、単に「見れる・見れない」だけで はなく、時間帯や事業体では部門別に適用条件を切り替える機能を備える必 要があります。また可否判断の技術や方法にも、様々な方式が存在します。
URLフィルタリングは、まだ多くは知られていませんが、電子メールのスパム 振り分け・プラウザのアラーム(画面の上端に警告が出る)など既に広まっ ています。
ウイルス対策ソフトは、区別していますが技術的には近い部分があります。

URLフィルタリングは、大きく分けて(予想通りと思いますが!)
 (1)データベース方式
 (2)言語検索方式
 (3)セルフティティング方式  という3方式が存在します。
それぞれ長所短所がありますが、もっとも精度が高いのがデータベース方式と いわれています。複雑そうな言い方ですが、内容は極めてシンプルです。
国内・海外ともデータベース方式が多く採用され、事実上の業界標準となって います。とりあえずはスタートしやすく、あるレベルまでは無難といえます。
この方式の弱点とされるのが、これも当然ですがデータベースの更新とメンテ ナンスです。URLデータ・データベースの更新間隔を収集・分類・配信セ ンター常設で最小化し、毎日最新のデータを直接顧客のサーバに配信するこ とで、最新のフィルタリング機能と信頼性を両立しています。
これらは、ウイルス対策ソフトと類似しています。

URLフィルタリング方法の、(2)言語検索方式はデータベース方式と同じ様に 使われる事が現在までは多いです。
言語のどの単位か?等の課題は多くありますが、これをデータとして持ってい て、対象URLの内容を検索して・分類して・フィルタリングして行きます。
URLの内容が(メールも含めて)テキスト中心ならば、単語関連の検索になりま す。もちろん、書かれているテキスト言語の種類も含みます。
テキストが少ないURLでは、プログラムの内容を検索する必要があります。
画像等で、プログラムを読んでも分からない場合もあり限界はあります。
ただ、CGI・JAVA等の動的プログラムの有無は検索は可能です。最近のプラウザ で、これらを含むホームページで「警告バー」が出る場合がありますが、こ れ自体は言語検索で単純に可能です。

URLフィルタリング方法の、(3)セルフティティング方式は日本語変換ソフト 等でおなじみの学習方式です。
コンピュータが勝手に学習するのは、まだ課題は多いですが人間がフィルタに かけて遮断・分別する判断をすれば、その内容を分析して全く同じではなく ても類似内容をも同じ様に扱う事を目標にしています。
データベースや言語検索と、蓄積方法は同じですが新しい内容を判断する時に 判断がよくいえば応用を行う。悪く言えば、あいまい性を持たす事になりま す。AI(人工頭脳)が技術的に進めば、主体になると予想できますが、現状 では、時々誤った動作の可能性が避けられません。

URLフィルタリングが現在一番使用されているのが、迷惑メール・スパムメール の自動分別でしょう。
しかし、メールアドレスやIPアドレスのなりすましが有るために、あくまでも 分別のみで自動消去はできません。必要なメールを間違って削除してしまう 可能性もあるからです。
現在でも、サーバ単位・ドメイン単位での受信拒否はしばしば行われているよ うです。
受信拒否の時に、定まった拒否理由を返信すると送信側でも対応できますが、 内容を無視した拒否・返信を行うと、単なる自動返信と同じ扱いになるため に、スパムメールと同じになります。
インターネット回線の無駄な占有になっているスパムメール対策は、次世代の インターネットの大きな課題です。


新SEO

SEO(検索エンジン上位表示最適化)は、ホームページへのアクセスが検索エ ンジンから発生する事が多い事を前提にして研究されています。
無数といえる程存在するホームページから必要な所を探す時に、検索エンジン を使用する事が多くなったためです。
ホームページを探すには、ポータルサイトを利用するのが普通です。ポータル サイトは、・カテゴリー型と・検索型が主流です。前者は検索エンジンとの 併用が普通です。
カテゴリー型の代表は、ヤフーサイトです。カテゴリーへの登録は人による審 査で行っており審査費用が必要でした。日本ではこの利用が多いです。最近 は登録ホームページの優先度が弱くなり、独自方式の検索エンジンの開発を 行っています。
検索型の代表は、グーグルで欧米では現在はこちらの使用者が多いと言われて います。ロボットといわれるソフトで全ホームページを収集して、独自の( 内容は機密・多数あり絶えず変わっているとされています)方法で順位付け を行い結果を表示します。 グーグルの特徴は、検索速度が早い・順位付け精度が高い事です。これらが 劣れば無難なカテゴリー型より劣ります。現実は結果が優秀なために利用者 が増えています。
その結果、上記検索エンジンで上位と判定されるような研究が行われています。 これがSEOで、悪くいうと一種のスパム行為ですが今ではある程度の対応は常 識とされています。

グーグルの検索順位決定のアルゴリズムは多数あるとされており、当然ながら 非公表です。そして絶えず、改良・変更が行われています。
グーグルの検索順位決定アルゴリズムについては、色々な推測がされています。 基本は「対象ホームページの有用性」とされています。有用性は論文の引用 数と同じ考え方です。有用性の高いホームページから多くのリンクされてい る事が判断基準とされています。 ただし、リンクスパムを呼ぶ傾向がありますので、一定数以上はカウントし ないという考え方が現在はあります。
グーグル・ランクというものが有ります。グーグルのホームページからダウン ロードしてインストールするとプラウザに検索窓やランク表示窓が追加され ます。0-10までのどの程度の有用性か表示されます。目安にはなります が順位決定との完全な相関は、かならずしもないと現在はされています。

ホームページの種類が増えています。 ブログは、トラックバック機能で従来のホームページと異なる方法でリンク します。いわゆる勝手にリンクが可能という事でリンク数を検索順位に使用 するならば非常に有利になります。結果的にトラックバックスパムがはやっ ています。内容に関係ないブログにかたっぱしからトラックバックするもの です。順位付けの一つに良い(難しいですが)ホームページとのリンクが多 いというのがあるとされていますが、スパム行為で勝手に無関係の内容のリ ンクを貼られるのは迷惑です。 最近はトラックバック・リンク・コメント等はブログ管理者で受け入れるか どうかの設定が出来るのが普通です。
自動相互リンクのホームページもあります。これもホームページの性質を解析 しないと順位付けが狂います。
掲示板・ポータル検索エンジンのようなホームページもリンクや登録・書き込 み内容がホームページのコンテンツとすると判断が狂います。
コンテンツの多い・リンクの多いホームページも、具体的内容をも解析するよ うになってきています。

変更が早く多いので、古い情報は注意が必要です。有用でないホームページと 人間でも、ソフトでも判断出来る場合は間違いなくランクは低いです。
例えば、コピーサイト:ホームページ支給とある何かで作られたホームページ は同じものが複数ありますので、個々の有用性は下がります。また、URLが 長くなりコピー記号があるので、ソフト的にもランクは低いです。
独自ドメインにコピーした場合はどうでしょうか。検索すると同じ内容が全部 高いランクにはなりませんので、検索ロボットの解析しだいです。一番変動 が多いケースです。長くは高い評価は期待できません。
メタ記述部の、キーワード・タイトル等が評価基準として高かった時がありま すが、これも変動が大きい部分になっています。
直接の内容はいつも重要視されていますが、キーワード数や文字サイズなどで 強調する事の効果は、変動が多い内容です。
検索順位への効果は、テストサイトで実験での確認がノウハウとなっています が、終わりのない追いかけの傾向になっています。

検索エンジンの話題として、日本国産検索エンジンの開発の発表があります。
現在、世界的には「グーグル」がほとんどを占有し、日本やアジア等で「ヤフ ー」が優勢と言われています。
日本はコンピュータ・情報関連で、過去に多数の国産化の挑戦を行って来まし た。しかし結果的に残ったものはわずかです。
今回も大方の予想は、2大先行検索エンジンに替わる事は期待出来ないという ものの様です。
ただ、個人的には検索技術に言語的要素はどのくらい関係しているかの興味は あります。
パソコンOSに日本語変換ソフトが付属するという圧倒的優位の中で、ジャスト システムのATOKの普及状態・親指シフトを中心とした根強い日本語ワープロ 使用者の存在(飾り文ではなく、テキスト文を書く文筆業に多い)を見ると もし、日本語を初めとするアジア圏の言語を対象とした時に優位な検索要素 があるならば、可能性はゼロではないと思います。

このページの先頭へ