存档

作者存档

Google Adwords关键字的质量得分

2007年4月10日

昨日在网站上看到一些CarlosM 和Brad Geddes关于Google Adwords质量得分争论,关于关键字质量得分和目标网页相关度是否相关。 于是作了些深入的研究,发现原来关键字并不止一个质量得分.

上面这段文字摘自google adwords帮助主题Adwords质量得分。由此可见,在google内部,对于一个关键字至少有两个质量得分,一个是关键词的总体质量得分,也是Adwords界面中显示的那个Great, OK, Poor. 这个质量得分和目标网页相关,这也是用来帮助google甄别那些不相关的网站滥用(spamming)关键词,但是我们看到,这个总体质量得分似乎只和最低竞标价(minimum bid)相关。

另一个是用来帮助搜索排名的,称为排名质量得分。经过 Brad Geddes和google内部人员确认,Quality score for search rank和目标网页无关,同时从google帮助中我们也看到了这点。那么排名和哪些因素有关呢?我们先看一下如下因素:

搜索排名(Ad Rank) = (关键字质量得分) X (最高竞标价)

搜索排名就是你的网页在搜索引擎结果中显示的位置,数字越小,排名越高

Advertiser 1 Advertiser 2
Max CPC – $2.00Quality Score – 0.75Ad Rank – 1.5 Max CPC – $0.75Quality Score – 2.5Ad Rank – 1.875

关键字质量得分(Keyword Quality Score for Search) 由以下几个因素确定:

Google的点击率
一贯历史表现
最近表现
广告创意(Ad copy)
帐户质量得分(Account quality score )
其他因素
该因素里面不包含登陆页面

VN:F [1.9.22_1171]
Rating: 10.0/10 (1 vote cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

搜索引擎 , ,

Google Analytics Vocabulary

2007年4月6日

A

默认页 – 默认页设置应设置为默认(或索引)页在该网站目录中的名称。通常为“index.html”,但是在 Windows IIS 服务器上,则常常是“Default.htm”或“index.htm”。这一信息使 Google Analytics(分析)能够调和“http://www.example.com/”和“http://www.example.com/index.html”这类日志条目,这二者实际上是同一个网页。如果未输入正确的默认页信息,它们将被报告为两个网页。只能指定一个默认页。

A/B 测试- 请参阅“内容 (A/B) 测试“

Apache -Apache 是一种免费的开放源代码 Web 服务器软件系统,广泛应用于 UNIX、Linux 及类似的操作系统类型。这种软件系统还能用于 Windows 和其他操作系统。Google Analytics(分析)的管理系统由一款 Apache 衍生版本引动。有关更多信息,请参阅 Apache.org 。

C

CGI 脚本- CGI 脚本是用 Perl、PHP、Python 等若干种流行语言之一编写的程序,可从网页提取输入信息、对数据进行处理和生成自定义结果(还可能有其他多种用途)。CGI 脚本广泛用于向网站添加动态行为和处理表单。

Cookie- Web 服务器向 Web 浏览器提供的少量文本数据。数据在浏览器每次从该服务器请求网页时存储并返回给特定 Web 服务器。Cookie 的主要用途是将唯一标识符传递到网站,以便网站在用户浏览网站的同时持续跟踪用户。例如,受保护的网站可能在您成功登录后将临时标识符存储在 Cookie 中,指示您是已获得授权的用户。

Cookie 的名称从称作“神奇 Cookie”的 UNIX 对象中衍生。这就是附加到用户或程序的令牌,因用户或程序进入的区域而异。Cookie 有时也被称为“持续性 Cookie”,因为它们通常在浏览器中停留较长的时间。

Cron Job -”cron
job”是在 UNIX 类型操作系统下的一种计划任务。“cron”是始终在运行的一种后台程序或程序。其功能类似于 Windows 调度程序。

基于 IP 的访问者跟踪:对话指访问者进行的一系列网页点击(如访问者 IP 地址所定义),其中每两次网页点击之间间隔 30 分钟以内。如果间隔 30 分钟或 30 分钟以上,则会另计一次对话。

IP + 用户代理访问者跟踪:对话指访问者进行的一系列网页点击(如访问者 IP 地址和用户代理所定义,如 Netscape 4.72),其中每两次网页点击之间间隔 30 分钟以内。如果间隔 30 分钟或 30 分钟以上,则会另计一次对话。

唯一身份访问者跟踪 [基于 Cookie,例如 Google Analytics(分析)的 Urchin 访问量监控器]:对话指访问者的浏览器与特定网站之间的互动期间,在关闭浏览器窗口或浏览器程序时结束。

多重服务器网络- 多重服务器网络(或负载平衡网络)指为了不使单一设备过载而在计算机网络中平均分配处理和通讯活动的网络。在难以预测需要发送到服务器的请求数量的情况下,负载平衡对网络就显得尤其重要。繁忙的网站通常在一个负载平衡架构中使用两个或更多 Web 服务器。如果一个服务器开始饱和,则会将请求转发到具有更多容量的另一个服务器。

发布- 有两种方法可将 HTML 表单数据发送到服务器。默认方法 GET 用网址发送表单输入,而 POST 则用提交正文发送表单输入。后一种方法表示您可发送较大量的数据,表单结果的网址不会显示编码表单。

反向 DNS- 在 IP 地址中查找以获取域名的名称解析软件。它执行与 DNS 服务器相反的功能,将名称转换成 IP 地址。

防火墙- 指一种部署在 LAN(局域网)上的安全设施,用于保护局域网免受互联网入侵者侵害。防火墙可为特种硬件路由器、一款软件或两者兼有。

访问- 请参阅对话。

访问者- 访问者这一概念的设计是为了尽量真实地确定访问网站的不同个人的实际人数。当然,从网站方面讲,无法了解是否有两个人共享一台计算机,但良好的访问者跟踪系统可得到接近实际情况的计数。最准确的访问跟踪系统往往用 Cookie 保持对不同访问者的计数。

访问者对话- 访问者对话指访问者(包含唯一身份访问者和无法跟踪的访问者)与网站之间的互动期。对话的定义因使用的访问者跟踪类型而异。

访问者对话次数- 访问者对话次数表示个别用户在指定时间段内访问网站的次数。它是第一次、回访和未知对话次数的汇总。

访问者返回互动次数- 访问者返回互动次数表示唯一身份访问者在指定时间段内返回您的网站的次数。

访问者总数- 访问者人数指唯一身份访问者总数与无法跟踪的IP 地址访问者人数之和,表示指定时间段内访问网站的所有个别访问者的人数。

关键字- 关键字指一种数据库索引条目,用于标识具体记录或文档。关键字搜索是 Web 上文字搜索的最常见形式。多数搜索引擎都用关键字进行文字查询和检索。除非 Web 文档的作者指定用于其文档的关键字(使用元标记时可能发生这种情况),否则由搜索引擎决定这些关键字。从本质上讲,这表示搜索引擎会提取认为重要的字词并将其编入索引。文档开头部分提及或整篇文档多次重复的字词较可能被认为重要性高。

管理员级别- Google Analytics(分析)有两种基本的访问权限级别 – 仅查看报告和帐户管理员。具有仅查看报告访问级别的用户可查看其配置文件的报告,还可查看和修改其语言首选项。所有帐户管理员都对系统有完整的管理控制权限。

过滤模式- 过滤模式指针对 Google Analytics(分析)尝试匹配日志文件行的实际文字字符串。如果找到匹配,将根据过滤器类型排除或包含日志行(或“网页点击“)。模式可为待匹配的具体文字,也可在“正则表达式“中使用通配符。注意:过滤模式区分大小写,因此,如果要过滤出 Googlebot spider,则应使用“Googlebot”而不是“googlebot”(请勿使用引号)。

过滤器- 过滤器指一种文字字符串或正则表达式,用于排除某些网页点击或仅包含来自 Google Analytics(分析)报告中的某些网页点击。过滤器广泛用于过滤出某些内容,例如公司内部网页点击量或 javascript 库,或用于仅为某些类型的内容建立特殊的报告,例如网站的细目。

过滤器类型- 过滤器必须是两种过滤器类型之一,即包含(过滤进)或排除(过滤出)。如果使用包含性过滤器(包含),Google Analytics(分析)报告中将仅显示包含过滤器字符串的网页点击。如果使用排除性过滤器(排除),Google Analytics(分析)报告中将不显示包含过滤器字符串的网页点击。

过滤器名称- 过滤器名称主要用作过滤的描述性标题。它仅用作一种有组织的辅助手段,可包含空格。

过滤区域- 过滤区域指待应用过滤器的区域的编号。在日志文件行或网页点击中,有多个独特的区域,每个区域都有不同的数据段。要将过滤器应用到日志文件,必须先确定将过滤器应用到哪个区域。这就是过滤器区域。

后台程序- 后台程序指在 UNIX 类型操作系统下始终在运行的程序。常见的后台程序为服务器(如 Apache 或 FTP 服务器)和调度程序(如“cron”)。

缓存- 一种临时存储区域,供 Web 浏览器或服务提供商用于存储最近打开的常用网页和图片。缓存使浏览器能够快速重新加载最近查看过的网页和图片。

加密- 对信息编码以免其他互联网用户非法访问的过程。

脚本- 用简单编程语言编写的短小计算机程序,如 JavaScript、VBScript 或 Perl。

可扩展- 设施容量,可随着服务使用量的增加而扩展。

框架- 浏览器窗口中的矩形区域,显示网页连同其他框架中的网页。

来源(广告系列跟踪)- 就广告系列跟踪而言,来源指推介链接的来源。来源的示例包含:Google 搜索引擎、AOL 搜索引擎、简报名称或引荐网站的名称。来源的 Urchin 访问量监控器变量为 utm_source。

来源是广告系列跟踪的五种要素之一,其他四种分别是广告系列、媒介、字词和内容。

来源- 也称作源代码。存储在 HTML 文件中的实际文字和命令(包含标记、注释和脚本),利用 Web 浏览器查看网页时可能不显示。

联网- 指为交流和共享信息而相互连接的一组计算机。多数重要网络都连接到全球网络的网络,即互联网。

联系人姓名- 这是您已授权访问特定 Google Analytics(分析)报告的用户的真实姓名(就一般情况而言)。联系人姓名中间可带空格,且不区分大小写。

浏览器- 浏览器(或者,更准确地说是用户代理)指用于访问网站的软件。用户代理的示例是“Explorer”(如 Microsoft Internet Explorer)、“Netscape”(如 Netscape Navigator)和“Googlebot”(一种自动漫游器,可快速搜索网站内容以将内容包含在其搜索引擎中)。

浏览项目总计- 浏览项目总计指报告中当前显示的项目计数。此总数不包含未显示的项目。例如,如果相应报告中有 45 个项目,但只显示 10 个项目,则浏览项目总计中只计入显示的 10 个项目的总数。在浏览项目总计列表之下的是总数,代表此报告阅览时间范围内此报告中所有项目的计数。

路径- 路径指造成独特综合访问量的一系列网页点击。路径不能包含非网页文件,例如图片文件。路径中的每一步都有名称,例如“index.html”。

媒介(广告系列跟踪)- 就广告系列跟踪而言,媒介指网站访问者接收指向该网站的链接的方式。如果是搜索引擎链接,媒介的示例有“简单搜索“和“每次点击费用“;如果是简报,媒介的示例有“电子邮件“和“平面广告“。媒介的 Urchin 访问量监控器变量为 utm_medium。

媒介是广告系列跟踪的五种要素之一,其他四种分别是来源、广告系列、字词和内容。

每次点击费用 (CPC)- 广告客户(赞助商)在赞助商广告每次被点击时向发布商支付一定金额的广告模式。有时也称作 PPC(每次点击付费)。

每次点击付费- 赞助商(广告客户)在赞助商广告每次被点击时向发布商支付一定金额的广告模式。有时也称作每次点击费用。

每次点击平均收入值- 每次网页点击的平均收入价值,按总收入除以总网页点击次数计算。

密码- 密码指 Google Analytics(分析)管理或报告系统或其他任何受保护系统中用于验证用户身份的文字或代码。建议使用难于猜出的密码,例如包含数字或符号的密码。

目标转换率- 就广告系列跟踪而言,指网站上的对话造成到达该网站上转换目标的百分比。

目录- 目录指存放计算机文件的虚拟容器。它不仅仅是其名称所示的项目列表,更是计算机存储结构的一个关键构建块,可包含文件或其他目录。

内容 (A/B) 测试- 测试相同广告或其他内容不同版本在引荐访问者访问网站方面的相对效果。可通过在网址标记中使用 utm_content 变量来唯一地标识内容的多个版本。

内容(广告系列跟踪)- 内容是每个广告版本的标签。内容的 Urchin 访问量监控器变量 utm_content 指示访问者为转到某个网站而点击的链接的版本 – 例如
utm_content=graphic_version1a。

内容是广告系列跟踪的五种要素之一,其他四种分别是来源、媒介、广告系列和字词。

排除-”排除“指 Google Analytics(分析)过滤器配置中可用的一种过滤器类型。如果将排除过滤器应用到配置文件上,则在创建相应的 Google Analytics(分析)报告之前会放弃与排除字符串匹配的所有日志文件行(网页点击)。

配置文件- 配置文件指一组规则,用于约束通过日志文件数据生成的一组 Google Analytics(分析)报告。通常,每个域/网址都有一个配置文件(如 www.googleanalytics.com)。但是,任何一个来源都可能有任何数量的配置文件,因为每个来源都可能有用于排除或包含某些日志数据元素的不同规则。Google Analytics(分析)最多为每个帐户提供 50 个配置文件。

平均浏览页数- 访问者在一次对话中查看网站的平均页数。

平台- 平台指特定计算机硬件和软件操作系统组合,代表特定用户的配置和访问互联网的方法。常见的平台包含 Windows NT/x86(用于标准 Intel 型 PC 的 Microsoft
Windows NT)、Mac PPC(装有 Power PC 处理器的 Macintosh)、Red Hat Linux 6.1
x86(用于标准 Intel 型 PC 的 Linux)。

欺诈性点击- 企图消耗广告客户预算和或降低其在所赞助链接列表中的排名而重复点击每次点击付费推介链接的行为。

任务- 任务指编程到调度程序中的任何类型的日志处理事件。几乎可将任务设置为以需要的任意频率执行,但通常将运行的间隔时间设置为一天。

日期范围- Google Analytic(分析)的报告阅览时间范围功能使您能按任意时间段(短至一天,长至一年多)查看报告数据。多数报告都有报告阅览时间范围这一功能。

日志文件- 由 Web 或代理服务器创建的文件,包含与该服务器上的活动相关的所有访问信息。由 Web 服务器在日志文件中生成的每一行都表示一次网页点击或文件请求。因此,日志文件的行数等于文件中的网页点击次数,不包含可能存在的任何区域定义行。

软件- 控制硬件功能和指示硬件操作的程序、例程和符号语言。编写的程序、过程或规则以及相关的文档,专用于操作计算机系统,存储在读/写内存中。

上次运行- 指相应任务上次运行的时间,不论成功与否。同一任务再次运行时,此值会更改为新的启动时间。

身份验证- 访问互联网或 Intranet 资源需要用户输入用户名和密码的技术。

收入- 在支持电子商务报告的 Google Analytics(分析)版本中,术语“收入“可用使用中的任何本地货币表示,因为 Google Analytics(分析)也支持美元以外的货币。收入标签作为适当的数据显示选项显示在多个报告中。

首次对话次数- 唯一身份访问者在指定的时间段访问您的网站的次数,要求这些访问者在此时间段之前未访问过您的网站。这些访问者通过 Cookie 标识。

首次唯一身份访问者- 在分析的时间段之前未访问您的网站的唯一身份访问者人数。

搜索引擎- 搜索引擎是一种程序,用于针对指定关键字搜索文档并返回从中找到关键字的文档的列表,根据相关性(或至少为意图)排序。虽然搜索引擎确实是一种通用类别的程序,但这一术语往往用于专指 Google、AltaVista 等使用户能在万维网上搜索文档的系统。

投资回报率-(收入 – 成本)/成本,以百分比表示。

图形用户界面- (GUI) 读音为“gooey”。指用屏幕图标、菜单、对话框和对象控制软件的一种方法,通常可用指点设备(如鼠标)移动或调整大小。

推介链接- 点击使 Web 冲浪者转到另一个网站的任何网页或文件的任何超链接时,会发生推介链接;可为文字、图片或任何其他类型的链接。Web 冲浪者从另一个网站转到您的网站时,服务器会在该冲浪者所请求每个文件的网页点击日志中记录推介链接信息。如果用搜索引擎获取链接,也会记录使用的搜索引擎名称和所有关键字。

推介链接错误- 只要有人点击指向网站但包含不存在网页或文件的链接,就会发生推介链接错误。这种操作往往会造成“404 未找到“类型的错误。

网页- 也称“Web 页“,定义为由 Web 服务器传递的包含 HTML 或类似内容的单个文件。不属于具体 GIF、JPEG、PING、JS (javascript) 或 CSS(样式表)的任何文件都可视为网页。

网页点击- 在 Google Analytics(分析)中,网页点击指通过在超链接上单击鼠标按键从上一个网页转到下一个网页的过程(比常用的定义略窄)。在网页点击报告中,术语“网页点击“用于描述从“上一“页转到被分析网页以及从该页转到“下一“页的动作。

网页点击- 网页点击指向 Web 服务器发出的对任何文件类型的请求。这些类型可为 HTML 网页、图片(jpeg、gif、png 等)、音频剪辑、cgi 脚本和其他多种文件类型。一个 HTML 网页可接受多处网页点击:网页本身、网页上的每个图片和嵌入的任何音频或视频剪辑。因此,网站接收的网页点击数并不是一种有效的流行性标准,只是服务器使用和加载的一个指标。

网站域- 网站域是指向给定网站的所有有效域(网址)。例如,google.com 的网站域为:www.google.com 和 google.com。

网址- 统一资源定位地址(简称网址)表示在互联网上准确位置的标识。例如,http://www.googleanalytics.com/support/platforms.html
是使用 HTTP 在 Google Analytics(分析)网站上 /support/ 目录中访问网页 platforms.html 的网址。网址一般由四个部分组成:协议类型 (HTTP)、主机域名
(www.googleanalytics.com)、目录路径 (/support/) 和文件名 (platforms.html)。

唯一身份访问者对话- 唯一身份访问者对话指访问者与网站的大量互动,可在分析的时间段内为这些网站跟踪访问者并以高度机密的方式将其宣布为唯一身份访问者。

唯一身份访问者人数- 唯一身份访问者人数表示在指定时间段内不重复(仅计数一次)的访问者人数。唯一身份访问者人数用 Cookie 确定。

唯一身份访问者总对话次数- 被识别的唯一身份访问者在分析的时间段(报告阅览时间范围)内的总对话次数。

文件类型- 文件类型是对文件的一种标记,通常采用扩展名(如 .gif 或 .jpeg)的形式,用于说明文件的功能或操作文件所需要的软件。更一般地讲,文件类型可分类为图片文件类型(如 .gif、.png、.jpeg)、文本文件类型(如 .doc 或 .txt)和其他文件类型。

无法跟踪的对话- 访问者与网站间的一段互动时间段,在此时间段中无法区分访问者是否为唯一身份访问者。

无推介链接- 如果访问者通过在浏览器窗口中直接键入网址或通过书签/收藏夹到达网站,在各种推介链接报告中就会显示无推介链接“(no referral)”条目。换言之,访问者不是通过链接访问网站的,因而从技术上讲就没有推介链接。

下载- 从远程机器将文件提取到本地机器上。

先前唯一身份访问者- 先前唯一身份访问者指以前访问您的网站后在指定报告阅览时间范围内返回的网站唯一身份访问者,由跟踪设施(如 Cookie)标识。

协议- 通过互联网交换数据的一种常用方法。

以网页内容定位的广告- 发布商将相关广告和内容一并显示的广告模式。

引荐网址- 向访问者推荐网站的 HTML 网页的网址。

应用过滤器- 应用过滤器指用于过滤进或过滤出内容的实际文字字符串。应用过滤器可以是纯文字字符串,也可以是正则表达式。

硬件- 计算机和直接参与执行数据处理或通讯功能的相关外围设备。

用户- 就 Google Analytics(分析)而言,用户指有特定报告集访问权限、用户名和密码的个人。要在 Google Analytics(分析)管理系统中设置用户,请在屏幕顶部点击“访问管理器“标签。然后在右侧的“现有访问“表中单击“添加“。

用户代理- 用户代理是泛指用于访问网站的任何程序的一个术语。其中包含浏览器(如 Internet
Explorer 或 Netscape)、漫游器和 Spider,以及为个人或组织机构从网站搜索信息充当“代理“的任何其他软件程序。

用户名- 用户名指用于取得计算机系统访问权限的名称。多用户系统需要用户名,通常还需要密码。在多数系统中,用户可选择自己的用户名和密码。

域- 域指互联网内的特定虚拟区域,由地址或网址(统一资源定位地址)的“顶级“定义。其中,顶级指地址结尾部分;例如:“whitehouse.gov”。在此例中,域的顶级部分是“.gov”,表示美国政府实体。“whitehouse”部分为二级域,表示“.gov”域中可找到所需信息的位置。其他常见的顶级域包含“.com”、“.net”、“.uk”等。

域名系统- (DNS) 一种互联网寻址系统,采用一组用点号 (.) 分隔的名称,工作时依次从最具体到最宽泛的组寻址。在美国,顶级(最常用的)域是 edu(教育)、com(商业)和 gov(政府)等网络类别。在其他国家/地区,则为相应国家/地区所用双字母缩写,例如 ca(加拿大)和 au(澳大利亚)。

元标记- 一种特殊的 HTML 标记,显示与网页相关的信息。与普通 HTML 标记不同的是,元标记不会影响网页的显示方式。相反,元标记只是显示网页的创建者、更新频率、网页主题和代表其内容的关键字。很多搜索引擎在建立索引时使用此信息。

在线- 一个常见的术语,指通过通讯网络连接或传输的任何对象。

展示- 在推介链接或广告的搜索引擎或其他来源上的显示。

正则表达式- 正则表达式指由 POSIX 规范定义的工具,用于匹配基于特殊字符(如星号“*”)所调用规则的文字字符串。正则表达式是功能强大的工具,应先充分理解再使用。有关更多信息,请参阅 IEEE 网站。

终端用户- 计算机软件的最终用户。终端用户是产品在完全开发并投入市场后的各个使用者。

重复对话- 指访问者的一种对话,相应的访问者可能已经作为当前报告阅览时间范围内本次访问之前访问相应网站的唯一身份访问者被跟踪。

转换- 访问者完成您标记为重要的活动时,就会视为发生一次转换。这种活动可能是购买、电子邮件列表注册、下载或观看在线演示文稿。在注册 Google Analytics(分析)时,有机会指定您的目标网页 – 访问者只能通过完成转换活动到达的网页。如果您使用 Urchin 软件,可在配置文件内设置您的目标网页。

状态代码- 状态代码(也称作错误代码)指为服务器所接收每个请求(网页点击)分配的 3 位数代码。多数有效网页点击都有状态代码 200(“正常“)。“网页未找到“错误会生产 404 错误。某些常见的代码以粗体显示。

100 继续101 切换协议200

正常201 已创建202

已接受203 非授权信息204

无内容205 重置内容206

部分内容300 多种选择301

永久移动302 临时移动303

参见其他304 未修改305

使用代理400 错误请求401

需要授权402 需要付费403

已禁止404 未找到405

方法不允许406 不可接受407

需要代理授权408 请求超时409

冲突410 已过去411

所需长度412 前提条件失败413

请求实体太大414 请求网址太长415

不支持的媒体类型500 服务器错误501

未实现502 错误通道503

资源不足504 通道超时505 HTTP 版本不受支持

字词(广告系列跟踪)- 就广告系列跟踪而言,字词指访问者键入搜索引擎的关键字。字词的 Urchin 访问量监控器变量为 utm_term。字词是广告系列跟踪的五种要素之一,其他四种分别是来源、媒介、内容和广告系列。

字节- 字节是通过网络传输信息(或在硬盘或内存中存储信息)的单位。每个网页、图片或其他类型的文件都由一定数量的字节组成。较大的文件(如视频剪辑)可能由数百万字节(“兆字节“)组成。因为网站和服务器的性能在很大程度上受传输字节数的影响,Web 托管提供商往往以此为收费标准,所以网站所有者务必认识和理解这一传输单位。1 字节等于 8 位,每位只可能是 1 和 0 两个值之一。包含“字节“这个词的常见术语有:

千字节 – 1,024 字节
兆字节 – 1,048,576 字节
千兆字节 – 1,073,741,824 字节

综合浏览量- 指由 Web 服务器传递的一般可视作 Web 文档的任何文件或内容的网页,包括 HTML 网页(.html、.htm、.shtml)、脚本生成的网页(.cgi、.asp、.cfm 等)和纯文本网页,还包括音频文件(.wav、.aiff 等)和视频文件(.mov 等),以及其他非文档文件。此定义中排除的只有图片文件(.jpeg、.gif、.png)、javascript (.js) 和样式表 (.css)。每次传递定义为网页的文件时,Google Analytics(分析)都会登记综合访问量。

组织结构- 域名所属的分类方式。常见后缀有:.com = 商业、.org = 机构、.edu = 教育、.int = 国际、.gov = 政府、.mil = 军事、.net = 网络

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

搜索引擎

如何提高网站的Google PR值

2007年3月20日

 无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所有搜索量的1/3。网络冲浪者对Google情有独钟,是由于Google所提供的快速搜索速度及高命中率搜索结果。这些都是基于Google的复杂文本匹配运算法则及其搜索程序所使用的Pagerank?系统(网页级别技术)。下面我们将向大家介绍Google的Pagerank系统。

Google之所以受网站管理员和Internet媒体服务公司的欢迎,是由于它并非只使用关键词或代理搜索技术,而是将自身建立在高级的网页级别技术基础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google的排名。
Google大受青睐的另一个原因就是它的网站索引速度。向Google提交你的网站直到为Google收录,一般只需两个星期。如果你的网站已经为Google收录,那么通常Google会每月一次遍历和更新(重新索引)你的网站信息。不过对于那些PR值(Pagerank)较高的网站,Google索引周期会相应的短一些。
Google的索引/重新索引周期比大多数搜索引擎要短。这就允许网站管理员可以对网站的页面属性进行编辑修改,如网页标题、头几行文字内容、大字标题、关键字分布,当然了还有外部链接的数量。然后他们很快就可以发现对网页所做的这些更改是否成功。
正因为Google如此受欢迎,你有必要知道Google的搜索引擎是如何工作的。如果不知道它是怎样决定你的排名,那么那些只是稍微熟悉Google排名运算法则的站点都会比你的排名位置要*前。现在让我们来看一下Google的排名运算法则。
Google的排名运算法则主要使用了两个部分,第一个部分是它的文字内容匹配系统。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最最重要的部分,就是Google的专利网页级别技术(Pagerank?)。
我先来介绍一下如何使网站具有相关性,即文本内容匹配部分的运算法则:
在搜索网站的关键字时,Google会对其标题标签(meta title)中出现的关键字给予较高的权值。所以你应当确保在你网站的标题标签中包含了最重要的关键词,即应围绕你最重要的关键词来决定网页标题的内容。不过网页的标题不可过长,一般最好在35到40个字符之间。
众所周知,Google并不使用元标签(Meta Tags)如关键字或描述标签。这是由于在这些元标签中所使用的文字并不能为实际的访问者所看到。而且Google认为,这些元标签会被某些网站管理员用于欺诈性地放置一些与其网站毫不相干的热门关键词,并以此提高其网站对该不相干关键词的排名,从而以不正当的手段获得更多的访问者。
这种不支持Meta Tags的特性,意味着Google将从一个网页的头几行文字内容来生成对一个网站的描述。也就是说,你最好把你的关键字或关键短语放到网页的上方,这样如果Google找到它们,就会相应提高你网站的相关性。一旦Google找不到这样相关的内容,那么你要花费很大的力气来让你页面的其它部分具有相关性。
在决定一个网站的相关性时,Google也会考虑网页中正文内容的关键字密度(Keyword Density),所以你要确保在你的整个网页中贯穿出现了若干次关键词和关键短语。但是要记住“过犹不及”,6-10%的关键词密度为最佳。
增加页面相关性的其它策略还包括:在标题内容中放入关键词,并尽可能对内容中出现的关键词进行加粗。Google现在也索引图片的ALT属性文字并计入相关性计算。所以在你的ALT属性中应包含关键词,来增加网站的相关性得分。
增加页面相关性的最后一个技巧就是使你网站上的外部文字链接包含你的关键字。在外部文字链接中包含关键字可有效提高你的网站相关性得分(Google在其PageRank技术的描述中,亦提及在计算网页级别时会对该网站的外部链接进行分析并计入相关性)。
在文字链接中应该包含多少关键字?这是个见仁见智的问题。不过我注意到有很多网站在他们的交换链接区域,已经提供了相应的文字链接内容。例如:“欢迎进行友情链接,并请使用如下代码建立至本网站的链接。”
上面我们介绍了Google如何计算网站的相关性,及如何增加网站相关性的一些有关知识。不过Google究竟使用什么方法来衡量一个网站的好坏呢?答案就是-Google的Pagerank?系统。
PageRank取自Google的创始人Larry Page,它是Google排名运算法则(排名公式)的一部分,用来标识网页的等级/重要性。级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。
在计算网站排名时,PageRank会将网站的外部链接数考虑进去。我们可以这样说:一个网站的外部链接数越多其PR值就越高;外部链接站点的级别越高(假如Macromedia的网站链到你的网站上),网站的PR值就越高。例如:如果ABC.COM网站上有一个XYZ.COM网站的链接,那么ABC.COM网站必须提供一些较好的网站内容,从而Google会把来自XYZ.COM的链接作为它对ABC.COM网站投的一票。你可以下载和安装Google的工具条来检查你的网站级别(PR值)。
那么是不是说,一个网站的外部链接数越高(获得的投票越多), 这个网站就越重要,因而在用与其相关的关键词进行搜索时,它就会取得更高的排名呢?--大错特错。
Google对一个网站上的外部链接数的重视程度并不意味着你因此可以不求策略地与任何网站建立连接。这是因为Google并不是简单地由计算网站的外部链接数来决定其等级。要是那样的话,所有网站管理员就只剩一件事情可做了-疯狂交换链接,尽可能获得最多的外部链接。Google是这样描述的:“Google不只是看一个网站的投票数量,或者这个网站的外部链接数量。同时,它也会对那些投票的网站进行分析。如果这些网站的PR值比较高(具有相当重要性),则其投票的网站可从中受益(亦具有重要性)。
那么,是不是说对一个网站而言,它所拥有的较高网站质量和较高PR分值的外部链接数量越多就越好呢?-也不尽然。
说它错是因为-Google的Pagerank系统不单考虑一个网站的外部链接质量,也会考虑其数量.比方说,对一个有一定PR值的网站X来说,如果你的网站Y是它的唯一一个外部链接,那么Google就相信网站X将你的网站Y视做它最好的一个外部链接,从而会给你的网站Y更多的分值。可是,如果网站X上已经有49个外部链接,那么Google就相信网站X只是将你的网站视做它第50个好的网站。因而你的外部链接站点上的外部链接数越多,你所能够得到的PR分值反而会越低,它们呈反比关系。
说它对是因为-一般情况下,一个PR分值大于等于6的外部链接站点,可显著提升你的PR分值。但如果这个外部链接站点已经有100个其它的外部链接时,那你能够得到的PR分值就几乎为零了。同样,如果一个外部链接站点的PR值仅为2,但你却是它的唯一一个外部链接,那么你所获得的PR值要远远大于那个PR值为6,外部链接数为100的网站。
这个问题现在看来好象越来越复杂了。不要紧,看看下面这个公式你就会完全理解了,只是需要一点数学知识。
首先让我们来解释一下什么是阻尼因数(damping factor)。阻尼因素就是当你投票或链接到另外一个站点时所获得的实际PR分值。阻尼因数一般是0.85。当然比起你网站的实际PR值,它就显得微不足道了。现在让我们来看看这个PR分值的计算公式:
PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn))
其中PR(A)表示的是从一个外部链接站点t1上,依据Pagerank?系统给你的网站所增加的PR分值;PR(t1)表示该外部链接网站本身的PR分值;C(t1)则表示该外部链接站点所拥有的外部链接数量。大家要谨记:一个网站的投票权值只有该网站PR分值的0.85,而且这个0.85的权值平均分配给其链接的每个外部网站。
设想一个名为51tui.com的网站,被链接至PR值为4,外部链接数为9的网站XYZ.COM,则计算公式如下:
PR(AKA) = (1-0.85) + 0.85*(4/10)
PR(AKA) = 0.15 + 0.85*(0.4)
PR(AKA) = 0.15 + 0.34
PR(AKA) = 0.49
也就是说,如果我的网站获得一个PR值为4,外部链接数为9的网站的链接,最后我的网站将获得0.49的PR分值。
再让我们看看如果我的网站获得的是一个PR分值为8,外部链接数为16的网站的链接,那么我将获得的PR分值将是:
PR(AKA) = (1-0.85) + 0.85*(8/16)
PR(AKA) = 0.15 + 0.85(0.5)
PR(AKA) = 0.15 + 0.425
PR(AKA) = 0.575
上述两个例子表明,外部链接站点的PR值固然重要,该站点的外部链接数也是一个需要考虑的重要因素。
好了,大家无须记住上面的公式,只要记住:在建设你自己网站的外部链接时,应尽可能找那些PR值高且外部链接数又少的网站。这样一来你网站上这样的外部链接站点越多,你的PR值就会越高,从而使得你的排名得到显著提升。
不过,为使你的PR值得到提高,你最应该做的一件事情就是-向DMOZ提交你的网站,从而为DMOZ,即ODP(开放目录专案)收录。
众所周知,Google的Pagerank?系统对那些门户网络目录如DMOZ,Yahoo和Looksmart尤为器重。特别是对DMOZ。一个网站上的DMOZ链接对Google的Pagerank?来说,就好象一块金子一样有价值。这时候收录该网站的那个DMOZ目录页的PR分值,也变得无足轻重了。我就看到过有一些站点,就因为被ODP所收录,从而身价倍增,其PR分值在Google上立即得到提升。这就是因为Google使用了它自己的ODP版本作为它的网站目录。
ODP的链接对Pagerank?非常重要。如果你的网站为ODP收录,则可有效提升你的页面等级。不信吗?
确实如此。在Google上随便找个词搜索,你会发现,Google所提供的搜索结果的头10个站点中,就有7到8个也同时在Google的目录中出现。这个事实足以说明,如果一个网站没有被ODP收录的话,那它也别指望能从Google上得到太多的访问量。
向ODP提交你的站点并为它收录,其实并不是一件难事,只是要多花点时间而已。只要确保你的网站提供了良好的内容,然后在ODP合适的目录下点击“增加站点”,按照提示一步步来就OK了。至少要保证你的索引页(INDEX PAGE)被收录进去。我说“至少”是因为尽管ODP声称他们只收录你的索引页,而事实上在ODP上却不乏被收录了5到10页的网站。所以,如果你的网站内容涉及完全不同的几块内容,你可以把每个内容的网页分别向ODP提交-不过请记住“欲速则不达”。等到Google对其目录更新后,你就能看到你的PR值会有什么变化了。
如果你的网站为Yahoo和Looksmart所收录,那么你的PR值会得到显著提升。关于“Yahoo提交技巧”,如果有时间可以阅读下面这篇文章“Yahoo网站提交技巧”。
如果你的网站是非商业性质的或几乎完全是非商业性质的内容,那么你可以通过www.Zeal.com使你的网站为著名的网络目录Looksmart所收录。我个人非常喜爱ZEAL.COM,就象Google也从DMOZ获得搜索结果一样,Looksmart也是从Zeal网络目录获得非商业搜索列表。
让我们继续-我是在一个星期二向Zeal提交的AKA Marketing.com,到了星期四早上它就出现在Zeal上了。到了星期一我检查了一下我的日志文件,发现来自Looksmart的大量提名,原来它已经被Looksmart收录了。后来我又查看了一下我的日志,发现MSN已经根据Looksmart的数据库而更新了它自己的数据库,而且由此而提升的好的排名也给我带来了不少的访问者。想想看吧,6天之内我的网站就出现在Zeal,Looksmart和MSN上了。所以如果你有非商业网站,可千万别忘了去Zeal.com提交你的网站哦!
在向Zeal.com提交你的网站前,你得先通过它的一个会员小测试。别担心,这个测试是很简单的。如果你是一个网站管理员,而你的网站又已经收录在三大知名网络目录DMOZ,Yahoo和Looksmart中,我猜想你的网站的PR值一定比较高,而且搜索排名也不会差。
综述:
1. 在网站的标题标签(TITLE tag)中包含主要关键词和关键短语。
2. 提高网站外部链接的质量和数量。
3. 使网站为三大知名网络目录DMOZ,Yahoo和Looksmart收录。
参考资料:http://blog.csdn.net/ggads/archive/2007/01/24/1492386.aspx

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

搜索引擎 ,

关于Google Page Rank

2007年3月17日

无论是对普通网络冲浪者还是网站管理员来说,Google都是目前世界范围内最受欢迎的搜索引擎。它每天处理的搜索请求高达1.5亿次,几乎占全球所有搜索量的1/3。网络冲浪者对Google情有独钟,是由于Google所提供的快速搜索速度及高命中率搜索结果。这些都是基于Google的复杂文本匹配运算法则及其搜索程序所使用的Pagerank系统(网页级别技术)。

Google之所以受网站管理员和Internet媒体服务的欢迎,是由于它并非只使用关键词或代理搜索技术,而是将自身建立在高级的网页级别技术基础之上。别的搜索引擎提供给搜索者的是多种渠道得来的一个粗略的搜索结果,而Google提供给它的搜索者的则是它自己产生的高度精确的搜索结果。这就是为什么网站管理员会千方百计去提高自己网站在Google的排名。

Google大受青睐的另一个原因就是它的网站索引速度。向Google提交你的网站直到为Google收录,一般只需两个星期。如果你的网站已经为Google收录,那么通常Google会每月一次遍历和更新(重新索引)你的网站信息。不过对于那些PR值(Pagerank)较高的网站,Google索引周期会相应的短一些。

Google的索引/重新索引周期比大多数搜索引擎要短。这就允许网站管理员可以对网站的页面属性进行编辑修改,如网页标题、头几行文字内容、大字标题、关键字分布,当然了还有外部链接的数量。然后他们很快就可以发现对网页所做的这些更改是否成功。

正因为Google如此受欢迎,你有必要知道Google的搜索引擎是如何工作的。如果不知道它是怎样决定你的排名,那么那些只是稍微熟悉Google排名运算法则的站点都会比你的排名位置要靠前。现在让我们来看一下Google的排名运算法则。

Google的排名运算法则主要使用了两个部分,第一个部分是它的文字内容匹配系统。Google使用该系统来发现与搜索者键入的搜索词相关的网页;第二部分也是排名运算法则中最最重要的部分,就是Google的专利网页级别技术(Pagerank?)。

PageRank取自Google的创始人Larry Page,它是Google排名运算法则(排名公式)的一部分,用来标识网页的等级/重要性。级别从1到10级,10级为满分。PR值越高说明该网页越受欢迎(越重要)。例如:一个PR值为1的网站表明这个网站不太具有流行度,而PR值为7到10则表明这个网站非常受欢迎(或者说极其重要)。

Pagerank系统不单考虑一个网站的外部链接质量,也会考虑其数量。比方说,对一个有一定PR值的网站X来说,如果你的网站Y是它的唯一一个外部链接,那么Google就相信网站X将你的网站Y视做它最好的一个外部链接,从而会给你的网站Y更多的分值。可是,如果网站X上已经有49个外部链接,那么Google就相信网站X只是将你的网站视做它第50个好的网站。因而你的外部链接站点上的外部链接数越多,你所能够得到的PR分值反而会越低,它们呈反比关系。 想要提高贵站在Google中PR值,那么可参考以下三点:

1. 在网站的标题标签(TITLE tag)中包含主要关键词和关键短语;
2. 提高网站外部链接的质量和数量;
3. 使网站为三大知名网络目录DMOZ,Yahoo和Looksmart收录上 。

我们一般是通过Google的工具条来获取自己网站的PageRank的,现在我们还可以通过在网页上加入一段代码来获取。
代码是:

<a href=”http://www.pagerank.net/” title=”PageRank” target=”_blank”>
<img src=”http://www.pagerank.net/pagerank.gif” alt=”PageRank”
style=”border: 0;”></a>

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

搜索引擎 ,

CSS入门

2007年3月8日

番茄’s blog 不错的css初学者教程, 前提是有一点点HTML代码基础: )

css在线手册

The visual design of Web 2.0 web2.0 流行用色

CSS2盒模型CSS2中的盒模型是关系到设计中排版定位的关键,任何一个选择符都遵循盒模型规范,例如、、……盒模型包含
(外补丁)margin,(背景颜色)background-color,(背景图片)background-image,(内补丁)padding ,(内容)content,(边框)border。
下图是CSS盒模型的示意图
css盒模型css三维模型需要说明的是:IE和Mozilla浏览器对盒模型的解释不一致,造成我们定位上的困难,主要差别是:

 

IE计算2个div之间的距离时候,会把1px的border计算在内,而mozilla没有;
设定div的宽度后,如果给padding加一个值,IE 5.x会在宽度内减去这个值,而IE 6 & M ozilla会在宽度基础上加上这个值。

css定位元素的使用:

1. position:static|无定位:position:static是所有元素定位的默认值, 一般不用注明,除非有需要取消继承的别的定位
2. position:relative|相对定位: 使用position:relative,就需要top,bottom,left,right4个属性来配合,确定元素的位置。

如,如果要让div-1层向下移动20px,左移40px:
#div-1 {position:relative;top:20px;left:40px;}
3. position:absolute|绝对定位: 使用position:absolute;,能够很准确的将元素移动到你想要的位置.

4. position:relative + position:absolute|绝对定位+相对定位
  如果给父元素(div-1)定义为position:relative;子元素(div-1a)定义为position:absolute,那么子元素(div-1a)的位置将相对于父元素(div-1),而不是整个页面

5 .float|浮动对齐
  使用float定位一个元素有float:left;&float:right;两种值。这种定位只能在水平坐标定位,不能在垂直坐标定位。而且让下面的元素浮动环绕在它的左边或者右边。

7.clear float|清除浮动
  如果你不想让使用了float元素的下面的元素浮动环绕在它的周围,那么你就使用clear,clear有三个值,clear:left;(清除左浮动),clear:right;(清除右浮动),clear:both;(清除所有浮动)。

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

程序开发

PHP多字节字符串处理函数mbstring函数库

2007年2月15日

PHP内置的字符串长度函数strlen无法正确处理中文字符串,它得到的只是字符串所占的字节数。对于GB2312的中文编码,strlen得到的值是汉字个数的2倍,而对于UTF-8编码的中文,就是1~3倍的差异了。

采用mb_strlen函数可以较好地解决这个问题。mb_strlen的用法和strlen类似,只不过它有第二个可选参数用于指定字符编码。例如得到UTF-8的字符串$str长度,可以用mb_strlen($str,’UTF-8′)。如果省略第二个参数,则会使用PHP的内部编码。内部编码可以通过mb_internal_encoding()函数得到,设置有两种方式:
1. 在php.ini中设置mbstring.internal_encoding = UTF-8
2. 调用mb_internal_encoding(“GBK”)

除了mb_strlen,还有很多切割函数,其中mb_substr是按字来切分字符,而mb_strcut是按字节来切分字符,但是都不会产生半个字符的现象。而且从函数切割对长度的作用也不同,mb_strcut的切割条件是小于strlen, mb_substr是等于strlen,看下面的例子,

$str = '我是一串比较长的中文-www.jefflei.com';
echo "mb_substr:" . mb_substr($str, 0, 6, 'utf-8');
echo "
";
echo "mb_strcut:" . mb_strcut($str, 0, 6, 'utf-8');
?&gt;

输出如下:

mb_substr:我是一串比较
mb_strcut:我是

需要注意的是,mb_strlen并不是PHP核心函数,使用前需要确保在php编译模块时加入mbstring的支持:
(1)编译时使用–enable-mbstring
(2)修改/usr/local/lib/php.inc
default_charset = “zh-cn”
mbstring.language = zh-cn
mbstring.internal_encoding =zh-cn

mbstring类库内容比较多,还包括mb_ send_ mail 之类的email处理函数等

VN:F [1.9.22_1171]
Rating: 9.0/10 (3 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

程序开发 ,

Apache的directory配置

2007年2月10日

<Directory "D:/xampp/htdocs">

#生产环境下应关闭Indexes,防止对目录进行索引; 允许运行服务器端包含server side include,和cgi执行
Options Indexes FollowSymLinks Includes ExecCGI
#运行.htaccess 为提高apache效率,生产环境下应该关闭,除非是虚拟主机情况

AllowOverride All
Order allow,deny
Allow from all

</Directory>

Allowoveride可选ALL|None|Options. 重命名.htaccess用AccessFileName,如AccessFileName .config

VN:F [1.9.22_1171]
Rating: 9.7/10 (3 votes cast)
VN:F [1.9.22_1171]
Rating: +1 (from 1 vote)

系统管理

A passage on Chinese phrasing

2007年2月8日

【摘要】 本文提出了一种汉语分词算法。在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。

Study of self-adaptive matching method in Chinese segmentation based on decided vocabulary Huang Shuiqing,  Cheng Chong

[Abstract] This paper proposes an algorithm of self-adaptive matching method in Chinese segmentation. This algorithm not only identifies Chinese words successfully which are in vocabulary but also automatically identifies  unlisted words which are not in vocabulary on basis of decided vocabulary. The test which compares this algorithm with Reverse Maximum Matching Method and some methods which identify unlisted words proves that it can resolve unknown words segmentation effectively, decreases mistakes of Chinese segmentation and hasn’t effect on efficiency of Chinese segmentation largely.

[Keywords] automatic segmentation; new word identification; unlisted words

1 导言

  汉语自动分词的方法大致分为两类:一类是基于词表、词库的匹配和词频的统计的方法,另一类是基于句法、语法分析,并结合语义进行分词的方法。词表分词法的最大缺陷是未登录词的识别与分词歧义问题无法解决。而在真实文本中(即便是大众通用领域)未登录词对分词精度的影响超过了歧义切分,未登录词的处理在实用型分词系统中至关重要 [1]

  未登录词大致包含两大类:1)新词,即涌现的通用词或专业术语等;2)专有名词,如中国人名、外国译名、地名、机构名等[2]。针对专有名词,可建立专名资料库,根据这些已有的资源统计出各姓氏、人名、地名用字的概率,在未登录词出现的句子中再以动态规划的方法求出可能最佳的专名[3]。但其不足之处是所依据的大规模语料库建设不易[3]。无须大规模语料库支持的未登录词识别解决方案主要有:利用上下文的限制成分识别专名[4];两趟分词,在“分词碎片”中计算单字成词概率和未登录词概率[5];有穷多层列举法,通过建立单字词和多字词表(不包括双字词),结合特殊的切分方法实现[6];通过特征词不断细分字串,随后逐步压缩含有未登录词的子串直至不能从中切分出已登录词[7]。此外还有标记规则[8]、决策树[9]、分解与动态规划[10]等方法。

  实际使用的分词系统都是把使用词表的机械分词作为一种初分手段,再利用其它的词类信息来进一步提高切分的准确率,包括未登录词的识别[11]

  本文提出了一种在机械分词过程中能同时识别未登录词的算法,在不需要大规模语料库和专名资料库支持也无须借助其它词类信息的情况下自动判断并适应新出现的未登录词,故称之为“自适应汉语分词算法”。对中国期刊网收录文献的检索未发现思想相同的算法。文献调研还表明,已知的算法一般都是在机械分词之后再单独处理未登录词,把分词的“残片”作为未登录词的侯选对象,根据残片字串的互信息量或是词性标注或是上下文统计量等来辅助识别,确定是否是未登录词。自适应汉语分词算法不做初分,而是边进行机械分词边识别未登录词。笔者在计算机上实现了该算法,并以100篇计算机类的文章为测试集,对比分析了该算法与普通逆向最长匹配法以及其他几种识别未登录词的算法的分词结果。测试表明,该算法确实能有效地识别出许多的未登录词,且可以大大减少分词错误。

2 术语

  依据自适应汉语分词算法的算法思想,结合汉语字、词、句的特性及分词规范[12] [13] [14],我们对本文要用到的所有与汉语分词有关的概念分别定义如下。

2.1 字符串

  汉字字符、英文字母与阿拉伯数字的任意混合序列。设有字符串S=C1C2 C3 …… Cn,则S所包含的字符总个数n,称为字符串S的长度,记为:LENs=n。如字符串“3个QQ用户”的长度即为6。

2.2 词

  汉语文献中能独立、完整地表达语义,且语义上不可再作分割的字符串。所谓“语义上不可再作分割”,是指词在字面上也许还可以再进行分割,但在语义上则坚决不允许再分割。如近日媒体中出现频率很高的词“苏丹红”,字面上可以再分割成“苏丹”与“红”两个词,但若作这样的分割则语义完全改变,完全不能表达原词的语义。故,“苏丹红”符合词的定义。

  在汉语分词过程中,绝大多数词已收入分词词典。只有少部分词未收入分词词典,即所谓的未登录词。换而言之,绝大多数词已经是分词词典集合中的元素,少部分词(即未登录词)目前还不是分词词典集合中的元素。考虑到分词词典需要不断地维护,不断地补充新发现的未登录词。因此,我们也可以说,词就是分词词典集合中的元素,或者目前已经是,或者将来是。

2.3 词组

  词与词的复合体,由两个或两个以上的词组成的字符串。假设分词词表中已有“社会主义”与“政治经济学”两个词,则字符串“社会主义政治经济学”便是词组。

2.4 子句

  从汉语文献的句子中抽取出来的、由标点符号分隔的字符串。子句是汉语文献分词的初始对象。

2.5 短语

  子句经分词算法的若干次处理后,已切分出若干个词之后的剩余部分。某些时候也可称作“残片”。如子句“在王小波辞世八年之后”,当“在”被切分出来后,剩下的“王小波辞世八年之后”便可称为短语;当“王小波”再被切分出来后,剩下的“辞世八年之后”便可称为短语。

3 自适应汉语分词算法的原理

  根据语言学常识可知,无论是复合句还是简单句,都是由词构成的,而且,子句其实也是词组,不过是所包含的词的个数比一般的词组更多的大词组罢了。同样,短语也是词组,是所包含的词的个数比子句少一些的词组。

  设有子句或短语字符串S,按照上述定义与分析,S应该是由若干个词组成的词组,记为S=W1W2W3……Wi……Wn。其中W1、W2、W3、……、Wi、……、Wn 均为由形式、个数不等的字符组成的词。

  设Wi是分词词表中没有收录的未登录词。则,根据上述定义与分析,Wi的左方和右方必然各存在一个词,可分别记为Wi-1和Wi+1(Wi-1与Wi+1的其中之一也可以为空,即Wi可以是S的边界词)。因此,只要能从S中成功切分出Wi-1和Wi+1,就能据此判断介于Wi-1与Wi+1之间的字符串就是一个未登录词。这就是自适应汉语分词算法的基本原理。人在阅读中遇见生词时,其实就是按这种方法判断词与词的分界的。

  以逆向匹配法为例,从句尾开始切分,通过若干次切分,可以从S中依次切分出Wn、Wn-1、Wn-2、……、Wi+1。记从短语字符串S中切分出Wn、Wn-1、Wn-2、……、Wi+1剩下的短语字符串为Si,此时要做的就是判断Si最右侧的字符中的哪些字符可以组成一个新词。

  首先,跳过Si最右侧的两个字符,对剩下的短语字符串试着用逆向匹配法看看能否再切分出词表中的一个词。若能,Si最右侧的两个字符可能是一个未登录词。

   然后,跳过Si最右侧的三个字符,对剩下的短语字符串试着用逆向匹配法看看能否再切分出词表中的一个词。若能,Si最右侧的三个字符可能是一个未登录词。

  依此再跳过Si最右侧的四、五、……个字符,直至达到词表中的词的最大词长。这样,可能得到若干个候选未登录词。

  之所以一开始就跳过两个字符,而不是从一个字符开始处理,是因为一般情况下未登录词不会由单个字符组成。

  如何判断这些候选未登录词中的哪个可以确定为未登录词?首先计算所有候选未登录词在该文献中出现的频次及所有候选未登录词的词长LEN,然后按以下未登录词选取规则执行:

  ①若所有候选未登录词的频次不等,取频次最大者作为未登录词;若有多个候选未登录词的频次相同且均为最大,从中取LEN最大者为未登录词。

  ②若所有候选未登录词的频次完全相同,则:当频次大于1时取LEN最大的词为未登录词,否则(即频次等于1)取LEN最小的词为未登录词。

4 自适应汉语分词算法的流程

  自适应汉语分词算法与一般的汉语词表分词法一样,既可以按正向分词的方法从子句句首开始至句尾结束,也可以按逆向分词的方法从子句句尾开始至句首结束。下面列出的流程是逆向最长自适应汉语分词算法流程,正向自适应分词算法流程与此类似。 

①从汉语文献中获得一个子句或短语S(以下统称短语),作为算法的待处理对象。

  ②循环执行以下切分过程,对短语尾部作词切分

  a. 应用逆向最长匹配法,从短语尾部切分出一个词,得到新的短语S。

  b. 若短语长度LENS无任何变化(即没有切分出任何词),或者短语长度LENS小于等于零(即短语已全部切词结束),则结束循环,执行③,否则继续执行循环。

  ③若经过上述处理后的最新短语S的长度LENS小于等于零,则全部词已切分完成,算法结束。

  ④若LENS小于等于某个给定的阈值,则可以认定S为一个新词,同样全部词已切分完成,算法结束。

  ⑤对整数n赋值2。

  ⑥循环执行下述步骤,直至n大于预先设定的词表中的词长度的最大值。

  a. 从S尾部去除n个字符,剩余的字符串记为S-n。

  b. 对字符串S-n用逆向最长匹配法,试图找出一个词。

  c. 若成功,则先把S尾部的n个字符列入候选新词列表WordList,记此候选未登录词为Wordn,并统计其在原文中的词频freqwordn 和词长度LENwordn

  d. n赋值n+1。

  ⑦按上文的未登录词选取算法规则从WordList中选取并确定未登录词。

  ⑧从S-n中去除未登录词和第⑥步中的第b段逆向最长匹配法找到的词后得到新的字符串。

  ⑨转②。

5 自适应汉语分词的算法实现

5.1 自适应汉语分词主算法

private void AdpativeMatchingMethod(string sentenceStr)

{ //如果字符片断长度小于等于MINLEN,就把它当作词,ARMMWords为切出的词的总集合

if(Len(sentenceStr))<=MINLEN)  ARMMWords.Add(sentenceStr);

while(sentenceStr!=””||Len(sentenceStr)>MINLEN)

{ //利用逆向最长匹配切词函数RMMCutWord()切词,其实现方法略

//sentenceStr是需要处理的子句

//cuttedStr为切出的词集合

//RestStr为剩下尚未处理的子串

  RestStr=RMMCutWord(sentenceStr,out cuttedStr);

//如果剩下的字符片断长度小于MINLEN,则就认为它是一个候选词

if(Len(RestStr)<=MINLEN)

{ //如果逆向最长匹配切词完全可以进行,则往切出的词集合里添加

    for(int icount=0;icount<cuttedStr.Count; icount++)

        ARMMWords.Add(cuttedStr[icount].ToString());

    ARMMWords.Add(RestStr);

}

else //自适应分词法找词,一边是词,另一边可能是词

{ for(int icount=0;icount<cuttedStr.Count; icount++)

        ARMMWords.Add(cuttedStr[icount].ToString());

     //逆向切词无法结束整个过程,则选择自适应分词法切词

     RestStr=ARMM(RestStr);

} //if

} //while

} //Private

5.2判断是否未登录词

private string ARMM(string WordStr)

{ //跳过MINLEN个字符后逆向取词

waitToProStr=WordStr.Substring(0,WordStrLen-countNum);

while(countNum<WordStrLen)

{ // RMM(),利用逆向最长匹配方法试图匹配一个词(此方法为常用的方法,略)

if((tempStr=RMM(waitToProStr,out tempint ,out cuttedStr))==waitToProStr)

{ //如果匹配不成功,则多跳过一个字符

    countNum++;

    waitToProStr=WordStr.Substring(0,WordStrLen-countNum);

}

else

{ //跳过的那countNum个字符可能是词

    beAbleWord=WordStr.Substring(WordStrLen-countNum,countNum);

    //往集合中添加候选未登录词

    words.Add(beAbleWord);

    //此时还没完,再继续向左方判断是否还有其它候选未登录词

    countNum++;

    waitToProStr=WordStr.Substring(0,WordStrLen-countNum);

} //if

} //while

// ChooseUnlists(利用统计规则对候选未登录词进行筛选,方法略)

ChooseUnlists(words);

Return tempStr;

} //Private

6 试验与评价

  笔者已将上述逆向自适应分词算法用.NET平台下的C#语言实现。笔者使用了三部词表:专业词表为计算机专业词表,共有16052词;通用词表为商务印书馆2002年版的《现代汉语词典》,共有44049词;停用词表则有7666词。程序运行环境为Windows 2000 Server操作系统和SQL Server 2000数据库管理系统平台,实验数据为来自于http://www.csdn.net、http://www.ccw.com.cn、http://www.pcworld.com.cn等的时文100篇,共4312个语句。分别按照逆向最长匹配法和自适应汉语分词法对这些语句进行分词测试。表1是两种方法切词后得到的切词数量以及切词速率对比。

  表1 逆向最长匹配法与自适应汉语分词法切词数量以及切词速率对比

  切分出的总词数 切错词的数量 发现的未登录词数 切词速率(Kb/s)
逆向最长匹配法 39561 647 0 46.21
逆向最长自适应分词法 35424 323 409 43.42
           

  未登录词识别算法普遍采用召回率(recall)和准确率(accuracy)两个评价指标:

  召回率=(正确识别的新词总数/文本中的新词总数)×100%[15]

  准确率=(正确识别的新词总数/识别的新词总数)×100%[15]

  本次测试新发现的409个未登录词中,识别正确的有366个,识别错误的有43个。另外,测试集中还有23个未登录词未被识别出来。如此可计算出:

  召回率=(366/(366+23))*100%≈94.09%

  准确率=(366/409)*100%≈89.49%

  表2用召回率和准确率这两个评价指标来对比部分未登录词识别算法和逆向自适应分词算法的性能。表中列举的算法采用的测试集都是时文。

表2 各种未登录词识别算法的召回率和准确率

算法名称 测试集 召回率 准确率
逆向最长自适应分词法 4312句(8万多字) 94.09% 89.49%
基于标记的规则统计模型与未登录词识别算法[8] 1000句(40483字) 98.32% 98.88%
基于决策树的汉语未登录词识别[9] 92万字 69.42% 40.41%
2483字 70.97% 57.63%
基于分解与动态规划策略的汉语未登录词识别[10] 1500句 88.1% 92.1%

  由于上述数据是对不同的测试集得到的结果,因此并不能用以上的召回率与准确率简单地判断算法的优劣。但,至少可以说明,自适应汉语分词算法在对未登录词的识别方面并不比其它专门识别未登录词的算法逊色。

  中国科学院计算技术研究所开发的汉语词法分析系统ICTCLAS,是目前赞誉较多的系统,该系统可实现中文分词、词性标注、未登录词识别。据973专家组测评,该系统分词正确率高达97.58%,未登录词识别召回率高于90%,其中中国人名的识别召回率接近98%[16]。ICTCLAS提供开放使用的动态连接库ICTCLAS.dll,笔者调用这个动态链接库对本文所采用的100篇计算机时文构成的测试集进行了分词。表3列举了两种分词方法对测试集中的若干典型句子的分词结果及逆向自适应分词法发现的未登录词。由于ICTCLAS.dll只给出最后的分词结果(含未登录词),并不单独统计未登录词,所以无法对该次分词计算召回率和准确率。

  表3 典型子句ICTCLAS与逆向最长自适应分词法的分词结果比较

子   句 ICTCLAS分词结果 逆向最长自适应分词法
分词结果 发现的未登录词
原IBM个人电脑事业部显然根红苗正 原/IBM/个人/电脑/事业/部/显然/根/红/苗/正 原/IBM/个人电脑事业部/显然/根红苗正 个人电脑事业部   根红苗正
新联想以技术创新作为立身之本 新联/想/以/技术/创新/作为立身/之/本 新/联想/以/技术/创新/作为/立身之本 立身之本
客户还是喜欢个性化的东西 客户/还/是/喜欢/个性化/的/东西 客户/还是/喜欢/个性化/的/东西 个性化
当大的产业规律由技术驱动为主变成应用驱为主 当/大/的/产业/规律/由/技术/驱动/为主/变成/应用/驱/为主 当/大/的/产业/规律/由/技术/驱动/ 为主/变成/应用驱/为主 应用驱
即便是现在我有了与贺志强面对面聊天的机会 即便/是/现在/我/有/了/与/贺/志/强/面对面/聊天/的/机会 即/便是/现在/我/有/了/与/贺志强/ 面对面/聊天/的/机会 贺志强
密罐是没有运行XP sp2或任何反病毒软件的Windows主机 密/罐/是/没有/运行/XP/sp2/或/任何/反/病毒/软件/的/Windows/主机 密罐/是/没有/运行/XP/sp2/或/任何/反/病毒/软件/的/Windows/主机 密罐
虽然Palm中文译名为奔迈,但是近两年来却毫不“奔迈” 虽然/Palm/中文/译名/为/奔/迈/但是/近/两/年/来/却/毫不/奔/迈 虽然/Palm/中文/译名/为/奔迈/但是/近/两/年/来/却/毫不/奔迈 奔迈

  从表3可以看出,有好几个ICTCLAS识别错误或没有识别出来的词,自适应分词算法都成功识别出来了。特别是识别出了人名“贺志强”及原始文献中的错词“应用驱”。

  由此可见,自适应汉语分词算法确实能识别出许多有效的未登录词,识别出的未登录词既包括新词,也含有专有名词。当然,自适应汉语分词算法切出的词(包括未登录词)也存在若干错误,但是,与逆向最长匹配法相比较,自适应汉语分词算法能大大减少切分错误发生的概率。由表1可以看出,在切词速度上自适应汉语分词算法并不比逆向最长匹配法慢。而且,该算法是在切词的过程中直接识别未登录词,所以在切词的总体效率上要高于对切词剩下的残片进行再识别的其他算法。

7 结语

  本文研究的自适应汉语分词算法采用的是这样一种思路:任何汉语语句都是由词构成,在汉语自动分词中碰到一个词表里没有的字符串时,根据此字符串左右两边是否有词来判断该字符串是否就是未登录词。本算法在分词的同时,能结合上下文的信息以及局部统计量自动识别未登录词。实验证明它可以有效的用于汉语文献的词切分,并且可以很大程度上切分出词表里没有的词。它可以发现两类未登录词——新词和专有名词,同时能减少切分错误发生的概率。与此前的算法不同,本算法的侯选未登录词不是分词“残片”,而考虑了它作为词存在应具备的基本特性。本算法思路简明,易于实现,且无需借助其他辅助资源,而且切词的效率与逆向最长匹配法接近。

  本算法的最大缺点是基于正向或逆向匹配算法,不能完全避免词表切分时的歧义切分错误。另外,当多个候选未登录词同时出现时,完全以频次与词长作为判断依据,而与语义无关,可能造成未登录词的确定出现偏差。

参考文献:

1 孙茂松,邹嘉彦.汉语自动分词研究中的若干理论问题.语言文字应用.1995(4):40-46

2 孙茂松,邹嘉彦.汉语自动分词研究评述.当代语言学.2001(1):22-32

3 何燕.任意类型的未登录词的识别研究.[学位论文].北京:北京语言文化大学文化学院,2000.

4 宋柔,朱宏,潘维桂等.基于语料库和规则库的人名识别法.见:陈力为.计算语言学研究与应用.北京:北京语言学院出版社,1993:150-154

5 陈小荷.自动分词中未登录词问题的一揽子解决方案.语言文字应用.1999(3):103-109

6 张普,张尧汉.现代汉语“有穷多层列举”自动分词方法的讨论.语言与计算机.1986(3):61-64

7 马光志,李专.基于特征词的自动分词研究.华中科技大学学报(自然科学版),2003(3):60-628

8 苏菲,王丹力,戴国忠.基于标记的规则统计模型与未登录词识别算法.计算机工程与应用,2004(15):43-45,91

9 秦文,苑春法.基于决策树的汉语未登录词识别.中文信息学报,2004,18(1):14-19

10 吕雅娟等.基于分解与动态规划策略的汉语未登录词识别.中文信息学报,2001,15(1):28-33

11 岳涛.汉语自动分词技术的最新发展及其在信息检索中的应用.情报杂志,2005(4):55-57,60

12 朱德熙.语法讲义.北京:商务印书馆,1982

13 刘源,谭强,沈旭昆.信息处理用现代汉语分词规范及自动分词方法.北京:清华大学出版社,1994

14 张春霞,郝天永.汉语分词的研究现状与因难.系统仿真学报,2005,17(1):138-143,147

15 秦浩伟,步丰林.一个中文新词识别特征的研究.计算机工程,2004,30(增刊):369-370,414

16 中国科学院计算技术研究所.中文自然语言处理开放平台.http://www.nlp.org.cn/project/project.php?proj_id=6(访问日期:2005-2-2).

VN:F [1.9.22_1171]
Rating: 0.0/10 (0 votes cast)
VN:F [1.9.22_1171]
Rating: 0 (from 0 votes)

搜索引擎