说明:收录25万 73个行业的国家标准 支持批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
ICS35.240.01 L 70 中华人民共和国国家标准 GB/T36452—2018 信息处理用藏文分词规范 Specification on Tibetan segmentation for information processing 2019-01-01实施 2018-06-07发布 国家市场监督管理总局 发布 中国国家标准化管理委员会 GB/T36452—2018 目 次 前言 引言 II 1 范围 2规范性引用文件 3术语和定义 4 分词规范 参考文献 15 GB/T36452—2018 前言 本标准按照GB/T1.1一2009给出的规则起草。 请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别这些专利的责任。 本标准由全国信息技术标准化技术委员会(SAC/TC28)提出并归口。 本标准起草单位:中国电子技术标准化研究院、西藏大学、西北民族大学、西藏自治区藏语文工作委 员会办公室、青海师范大学、青海民族大学、中国科学院软件研究所、西藏自治区工业和信息化厅 本标准主要起草人:扎西加、欧珠、尼玛扎西、熊涛、格桑多吉、多拉、拉巴泽仁、大罗桑朗杰、高定国、 拉琼、仁青诺布、索南尖措、旺堆、小尼玛扎西、普次仁、顿珠次仁、赵栋材、边巴嘉措、 1 GB/T36452—2018 引言 本标准以现代藏语的词类和分词研究成果为基础,根据藏文词汇特点与构词规律,并参考汉语分词 及词类标记相关标准(见参考文献)的部分内容,规定了信息处理用藏文分词规范。 Ⅱ GB/T 36452—2018 信息处理用藏文分词规范 1范围 本标准规定了信息处理用藏文分词规范 本标准适用于藏文信息处理各领域,其他行业和有关学科可参照使用。 2规范性引用文件 2 下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅注日期的版本适用于本文 件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。 GB/T36337—2018信息处理用藏语词类标记集 术语和定义 3 下列术语和定义适用于本文件。 3.1 词 word 区别事物意义的最小的语法单位。 3.2 词组 1phrase 两个或更多词组合成的语言单位。 注:词组可以是实词与实词的组合,也可以是实词和虚词的组合。 3.3 藏文信息处理 Tibetan information processing;TIP 用计算机对藏文的音、形、义等信息进行处理。 3.4 分词单位 segment unit 在分词过程中出现的词。 注:分词单位不仅限于语法词,其中也包含了信息处理所需的一部分结合紧密、使用稳定的词组。 3.5 藏文分词 Tibetan segmentation 将连续的藏文音节序列按照一定的规范重新组合词序列的过程。 4分词规范 4.1 藏文分词单位和词类的标记 本标准以"/”作为藏文分词单位的标记,藏语词类标记依据GB/T36337一2018的规定。 4.2 4.2.1由单音节名词和单音节形容词组成的词为一个分词单位 1 GB/T36452—2018 示例: 示例: 4.2.3由名词性分词单位和专职词“引"组成的名词为一个分词单位 示例: 4.2.4名词性的构词后缀“”不单独切分。 示例: /e.. /e./.e. . .. 4.2.5四音节构成的复合词为一个分词单位。 示例: 4.2.6五音节构成的复合词为一个分词单位。 示例: 4.2.7三音节构成的固定词组为一个分词单位。 示例: 4.2.8四音节构成的固定词组为一个分词单位。 示例: 4.2.9五音节及以上音节构成的固定词组为一个分词单位。 示例: 4.3人名<(nr) 4.3.1不易区分姓和名的笔名通常作为一个分词单位。 示例: 4.3.2人名的译名按其习惯形式作为一个分词单位。 示例: 4.3.3人名(包括带格助词的人名)作为一个分词单位 2 GB/T36452—2018 示例: 4.4地名>(ns) 4.4.1山丘河流等名称作为一个分词单位。 示例: 4.4.2地名后有表示自然区划的普通名词,如“a1”等,作为一个分词单位。 示例: 4.4.3地址叙述中的大小地名分别作为一个分词单位,如其中地名或路名是一个音节则不予切分。 示例: 4.5国名(ng) 国名不论长短,作为一个分词单位。 示例: 4.6族群名(ne) 4.6.1表示民族、人种的词作为一个分词单位。 示例: 4.6.2表示部落、部族的词作为一个分词单位。 示例: 4.6.3表示文种、语种的词作为一个分词单位。 示例: 4.7团体机构名<>(na) 4.7.1行政区划称谓中两个音节及以上做切分,地名或行政区划名如其中一个是单音节,则不切分,将 地名与行政区划名合起来作为一个词。 示例: 3
GB-T 36452-2018 信息处理用藏文分词规范
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 思安 于
2023-01-26 17:30:38
上传分享
举报
下载
原文档
(2.4 MB)
分享
友情链接
GB-T 23561.9-2009 煤和岩石物理力学性质测定方法 第9部分:煤和岩石三轴强度及变形参数测定方法.pdf
T-YFSEA 0008—2023 陆用液体装卸臂检验规程.pdf
DB51-T 2798-2021 公路旅游标志设置规范 四川省.pdf
DB31-T 1244-2020 冷却塔节能降噪改造技术指南 上海市.pdf
QC-T 51-2019 扫路车.pdf
安全架构实践的公理 2020.pdf
GB-T 20834-2014 发电电动机基本技术条件.pdf
DB43-T 1835-2020 智能轨道快运系统设计规范 湖南省.pdf
GB-T 32917-2016 信息安全技术 WEB应用防火墙安全技术要求与测试评价方法.pdf
GB-T 19228.2-2011 不锈钢卡压式管件组件 第2部分:连接用薄壁不锈钢管.pdf
DB4403-T 12-2019 物业服务要求 商务写字楼 深圳市.pdf
GB-T 38204-2019 岩土工程仪器 测斜仪.pdf
GB-T 14331-2017 自动卷簧机 精度.pdf
GB 21347-2023 工业硅和镁单位产品能源消耗限额.pdf
GM-T 0125.2-2022 JSON Web 密码应用语法规范 第2部分:数字签名.pdf
GD-J 037-2011 广播电视相关信息系统安全等级保护定级指南.pdf
GB-T 32922-2016 信息安全技术 IPSec VPN安全接入基本要求与实施指南.pdf
GB-T 8878-2023 针织内衣.pdf
GB-T 711-2017 优质碳素结构钢热轧钢板和钢带.pdf
GB-T 18806-2002 电阻应变式压力传感器总规范.pdf
交流群
-->
1
/
3
19
评价文档
赞助2元 点击下载(2.4 MB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。