Hackpads are smart collaborative documents. .

Shu-Kai Hsieh

457 days ago
Unfiled. Edited by Shu-Kai Hsieh 457 days ago
Crawling/Preprocessing/Indexing.Storage/Usage Statistics and Tools
目標:
  • 承接 ASBC。 
  • 新一代的語料庫技術與 KNOW-HOW。結合遊戲 APP。
  • 適合語言學的標記工具。
時程:
  • 先完成「四字格」使用語料庫。(seed-driven),半自動人工修訂(with 華教所)。puzzle app 利用使用者行為紀錄推理難易。
  • 台大整合語料庫。
  • 漢語變異社會語料庫
  • PTT
  • 微博
  • (歌詞、音樂、圖文語料庫)
  • (多模態語料庫)(腦神經與使用並行語料)
  • 平行語料庫(英文、MC/TM):電視、電影字幕翻譯
  • 六月底前結束。第二次公開 workshop。
 
參考:
=================================
 
 
 
 
 
 
 
 
 
 
455 days ago
Unfiled. Edited by Shu-Kai Hsieh 455 days ago
Shu-Kai H 漢字資訊與知識本體 ontology
 
shukai 漢字資料模組
  • github
 
Shu-Kai H
  1. 漢字的詞彙計量學
  1. 漢字的系統學
  1. 漢字的生物資訊學
shukai ***********************
 
Shu-Kai H 參考資源
 
shukai
  • 中日韓共同常用八百漢字
shukai
  • 該表根據中國《現代漢語常用字表》、日本《常用漢字表》、韓國《教育用基礎漢字表》三種資料編制,選定的808字中,屬於中國《現代漢語常用字表》中常用字的有801字,屬於次常用字的7字;屬於日本「教育漢字」的710字,其餘98字均見於日本《常用漢字表》;屬於韓國初中漢字的801字,屬於高中漢字的7字,符合「共同常用」的標準。
  • 字表包括總表和對照表:總表列808字的繁體漢字,按繁體漢字unicode編碼排序;對照表將中日韓三國各自通行字形進行分類對比。對照表中,包括無繁簡之分的漢字,大約有550多個,其中三國寫法相同的漢字佔大多數,有540個字左右;還包括有繁簡差異的文字,達200多個漢字。
 
todo:
 
Shu-Kai H
  • 亢世勇「漢字義類信息庫」與「雙音合成詞義構詞規則庫」
 
雙音節詞 Morpho-semantics
 
義素. 1   [pos]
義素. 2  [pos]
詞類
詞類組合方式:(NN、VN、AN、NgNg、AgN、AgNg、...)
四項規則:前向、後向、同類、無向
  •  
  • 同类规则是指构成双音合成词的两个字位属于同一个语义类,所构成的词的语义类与其基本相同,后向型规则是指构成双音合成词的两个字位属于不同的语义类,所构成的词的语义类与后一个字位的语义类相同。前向型规则是指构成双音合成词的两个字位属于不同的语义类,所构成的词语义类与前一个字位的语义类相同。最后无向型规则是指构成双音合成词的两个字位的语义类不同,所构成的词的语义类与前后两个字位的语义类都不相同(亢世勇,2004)。《双音合成词语义构词规则数据库》示例如下:
  •  
  •  
 
 
 
複合詞結構類型:聯合、偏正、動賓、主謂
轉義類型:隱喻、轉喻、隱轉喻
轉義作用對象 :前字、後字、整體、前字+整體、後字+整體等
轉義涉及的物性角色 :構成角色、功用角色、施成角色、形式角色、規約化屬性
轉義涉及的具體要素 :部分與整體、顏色、形狀、典型成員與整體範疇等
釋義 :以《現代漢語》(第六版)為參考,將複合詞釋義錄入語料庫之中。
備註 :方言字詞填「方」,書面語字詞填「書」,口語字詞填「口」,文言保留的字詞填「文」,兼類的字詞填兼類的標記。
 
  • 未發生轉義的
采取同样的思路进行构建语料库,但属性信息有所改变,具体如下:
 
[义素1词性] <文本> (2) 填写我们确立的相应的词性。填该字位的词性代码。比如:“语气词”的“的”填“Y”,“助词”的“的”填“U”,“相加、相乘”的“的”填“V”,“的确”的“的”填“Dg”,“目的”的“的”填“Ng”。
[义素2词性] <文本> (2)填写我们确立的相应的词性,同上
[词性] <文本> (2)填写我们确立的相应的词性,同上
[词类组合方式] <文本> (2)NN、VN、AN、NgNg、AgN、AgNg等
[四项规则]<文本>(4)前向、后向、同类、无向
[复合词结构类型] <文本>(4)联合、偏正、动宾、主谓
[前后字义与词义间的物性角色关系]   <文本>  (20)
[谓词隐含]<文本>  (255)
[文化因素]<文本>  (255)历史典故等
[缩略词]<文本>  (2) Y/N
[释义] <文本> (255) 以《现代汉语》(第六版)为参考,将复合词释义录入语料库之中。 
[备注] <文本> (2) 方言字词填“方”,书面语字词填“书”,口语字词填“口”,文言保留的字词填“文”,兼类的字词填兼类的标记。
 
 
[1]符淮青.词义和构成词的语素义的关系[J].辞书研究 
[2]杨振兰.论词义语素义[J].汉语学习 
[3]亢世勇、孙茂松. 基于数据库的汉语语义构词法初探[C].第三届
 中文词汇语义学学术会议论文集.2004
[4]亢世勇.面向信息处理的现代汉语语法研究[M].上海:上海辞书出
 版社,2004.
[4]符淮青.现代汉语词汇[M].北京:北京大学出版社,2004.
[5]张秀松、张爱玲.生成词库论简介[J].当代语言学.2009(3)
[6]袁毓林.基于生成词库论和论元结构理论的语义知识体系研究  
 [J].中文信息学报.2013(6)
[7]宋作艳.生成词库理论与汉语时间强迫现象研究[M].北京:北京大 
 学出版社,2015.
 [10]朱彦.复合词语义构词法研究[M].北京:北京大学出版社,2005.
[11]朱景松.现代汉语中义项平行的多义复合词[J].语文建设.1992(1)
 
shukai -------------------------------
 
  • 字頻 character frequency
  • 筆畫數 stroke number
 
 
 
 
 
 
 
 
 
***********************
Shu-Kai H 漢字的詞彙計量學
 
  •  Entropy, productivity, ontological depth,learnability,
  • Quantitative Theory of Writing System (Koehler)
 
  • Inventory size
  • Complexity
  • Frequency
  • Ornamentality
...
457 days ago
Unfiled. Edited by Shu-Kai Hsieh 457 days ago
Shu-Kai H
  • word embeddings
  • character embeddings
  •  
shukai Syllable identifier
 
 
  • CKIP (revised)tagset-based
 
 
 
[DeepLEX API]
 
 
 
 
LRs construction for less-resource languages
 
  • Knowledge-Powered Deep Learning for Word Embedding
 
python中文NLP工具集 https://github.com/masr/pynlpini
功能介绍 
  • 中文分词
  • 中文词性标注
  • 地名,人名和组织名的提取
  • 印象提取
  • 中文词语和短语的相关性
  • 关键词的提取
  • 网页版的NLP接口
 
 
 
汉语言处理包 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取 自动摘要 短语提取 拼音 简繁转换 
 
介面服務  text analytics and digital forensics  
 
哈工大語言雲
復旦大學 FudanNLP
 
 
Stanford Chinese NLP
Spacy.io
 
Concrete Chinese NLP pipeline
Concrete is an attempt to map out various NLP data types in a Thrift schema for use in projects across Johns Hopkins University. This standardized schema allows researchers to use a common, underlying data model for all NLP tasks, and thus, facilitating integration between projects. in Chinese/PYTHON!
 
 
457 days ago
Unfiled. Edited by Shu-Kai Hsieh 457 days ago
Shu-Kai H Data <> Story  語言分析與標記技術
 
 
資勻
小涵
佳臻 
郁文:心理治療 domain
 
535 days ago
Shu-Kai H Collecting data via API in a collaborative way
抓回來的資料可以放在  https://goo.gl/WAmUzJ
記得檔名可以辨識出組別
Vivienne C install.packages("Rfacebook")
 
Shu-Kai H RFacebook
 
鍾豪
  • 第一組
  • require(Rfacebook)
  • token = 'hihihaha'
Meng-Ying T
鍾豪
  • 是,我們用的是developer。但好像不能用searchFacebook, 所以我們是用getPage,是Rfacebook的另一個函數。
  • 我們用searchFacebook也失敗
Meng-Ying T
  • 噢噢,原來是這樣,太感謝了>///////<
鍾豪
  • posts <- searchFacebook(string = "upworthy", token, n = 500)
  • page = getPage("myudn", token, n=1000,since='2015/11/01', until='2015/12/09')
  • hhh <- page$message
  • grep('健保',hhh)
  • hhh[idx]
 
[1] "#陳建仁 :「陸生與外籍生一樣,都是來台灣接受高等教育的對象,因此陸生與外生都應該有健康保險,全世界的國家都是如此,也都有一定的配套與考量。」 #陸生 #健保 #宅編\n\n【2016大選特別報導】 goo.gl/9cfVj8"
[2] "囤藥當伴手禮... #健保 #陸配 #陸生"                                                                                                                                                                   
[3] "陸生納保案禮拜五送立法院,引起網友熱烈討論 #陸生納保 #健保"                                                                                                                                          
[4] "吳育昇:民進黨團如果反對表決,就是反對人權普世價值。\n\n【陸生納健保、陸配4年拿身分證 藍盼速修法】 goo.gl/U83TLr\n#吳育昇 #陸生 #健保 #人權 #立法院 #宅編
 
Hsu H
Mipanox C twitteR
library(twitteR)
cKey <- "Consumer Key (API Key)"
cSecret <- "Consumer Secret (API Secret)"
token <- "Access Token"
tokens <- "Access Token Secret"
 
setup_twitter_oauth(cKey,cSecret,token,tokens)
 
tweets <- searchTwitter("keywords", n =10)
 
Hsu H
  • 第四組
Eric C library(Rfacebook)
NOtoken <- "wheeeeeeee"
NOID <- "163253543730991"  # UDN,慎用!
 
page.all <- getPage(NOID, NOtoken, n = 10000, since = "2015/10/01", until = "2015/11/30", feed = FALSE)
 
page.all[grepl("健保", page.all$message), 3]
 
# 收工
 
Hsu H
Forsure W PHP 爬蟲
PHP 爬蟲,再將結果整理儲存到MySql
Weihang
  •  恨 ORCALE   MYSQL 越來越不open 了XD
Forsure W 詳細內容在github
 
------------------------------------------------------------------------------------------------------------------------------------
Meng-Ying T Rfacebook 爬蟲
詳細內容參見Github
  • 安裝
  • install.packages("Rfacebook")  
  • 抓public post
  • token <- "XXXXXXXXXXX"
  • posts <- searchFacebook(string = "upworthy", token, n = 500, 
  •                         since = "25 november 2015 00:00", until = "25 november 2015 23:59")
出現錯誤訊息 : 
  • Searching for posts was deprecated with version 2.0 of the Facebook Graph API.
  • For more details see ?searchFacebook
Meng-Ying T
  • Rfacebook的版本貌似太舊了呢QAQ"
 
Hsu H
Hsiao W 安裝
  • install.packages('twitteR')
  • install.packages('base64enc')
  • install.packages('httk')
  • install.packages('httpuv')
授權
  • setup_twitter_oauth('API Key', 'API Secret')
搜尋字串
  • searchTwitteR('陸生健保', n= 100)
Result
[[1]]
[1] "rugecedovyxu: 陸生納健保意見多 教育部:盼境外生一致 https://t.co/ABW0vemXrw"
Hsiao W
  • 只有一筆output
 
Weihang
  • 第八組
 
  • import json
  • import requests
  • r = requests.get(url)
 
 
547 days ago
Unfiled. Edited by Shu-Kai Hsieh 547 days ago
Shu-Kai H Artificial Wisdom
as the deepest level of LOPEN project 
 
 Goal
  • (for linguistics) 建立「智慧的語言資源」 (incl. corpus, lexicon and ontologies)。
  • 可以幫助古典語言(漢梵藏巴希)學習。
  • 可以對於語言接觸與漢語演化史研究有幫助。
  • 宗教經典中的知識整理與標記 (annotation),可以做成搜尋介面,回答類似:聖經中對於同性戀的態度;古蘭經的聖戰概念;佛典對於墮胎的看法,更進一步,佛典對於量子物理發現的對應建立。 
  • (for AI) Deep learning / Learning Deep :深度學習演算法達到高潮的同時,同時讓機器學習的「知識運算透明度」降低。新一代的機器需要有一群是在智慧資源下訓練出來的,學的是 Artificial wisdom 不只是 artificial intelligence。
 
第一步:先從佛經做起
 
現況:主要是從數位人文角度出發,探究漢語史的問題。近幾年加入了自然語言處理。
 
  • (數位人文)/法鼓學院  杜正民                     佛教數位工具平台
  • (自然語言處理)/香港城市大學 John Lee   Treebank for the Chinese Buddhist Canon
 
CBETA 是相當好的資源
 
欠缺:
  • 較好的平行語料庫 (parallel corpora) 介面與查詢。
  • alignment with 梵 | 藏 | 巴 | (多種)漢譯
  • 結合雙語(佛學)辭典,搜尋時自動標記出相應語詞
  • 僧侶法師詮解的知識整理與人工標記 (annotation)
  • 與現代科技發展進度的對應關係與標記
  • 現代人關於存在、心靈層面的討論與對於宗教經典的詮解。
 
 
 
需要的投入
  • 爬蟲與語言資源組 
  • 知識工程組 (知識整理與標記)
  • 機器學習組
 
 
 
 
Practice 2015.11.28
《維摩詰經》對勘材料 
crawling, cleaning, index (vertical format), create parallel corpus in COPENS
漢譯佛經梵漢對比分析語料庫
 
漢語佛經斷詞 
140.112.26.229/cbetalexicon/wordseg.py
 
 
Research
 
 
 
 

Contact Support



Please check out our How-to Guide and FAQ first to see if your question is already answered! :)

If you have a feature request, please add it to this pad. Thanks!


Log in