动手学深度学习 v2.0gutenberg.org/ebooks/35 8.2. 文本预处理 299 (continued from previous page) tokens = tokenize(lines) for i in range(11): print(tokens[i]) ['the', 'time', 'machine', 'by', 'h', 'g', 'wells'] [] [] [] [] __init__(self, tokens=None, min_freq=0, reserved_tokens=None): if tokens is None: tokens = [] if reserved_tokens is None: reserved_tokens = [] # 按出现频率排序 counter = count_corpus(tokens) self._token_freqs items(), key=lambda x: x[1], reverse=True) # 未知词元的索引为0 self.idx_to_token = [''] + reserved_tokens (continues on next page) 300 8. 循环神经网络 (continued from previous page) self.token_to_idx = {token: 0 码力 | 797 页 | 29.45 MB | 1 年前3
AI大模型千问 qwen 中文文档decode() to get the output. # Use `max_new_tokens` to control the maximum output length. generated_ids = model.generate( model_inputs.input_ids, max_new_tokens=512 ) generated_ids = [ output_ids[len(input_ids):] zip(model_inputs.input_ �→ids, generated_ids) ] response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0] 以前,我们使用 model.chat() (有关更多详细信息,请参阅先前 Qwen 模型中的 modeling_qwen. py )。现在,我们遵循 transformers streamer = TextStreamer(tokenizer, skip_prompt=True, skip_special_tokens=True) generated_ids = model.generate( model_inputs.input_ids, max_new_tokens=512, streamer=streamer, ) 1.2.2 使用 vLLM 部署 要部署 Qwen1.5,我们建议您使用0 码力 | 56 页 | 835.78 KB | 1 年前3
MoonBit月兔编程语言 现代编程思想 第十一课 案例:语法解析器与Tagless Final 在单词之间可能存在空格 1. let tokens: Lexer[List[Token]] = 2. number.or(symbol).and(whitespace.many()) 3. .map(fn { (symbols, _) => symbols }) // 忽略空格 4. .many() 5. 6. fn init { 7. debug(tokens.parse("-10123-+-523 -> Option[(V, List[Token])] 2. 3. fn parse[V](self : Parser[V], tokens : List[Token]) -> Option[(V, List[Token])] { 4. (self.0)(tokens) 5. } ⼤部分组合⼦与 Lexer[V] 类似 递归组合: atomic = Value / "(" expression -> Parser[Expression] { 2. // 定义互递归函数 3. // atomic = Value / "(" expression ")" 4. fn atomic(tokens: List[Token]) -> Option[(Expression, List[Token])] { 5. lparen.and( 6. Parser(expression)0 码力 | 25 页 | 400.29 KB | 1 年前3
Moonshot AI 介绍其在 ⼤模型⽀持的上下⽂窗⼝⽅⾯。 上下⽂窗⼝有多重要?回想⼀下使⽤ChatGPT处理⻓⽂的经历,你是不是也经常收到「⽂本过⻓」的 提⽰?这是因为ChatGPT⾄多只⽀持32ktokens(约2.5万汉字)的上下⽂。这⼀限制让很多⾏业的 从业⼈员都很头疼,尤其是律师、分析师、咨询师、prompt⼯程师等需要分析、处理较⻓⽂本的⼯ 作。 此外,token数量 重模型「幻觉」,就像 Character.AI等聊天AI产品的⽤⼾所抱怨的那样。 为了解决这些问题,Anthropic在其产品Claude2.0中提供了100ktokens(实测约8万汉字)的上 下⽂窗⼝,⼤⼤扩展了其产品的应⽤空间。 那么,如果这个窗⼝再⼤⼀点呢? 这是国内⼤模型初创公司MoonshotAI推出的⼤模型智能助⼿Kimi智能助⼿,拥有超⻓的上下⽂窗 ⾄能⼀次处理20万字,⼤约是Claude2.0中⽂上下⽂窗⼝的2.5倍,是全球市场上能够产品化使⽤的 ⼤模型服务中所能⽀持的最⻓上下⽂输⼊⻓度。GPT-4等英⽂为基础的模型产品需要做到接近250k tokens才能获得与Kimi智能助⼿同等的汉字上下⽂窗⼝。 那么,这么⼤的上下⽂窗⼝⽤起来是⼀种怎样的体验?MoonshotAI是怎么做到这⼀点的?在该功能 开放内测之际,机器之⼼在第⼀0 码力 | 74 页 | 1.64 MB | 1 年前3
Comprehensive Rust(简体中文) 202412parse(input: &str) -> Expression { let mut tokens = tokenize(input); fn parse_expr<'a>(tokens: &mut Tokenizer<'a>) -> Expression { let Some(tok) = tokens.next() else { panic!("Unexpected end of input"); binary operation if present. 170 match tokens.next() { None => expr, Some(Token::Operator(op)) => Expression::Operation( Box::new(expr), op, Box::new(parse_expr(tokens)), ), Some(tok) => panic!("Unexpected ("Unexpected token {tok:?}"), } } parse_expr(&mut tokens) } fn main() { let expr = parse("10+foo+20-30"); println!("{expr:?}"); } 29.6.1 解答 use thiserror::Error; use std::iter::Peekable; use std::str::Chars;0 码力 | 359 页 | 1.33 MB | 10 月前3
Zabbix 5.4 中文手册also been updated in the Host availability dashboard widget (see details) API tokens Support of API authorization tokens has been added. Now it is possible to access Zabbix API using either a token or opportunity to allow/deny management of API tokens has been added to user role permissions. Super admins with sufficient permissions can create and manage API tokens in the Administration→General 397 frontend frontend section or via the new token.* API methods. Other users with permission to manage API tokens can view tokens assigned to them in user settings or via API. JavaScript objects Naming The ’CurlHttpRequest’0 码力 | 2339 页 | 19.57 MB | 1 年前3
从零蛋开始学 Rustprintln!("\n"); let tokens:Vec<&str>= fullname.split("�").collect(); println!("�� is {}",tokens[0]); println!("�� {}",tokens[1]); println!("�� {}",tokens[2]); } token is �� token0 码力 | 168 页 | 1.24 MB | 1 年前3
Laravel 5.3 中文文档tokens> tokens> 如果你不想使用 Vue 组件,欢迎提供你自己的用于管理客户端和访问令牌的前端后台。Passport 提供了一个简单的 JSON API,你可以在前端使用任何 /components/passport/AuthorizedClients.vue') ); Vue.component( 'passport-personal-access-tokens', require('./components/passport/PersonalAccessTokens.vue') ); 注册完成后,就可以将它们放到应用的某个模板中以便创建客户端和私人访问令牌:tokens> tokens> 本文档由 Laravel 学院(LaravelAcademy.org)提供 Laravel 学院致力于提供优质 Laravel 中文学习资源0 码力 | 691 页 | 9.37 MB | 1 年前3
大学霸 Kali Linux 安全渗透教程有命令。从输出的信息中可以看到列举当前 有效的令牌命令是list_tokens。执行以上命令后将输出大量信息,由于篇幅原因, 部分内容使用省略号(……)取代了。 (3)列举所有令牌。执行命令如下所示: 大学霸 Kali Linux 安全渗透教程 289 7.1 使用假冒令牌 meterpreter > list_tokens -u [-] Warning: Not currently running running as SYSTEM, not all tokens will be available Call rev2self if primary process token is SYSTEM Delegation Tokens Available =============================================== AA-886OKJM26FSW\Test Impersonation Tokens Available =============================================== No tokens available 从输出的信息可以看到分配的有效令牌有AA-886OKJM26FSW\Test。其中AA- 886OKJM26FSW表示目标系统的主机名,Test表示登录的用户名。 (4)使用impersonate0 码力 | 444 页 | 25.79 MB | 1 年前3
9 盛泳潘 When Knowledge Graph meet Python cluster comprises approximately 30 documents with on average 1,316 tokens, which leads to an average topic cluster size of 2,632 tokens. It is 3 times larger than typical DUC1 clusters of 10 documents.0 码力 | 57 页 | 1.98 MB | 1 年前3
共 186 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19













